扫描仪是一种很依赖软件的硬件。如果没有好的识别软件,那么扫描仪就像空有一身的肌肉而没有好的大脑,扫描出来的作品质量也就可想而知了。大部分人在购买扫描仪的时候都把文字录入作为主要的用途来考虑,这时文字识别软件就成了引人注目的焦点。在1996年清华紫光开始搭配中文识别软件之前,市场上的扫描仪和OCR软件一直是分开卖的。随着扫描仪分辨率的提升,紫光的软件也随之升级,目前最新的版本是TH-OCR2000(千禧版)。
买扫描仪送专业OCR软件?
专业的OCR软件在以前一直都是昂贵的代名词,不久前卖得比扫描仪还要贵,而紫光居然把专业的OCR软件搭配自己的所有扫描仪出售。对于其他的扫描仪生产厂家来说,这是很困难的事情,但是对于紫光却很容易。紫光的优势在于“软”、“硬”兼备:清华紫光不仅是扫描仪生产厂商,也是高水准的OCR专业软件供应商。而没有一个用户不希望自己在扫描文字的时候识别率更高,所以拥有一套专业的OCR便成为每一个用户的首要目标。以前,用户买得起扫描仪,却买不起OCR,就像“买得起马,配不起鞍”一样,这已成了制约扫描仪普及的瓶颈之一。而这回清华紫光却率先将自己的拳头产品――TH-OCR2000千禧版提供给用户,这对用户来讲不啻是一个天大的喜讯。
什么是OCR?
首先让我们来看一看常说的OCR是什么意思。OCR是“光学字符识别”(Optical Character Recognition)的英文缩写。中文OCR是针对汉字信息高速输入计算机的问题,致力于解决困扰汉字使用者低速信息输入与高速信息处理的矛盾,从而提高整个计算机系统的效率。它的工作原理是通过扫描仪等光学输入设备获取纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出文字的标准编码,并按通用格式存储为计算机的文本文件格式。用户只要用扫描仪将整页的文本或图像输入计算机,OCR软件就会自动产生汉字文本文件,比手工输入要快几十倍。这样的功能对文字工作者很有用,如报社记者、网站编辑等。这些用户经常会处理大量的信息,除了电子文档以外,还有很多来自报纸、杂志等纸介质。对于一些有用的资料,通常是复印保存,但这在资料数量少时还好办,一多了就塞得到处都是。不过只要通过扫描仪就可以将这些资料识别整理到电脑里去,几个Word文档就可以替代整叠的文件,岂不是省了很多的精力?
TH-OCR2000――紫光的骄傲
TH-OCR2000是目前清华紫光最新的OCR识别软件,而紫光扫描仪又是市场上占有率最高的扫描仪产品之一,所以这个黄金组合就成了消费者竞相瞩目的对象。清华文通TH-OCR从最初的1.0版本到现在,经历了一个不断完善和发展的过程。尤其是最近推出的TH-OCR千禧版,它不是一个简单的升级版本,而是一个可以称得上是专业级别的OCR软件了。TH-OCR2000针对我国现存的实际印刷品中字符集较大和字体多种多样的问题,添加了超大字符集(13053字)和超多种汉字字体(近百种)的汉字识别系统,可适应各种历史时期的不同印刷品的文字识别需求。同时,TH-OCR2000将纵向查错校正算法和传统的横向查错校正算法相结合,使得电子文本的识别错误率降低到了万分之一以下。在对彩色和复杂报纸版面进行自动版面分析的基础上,TH-OCR2000实现了对版面的标题、篇章和阅读顺序等的智能理解,最终生成了“原式原样”版面精确重构的PTF、RTF、Html标准格式电子文档。
测试千禧
我们把OCR测试样本分为三种:中文报纸、中文激光打印样本和中西文混排激光打印样本。因为本次测试重点在识别软件,所以增加了带有表格和图片的复杂样本。测试的平台如表1所示。
表1 测试系统配置
CPU 毒龙600
内存 128MB
硬盘 IBM30GB 7200转/分钟
扫描仪 清华紫光小天使A2000
1. 识别率
在进行针对报纸文稿OCR识别测试时,需要修改对比度和亮度参数。这是因为报刊纸质比较粗糙,颜色较暗,只有通过调整扫描参数才能达到较好的识别效果。可以通过TH-OCR2000自带的界面来调节设置分辨率和亮度参数,这对识别率来说是很重要的。调整时要注意亮度太高会导致笔画断裂,而亮度太低会导致笔画堆积、模糊,所以如果您对扫描设置还没有什么经验的话,最好还是选择自动确定,由TH-OCR2000来设定好了。激光输出的中英文样本的OCR相对简单,一般使用默认扫描参数就可以达到很好的识别效果。注意扫描的色彩一定要是“黑白”的。根据我们的测试,只要扫描的文件清晰,识别率都很高,完全可以达到厂商所宣传的98%的识别率。而对于中英混排的文字,识别的效果稍差。不过识别率也能够达到90%以上。识别率测试结果如表2所示。
表2 识别率测试数据
分辨率 亮度 字体 字号 百分率 类型
300 0 宋体 5 98% 中文
300 58 宋体 5 92% 中英文
300 0 宋体 5 98%以上 中文表格
识别过的文本通常会被送入编辑环境,并自动生成文本文件。除Windows标准的编辑环境外,TH-OCR2000还提供了自己的编辑环境。此外,TH-OCR2000的校对功能会在屏幕上显示出识别结果文本及与之相对应的原始扫描图像,用户可以脱离原稿编辑处理,并将其发送到相关的应用程序中(如Word等);计算机通过“自学习和修改字库”记忆相关的生僻字,以便下次直接使用,或通过修改字库删除。
2.表格的识别
TH-OCR2000之所以能称为专业版,很大程度上是因为对于扫描源文件的还原能力很强,它可以把识别完成的文件以Web页的格式存储。表格文字的识别率是比较高的,相对于纯中文文本也毫不逊色。不过,要识别的表格必须是正规的表格,不能有特效处理,否则将无法识别或者效果较差。而且在识别输出的Web页中,会看到个别的字体会和表格重合起来。用户可以通过Word来消除这个问题。
3. 纵向校对和原样恢复
清华文通OCR2000版本中首次采用了纵向校对技术,这不仅是国内首家实现该功能的产品,而且也是该软件较之以往版本最突出的特点。通过纵向校对,我们可以将一篇文章中所有相似的字找出来进行组织排序,列出所有可疑的字,以便取舍。通过这样的设计,可以把排错率控制在万分之一以内。
4. 识别速度
值得一提的就是它的识别速度,因为这也是影响识别工作效率高低的一个重要参数。我们采用不同质量样本进行测试后得出结论:TH-OCR2000的字符识别速度大约在30字/秒~50字/秒的范围内。当使用扫描识别质量很好的打印文稿时,识别速度基本在70字/秒以上。
试用后记
一款定位于电子出版物制作的识别软件在短短的时间内就变成随机附送的软件,使我们不得不感叹于市场竞争的激烈。凭借良好的识别速度、易用性,TH-OCR2000把用户从繁重的输入工作中解脱出来。
|