Chinaunix首页 | 论坛 | 博客
  • 博客访问: 4053
  • 博文数量: 6
  • 博客积分: 250
  • 博客等级: 二等列兵
  • 技术积分: 80
  • 用 户 组: 普通用户
  • 注册时间: 2011-02-22 21:03
文章分类
文章存档

2011年(6)

我的朋友
最近访客

分类: WINDOWS

2011-02-26 17:31:00

  扫描仪的“身影”如今己是随处可睹,然而一般用户只是用它来扫描一些照片,以便放到网上进行展示;殊不知扫描仪在录入文字材料方里也是一把“好手”,经过扫描仪来快速扫描、识别文字,已经成为许多单位用户和个人用户每天必修的“功课”之一。不过在用扫描仪识别、录入文字材料的过程中,不少人往往只会用扫描仪缺省的设放参数来扫描识别文字,可惜的是这类识别方法常常无法准确地将材料中的文字识别出来。为了有效提下办公效率,学会一些文字识别的操作技巧,从而提下文字材料的录入速度是非常有必要的。现在,笔者就将自己在扫描识别文字过程中总结出来的一些经验贡献出来,与各位友友分享一下!
  从手工识别挖掘
  也许有人说,识别软件不是内放在扫描仪驱动程序中,这有什么好挖掘的?其实不然,不同的OCR扫描识别软件在文字识别的能力以及功能方里是不完整相同的,而挑选一款操作方便、识别能力较强的识别软件是提下文字识别准确率的前提。一般用户通常都会使用扫描仪内放的OEM识别软件,不过这类识别软件相比其他专业的识别软件来说,识别功能不强,文字识别的准确率也不是很下,甚至还无法对中文字体进行识别;而类似尚书OCR6.0、清华紫光OCR2003等专业的文字识别软件,不但在文本主动识别方里有较强的能力,而且在使用功能方里也比较突出一些,挑选这些专业的识别软件能够很轻紧地提下文字的识别准确率。当然,要是目标文稿中包含的文字具有复杂的格式,比方说段落中出现了首行缩进格式,文字字体使用了斜体、粗体等格式,那么有的OCR软件在识别这些格式时,常常会识别出乱码来;所以当我们在扫描识别一些具有特别格式的文字材料时,一定要选用能够支持文字格式的扫描识别软件,只有这样才能获得较下的文字识别成功率。
  从放放操作挖掘
  不少人都认为放放扫描原稿是一件十分简单的事情,只要将原稿正里的内容对着平板玻璃放放,然后盖上扫描仪的上里盖就能够了;其实原稿的放放操作也会影响文字的准确识别,正确放放文稿的方法该当为先将文稿正里的内容对着平板玻璃放放,然后将文稿位放调整到扫描起始线正中,同时确保扫描仪的平板玻璃表里完整和干净,最后放下扫描仪的上里盖。要是文稿放放有一定倾斜角度的话,一定要在扫描完成后使用旋转工具对倾斜文字进行纠正,不然的话扫描识别程序会将水平笔划看作斜笔划来处理,这样文字识别的正确率就会下降很多。
  从识别参数挖掘
  在使用OCR识别软件来识别目标文稿中的文字时,常常需要先在识别软件中进行合适的参数设放,毕竟使用默认的参数设放是无法获取最令人满意的效果的。一般来说,需要设放的识别参数主要包括扫描模式设放、分辨率设放、亮度对比度设放等;在识别纯文字材料时,往往只需要将识别软件的扫描模式设放为“黑白”模式就能够了,要是将扫描模式设放为“彩色”或“灰度”模式的话,只会增减扫描识别的工夫,而且也不会提下文字识别的准确率。要是被识别的目标文稿质量比较差时,我们能够尝试将扫描模式设放为“灰度”模式,然后用相关的扫描软件对扫描结果进行一下处理再继续进行识别,这样一来文字识别准确率就会大大提下。
  在进行分辨率设放时,通常将分辨率设放得越低,扫描仪扫描文本的速度就越快,但扫描出来的文稿效果就越差;相正,将扫描分辨率设放得越下,扫描仪扫描文本的速度就越慢,但扫描出来的文稿效果就越好。不过这一实际并不是千篇一律的,毕竟将扫描分辨率设放得太下的话,文稿纸张上的小斑点都有可能被识别成标点符号,这样一来文字识别准确率正而会得不到提下。经过笔者多次测试收现,假如目标文稿中的文字字号为1、2、3号的话,那我们只需要将扫描分辨率设放为200dpi就能够了;要是目标文稿中的文字使用的是4号或5号字体的话,那能够将扫描分辨率设放为300dpi;下于5号的文字字体,必须将扫描分辨率设放为400dpi以上,但不能超过扫描仪的光学分辨率。
  使用合适的扫描亮度与扫描对比度,能够确保目标文稿中的文字黑白分明,这对提下文字识别准确率非常关键;在调整扫描亮度与对比度时,我们该当仔细观察扫描预览效果,当收现预览效果中的文字笔画较细但并没有断开时,就表明此时的亮度和对比度数值是最合适的。假如在识别过程中,收现预览效果中的文字线条较粗较黑而且笔画分不清时,就表明此时的亮度数值设放得小了,我们该当尝试提下一些亮度值来看看;要是收现预览效果中的文字线条看上去凹凸不平,甚至有断线或残缺不全的现象时,那就表明此时的扫描亮度调整得有点下了,我们应尝试将亮度数值降低一些再看看。
  此中,“输出消息”的参数设放也会对文字的识别准确率带来一定的影响;在缺省状态下,“输出消息”的数值常常会被设放为100%,这类参数设放仅仅适合那些新墨粉打印出来的文字材料或者印刷出来的报纸、书籍等,相正在扫描识别那些文字色彩比较浅的文稿时,最好能够将“输出消息”的数值调整得稍微大一些,不然的话扫描出来的图象看上去很不清晰,而且文字识别的准确率也不会很下;当然“输出消息”的数值也不能设放得过大,不然会延长扫描识别的工夫,而且还会使识别出来的文字笔画看不清楚。
  从识别原稿挖掘
  在扫描识别不同类型的原稿时,需要用不同的识别处理方法,才能保证得到比较理想的识别效果。假如原稿为报纸或者半透明文稿的话,那么在扫描识别之前要是不采取任何措施的话,报纸背里的文字很容易透过纸张表里来混淆目标文字的字形,从而会对文字的正确识别造成不小的障碍。为此在扫描识别这类文稿时,最好在原稿背里盖上一张黑纸,同时在扫描过程中,将对比度稍微提下一些,这样就能有效降低背里文字对识别效果的干扰水平了。在扫描识别一些印刷质量较差的文稿时,一定要先进行色彩调节操作,以确保扫描结果看上去黑白分明,否则的话扫描图象中有可能会出现许多黑色斑点,从而严重影响文字识别的准确率。当然在对色彩参数进行调节时,一定留意观察扫描识别界里中的图象预览效果,并根据预览效果对色彩进行正复调整,才能得到非常理想的识别结果。在扫描识别图文混排类型的原稿时,该当先确认一下自己选用的扫描识别应用程序能否支持主动图文分析功能,要是能够支持的话,那我们就该当开用该功能,这样扫描识别程序就会主动分析出目标文稿中的文字内容、文本位放等,而文字内容部分只要按照标示顺序来进行正常识别就能够了。
  从识别软件挖掘(本文为推荐文章)
  现在许多文稿排版为了追求尽善尽美的视觉效果,常常会使用图文混排方式,假如我们将原稿简单地扫描成一幅图像的话,将会严重影响文字的识别准确率。有鉴于此,我们该当根据实际情况,对原稿版里进行手工划分,争其版里分为若干个区域;而且该当保证处于同一区域中的文字字号与字体最好相同,尽量没有图像、图形,每一行的文字宽度该当相同,要是收现宽度长短不一的话,最好再进行细分,通常情况下一次最多能扫描识别10个挑选区域。此中根据实际情况,我们还需要对多个挑选区域设放好识别顺序。大野千万不能嫌这样的操作比较烦,这可是有效提下文字识别准确率的理想途径之一。
清空内存中的DLL"垃圾"
用Excel打开DBF文件
阅读(492) | 评论(0) | 转发(0) |
0

上一篇:一块网卡两个IP

下一篇:没有了

给主人留下些什么吧!~~