Chinaunix首页 | 论坛 | 博客
  • 博客访问: 496459
  • 博文数量: 77
  • 博客积分: 4011
  • 博客等级: 上校
  • 技术积分: 800
  • 用 户 组: 普通用户
  • 注册时间: 2004-10-10 09:53
个人简介

天天向上

文章分类

全部博文(77)

文章存档

2010年(1)

2008年(21)

2007年(39)

2006年(10)

2004年(6)

我的朋友

分类:

2007-07-22 09:24:54

前段时间一个朋友要录入一个文件,看他录得恼火,就给他推荐使用OCR软件来进行扫描识别。友人以前不知识有OCR软件这一说,一听功能很神奇就是兴奋高兴,可计算机上的东西往往是超出了想象,或者说是和想象有很差别。

于是乎在网上google了个清华紫光的,一看介绍还是国家什么科技项目,引用一个网站的项目介绍如下:

在国家“863”计划支持下,持续了十多年的科研成果,从1.0版本开始已经升级到现在的9.0版本。独家真正实现了汉英混排同时识别,在国际上首次突破 了OCR产品只能处理汉字或英文单一文字的局限性,新增了东方文字(简繁汉、日文、韩文)识别功能,对日文和韩文与英文混排文档的识别水平甚至超过日本和 韩国对本国文字的识别水平,在国内、外产生了重大的影响,并连续3年被中国软件行业协会评为优秀软件产品,成为汉字输入技术的一座里程碑。

一看就知道是“德国的鸟,得了",应该反映的国内的最高水平,估计国外没搞中文OCR,所以应该也是最那个的中文OCR软件。但实际试用之后才叫人不敢恭维,也不知道是扫描仪有问题还是什么的。

我自己想象中的OCR软件应该具有这些功能:

输入:支持各种图像设备,相机,扫描仪,摄像头;支持各种图片格式,jpg,gif,png,bmp.....

处理:首先是格式段落识别,对文档框架要先分析清楚。再是文字字体分析,对各种文字字体要分析清楚。文字识别时应该加入一些人工智能的技术,如分词联想;如果文档有标题,看能不能对文档进行分类,例如,可能是一份简历,一份计算机方面的论文,一份经济报告,合同;这些文档标题应该都有代表性的文字。文档分类后,在应用分词技术是可以先匹配相应分类的词。字体识别,可以对已经成功识别的字体进行分析,对未识别的在同一字体段落的只进行这一字体字形的匹配,匹配时先查找可能的词组的常用句式。 使用分词联想和字体识别应该可以大大提高识别率。
总之,文档识别要从人的角度来考虑。

输出:应该支持PDF,这些开放文档格式,使用rtf和txt没有什么实用价值,生成网页格式也可以是开放标准,可以支持图文混排,表格,彩色文字等。可以方便的复制到其它文档,而且还能保留文档格式。
阅读(1328) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~