OCR 软件之乱言-goat-ChinaUnix博客

自强不息!

首页　| 　博文目录　| 　关于我

goat

博客访问： 501071
博文数量： 77
博客积分： 4011
博客等级：上校
技术积分： 800
用户组：普通用户
注册时间： 2004-10-10 09:53

个人简介

天天向上

文章分类

全部博文（77）

GIS（0）
测量（0）
AutoCAD（0）
A.I.（0）

自主学习（0）

数据挖掘（0）

知识表示（0）

语义识别（0）

中文分词（0）
Windows（4）
Hardware（2）
Cisco（24）

Certificate（4）

Other（1）

Feature（2）

LAB（5）

Emluator（5）

Switch（3）

Router（4）
心情（17）
FreeBSD（30）
未分配的博文（0）

文章存档

2010年（1）

2008年（21）

2007年（39）

2006年（10）

2004年（6）

我的朋友

最近访客

推荐博文

OCR 软件之乱言

分类：

2007-07-22 09:24:54

前段时间一个朋友要录入一个文件，看他录得恼火，就给他推荐使用OCR软件来进行扫描识别。友人以前不知识有OCR软件这一说，一听功能很神奇就是兴奋高兴，可计算机上的东西往往是超出了想象，或者说是和想象有很差别。

于是乎在网上google了个清华紫光的，一看介绍还是国家什么科技项目，引用一个网站的项目介绍如下：

在国家“863”计划支持下，持续了十多年的科研成果，从1.0版本开始已经升级到现在的9.0版本。独家真正实现了汉英混排同时识别，在国际上首次突破了OCR产品只能处理汉字或英文单一文字的局限性，新增了东方文字（简繁汉、日文、韩文）识别功能，对日文和韩文与英文混排文档的识别水平甚至超过日本和韩国对本国文字的识别水平，在国内、外产生了重大的影响，并连续3年被中国软件行业协会评为优秀软件产品，成为汉字输入技术的一座里程碑。

一看就知道是“德国的鸟，得了",应该反映的国内的最高水平，估计国外没搞中文OCR，所以应该也是最那个的中文OCR软件。但实际试用之后才叫人不敢恭维，也不知道是扫描仪有问题还是什么的。

我自己想象中的OCR软件应该具有这些功能：

输入：支持各种图像设备，相机，扫描仪，摄像头；支持各种图片格式，jpg,gif,png,bmp.....

处理：首先是格式段落识别，对文档框架要先分析清楚。再是文字字体分析，对各种文字字体要分析清楚。文字识别时应该加入一些人工智能的技术，如分词联想；如果文档有标题，看能不能对文档进行分类，例如，可能是一份简历，一份计算机方面的论文，一份经济报告，合同；这些文档标题应该都有代表性的文字。文档分类后，在应用分词技术是可以先匹配相应分类的词。字体识别，可以对已经成功识别的字体进行分析，对未识别的在同一字体段落的只进行这一字体字形的匹配，匹配时先查找可能的词组的常用句式。使用分词联想和字体识别应该可以大大提高识别率。
总之，文档识别要从人的角度来考虑。

输出:应该支持PDF，这些开放文档格式，使用rtf和txt没有什么实用价值，生成网页格式也可以是开放标准，可以支持图文混排，表格，彩色文字等。可以方便的复制到其它文档，而且还能保留文档格式。

阅读(1344) | 评论(0) | 转发(0) |

上一篇：日记 [2007年06月28日]考过892后的心情

下一篇：OCR 软件之乱言续1

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6