Chinaunix首页 | 论坛 | 博客
  • 博客访问: 397315
  • 博文数量: 159
  • 博客积分: 372
  • 博客等级: 一等列兵
  • 技术积分: 1693
  • 用 户 组: 普通用户
  • 注册时间: 2012-01-13 17:05
个人简介

致力于图形处理和移动开发。

文章分类

全部博文(159)

文章存档

2014年(77)

2013年(67)

2012年(15)

我的朋友

分类: Windows平台

2013-08-23 14:28:36

只要有扫描仪和光学字符识别(OCR)软件,将扫描文档转换成Word文档是相当容易的。扫描仪将纸质文档转换成扫描图像,而光学字符识别(OCR)软件则将所扫描的图像转换成PDF和Word等可编辑和可搜索的文档格式。在文档的转换过程中,OCR软件技术主要用来分析和比较带有数据库中所存字体的文档。虽然,OCR软件的识别准确率不可能达到100%,但是一些OCR软件包含拼写检查功能,可查出无法辨认的字。本文对多款常用OCR软件的性能进行了多角度的对比,希望为用户在选择和使用OCR软件时候提供一些实用性参考。

光学字符识别(OCR)软件比较

名称 支持平台 编程语言 字体语言 输出格式 备注
Tesseract Windows/MacOSX
/Linux
C++, C 40+ 文本,hOCR,其他 开源,支持中文
ExperVisionTypeReader

Windows/MacOSX
/Linux

C/C++ 21 hOCR 多次获奖;不支持中文
Windows/MacOSX
/Linux
C/C++ 198 DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2 世界排名第一;识别精度达99%;
Windows/MacOSX
/Linux
C/C++, .NET, Objective-C, Java, JavaScript 56 PDF, PDF/A, DOC, DOCX, XLS, XPS, RTF, HTML, ANSI Text, Unicode Text, CSV 支持拉丁语, 亚洲语言,阿拉伯语,MICR字符集;支持整页或者部分区域的OCR识别;
CuneiForm/OpenOCR Windows/MacOSX
/Linux
C/C++ 28 ? 企业级系统,可以保存文本格式,并识别结构的复杂表格
Image to OCR Converter Windows C/C++, VB , .NET 40 PDF, Word, HTML, Text 读取的图像格式和PDF文件,并可以从照相机扫描图像
Windows C/C++ 40+ PDF, TXT -
Puma.NET Windows C# 28 ? -

阅读(1153) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~