致力于图形处理和移动开发。
分类: Windows平台
2013-08-23 14:28:36
只要有扫描仪和光学字符识别(OCR)软件,将扫描文档转换成Word文档是相当容易的。扫描仪将纸质文档转换成扫描图像,而光学字符识别(OCR)软件则将所扫描的图像转换成PDF和Word等可编辑和可搜索的文档格式。在文档的转换过程中,OCR软件技术主要用来分析和比较带有数据库中所存字体的文档。虽然,OCR软件的识别准确率不可能达到100%,但是一些OCR软件包含拼写检查功能,可查出无法辨认的字。本文对多款常用OCR软件的性能进行了多角度的对比,希望为用户在选择和使用OCR软件时候提供一些实用性参考。
名称 | 支持平台 | 编程语言 | 字体语言 | 输出格式 | 备注 |
Tesseract |
Windows/MacOSX /Linux |
C++, C | 40+ | 文本,hOCR,其他 | 开源,支持中文 |
ExperVisionTypeReader |
Windows/MacOSX |
C/C++ | 21 | hOCR | 多次获奖;不支持中文 |
Windows/MacOSX /Linux |
C/C++ | 198 | DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2 | 世界排名第一;识别精度达99%; | |
Windows/MacOSX /Linux |
C/C++, .NET, Objective-C, Java, JavaScript | 56 | PDF, PDF/A, DOC, DOCX, XLS, XPS, RTF, HTML, ANSI Text, Unicode Text, CSV | 支持拉丁语, 亚洲语言,阿拉伯语,MICR字符集;支持整页或者部分区域的OCR识别; | |
CuneiForm/OpenOCR |
Windows/MacOSX /Linux |
C/C++ | 28 | ? | 企业级系统,可以保存文本格式,并识别结构的复杂表格 |
Image to OCR Converter | Windows | C/C++, VB , .NET | 40 | PDF, Word, HTML, Text | 读取的图像格式和PDF文件,并可以从照相机扫描图像 |
Windows | C/C++ | 40+ | PDF, TXT | - | |
Puma.NET | Windows | C# | 28 | ? |
- |