一、概述
从网上下载的pdf图书文件,大部分都是直接扫面的书而生成的图片,这些pdf不能编辑,不能将里面的文字拷贝。此问题一直困扰这我。曾经使用过一些OCR软件,但是识别率非常低,纠错都非常麻烦,还不如直接打字打出来呢。
OCR软件,说白了就是从图片里面把字扣出来。识别率的高低主要是看OCR软件使用的技术,而后才是图片的清晰度。
二、尚书七号
最近发现了个人感觉最好的OCR软件──尚书七号。
识别率高,易于纠错。
本软件系统是应用OCR(Optical Character Recognition)技术,为满足书籍、报刊杂志、报表票据、公文档案等录入需求而设计的软件系统。 目前,许多信息资料需要转化成电子文档以便于各种应用及管理,但因信息数字化处理的方式落后,不但费时费力,而且资金耗费巨大,造成了大量文档资料的积压,因此急需一种快速高效的软件系统来满足这种海量录入需求。本软件系统正是适用于个人、小型图书馆、小型档案馆、小型企业进行大规模文档输入、图书翻印、大量资料电子化的软件系统。
●识别字符
简体字符集:国标GB2312-80的全部一、二级汉字6800多个。
纯英文字符集。
简繁字集:除了简体汉字外,还可以混识台湾繁体字5400多个以及香港繁体字和GBK汉字。
●识别字体种类
能识别宋体、仿宋、楷、黑、魏碑、隶书、圆体、行楷等一百多种字体,并支持多种字体混排。
●识别字号
初号 小六号字体。
●表格识别
可以自动判断、拆分、识别和还原各种通用型印刷体表格。
●可支持繁体WINDOWS系统
|
三、从pdf到txt
从pdf中扣字,然后生成txt。首先,pdf要转换成图片,因为尚书七号是从图片里面识别的。
1、pdf变成图片
在此我使用的是PDFtoJPG 1.2.3,使用方法非常简单,以一张图片来说明。
2、尚书七号打开图片
上一步已经将pdf文件转换成了单页的jpg文件,现在打开尚书七号,开始我们的转换之路。
3、划分板面
打开图片之后,为了更方便地分析识别后的结果,划分板面还是比较重要的。
板面的划分,是为了分析结果按板面的顺序排列。板面分析主要是为了有两列并排这种页面的分析结果更方便我们纠错。
软件提供了自动“板面分析”的功能,也可以用鼠标手工划分板面。
4、开始自动识别
软件开始自动识别图片中的内容。
5、纠错
软件将识别结果显示在板面右侧,分上下两部分显示:上部分是识别结果,下部分是原图片。
最上面显示的是鼠标选中的字的识别结果,列出了10个最相近的字备选。当然有可能识别错误,10个备选字中没有正确的字,这需要我们手工打出来。
6、保存结果
整篇文件纠错完毕之后,将结果保存。此处即使不手工保存,软件也是会保存的。只是手工保存可以指定保存位置。
四、评价
尚书七号以其超高的识别率和方便的纠错界面功能,凌驾于其他OCR软件之上。
五、其他
在纠错过程中,很容易发现一些字比较偏,而且不认识,还不会五笔,手边又没字典,有个字典软件还需要注册。这时候,就可以使用下面这个网页
当然网上的在线字典不少,但是我一直使用这个了。
有其他想法再共享。
阅读(5949) | 评论(2) | 转发(1) |