如果没听过 Abbyy的 FineReader 你可能会认为 Abbyy是一个占位符, 比如foo, bar, abc, xyz, 它的确是个公司的名词, 而且其 FineReader的英文OCR能力独步天下. 我见过的最强的, 绝对不要想OCR英文时想到汉王紫光这些东东.
假想的电子书是PDF格式的, 例子是 [操作系统概念(第6版,Silberschatz 著)]的PDF, 不是网上那个同样广为流传的PPT讲稿做成的PDF, 是高等教育出版社的影印版, 正式出版的书.
有了FineReader, 整个工作变得没什么好说的, 找个处理能力超级生猛的电脑, 这是需要的, 这本书几乎独占了我CPU一个多小时的时间.
打开PDF文件, 点击Read All(它实际执行的是OCR动作), 用它的保存wizard 保存成 PDF格式, 注意PDF格式最好选成是 Text Above Page, Text是指识别出来的文字, Page是指整个页面的图像, 这样保存出来的文件是这样的: 对于成功识别的文字, 显示的是文本, 对于它认为是图片的部分, 比如插图, 还是在原处置显示插图. 这个保存格式是我全部试用过之后认为是最佳的, 最大限度地保存了原文的信息, 同时结果文件不会太大.
上面是唯一要说的, 剩下能做的事就是啧啧惊叹于生成的PDF文件的清晰及高保真能力, 字体, 颜色, 布局, 处处都是精心打造.
如果你有耐心看到这里, 我也犒劳各位一下, 附件是我OCR好的这本电子书, 原来的扫描版一者不清晰, 二者文件有37M. 这里是9M, 却更清晰, 更好. 如果没人干跟我一样的事, 你能下载的很可能是目前该书唯一的OCR版PDF格式.
|
文件: | 操作系统概念(第6版,Silberschatz 著) OCR版.part1.rar |
大小: | 4882KB |
下载: | 下载 |
|
|
文件: | 操作系统概念(第6版,Silberschatz 著) OCR版.part2.rar |
大小: | 4376KB |
下载: | 下载 |
|
现今, 用这种方法又OCR了一些扫描版的PDF电子后, 我的看法有些改变, 保存时的PDF选项, 最好是用Page在上, 文字在下, 这样的好处是, 不管你原始的扫描版质量如何, 都会保留, 同时你又有了搜索和选择等对文字的编辑能力.
另外, 视PDF扫描的质量而定, 如果保存图像时的选项不当, 可能出来的效果不是你想要的, 经过摸索, 我认为下面的质量最好
注意不要被 Format中的 lossless 所迷惑, 我试过LZW的lossless压缩, 这只意味着压缩方法本身是lossless, 并非说你最终输出的PDF中看到的图像跟原文件一样, 即使选择lossless压缩方法, 仍然是有细微差别的.
阅读(1050) | 评论(0) | 转发(0) |