Chinaunix首页 | 论坛 | 博客
  • 博客访问: 2349635
  • 博文数量: 527
  • 博客积分: 10343
  • 博客等级: 上将
  • 技术积分: 5565
  • 用 户 组: 普通用户
  • 注册时间: 2005-07-26 23:05
文章分类

全部博文(527)

文章存档

2014年(4)

2012年(13)

2011年(19)

2010年(91)

2009年(136)

2008年(142)

2007年(80)

2006年(29)

2005年(13)

我的朋友

分类: WINDOWS

2007-12-15 19:07:29

如果没听过 Abbyy的 FineReader 你可能会认为 Abbyy是一个占位符, 比如foo, bar, abc, xyz, 它的确是个公司的名词, 而且其 FineReader的英文OCR能力独步天下. 我见过的最强的, 绝对不要想OCR英文时想到汉王紫光这些东东.

假想的电子书是PDF格式的, 例子是 [操作系统概念(第6版,Silberschatz 著)]的PDF, 不是网上那个同样广为流传的PPT讲稿做成的PDF, 是高等教育出版社的影印版, 正式出版的书.

有了FineReader, 整个工作变得没什么好说的, 找个处理能力超级生猛的电脑, 这是需要的, 这本书几乎独占了我CPU一个多小时的时间.

打开PDF文件, 点击Read All(它实际执行的是OCR动作), 用它的保存wizard 保存成 PDF格式, 注意PDF格式最好选成是 Text Above Page, Text是指识别出来的文字, Page是指整个页面的图像, 这样保存出来的文件是这样的: 对于成功识别的文字, 显示的是文本, 对于它认为是图片的部分, 比如插图, 还是在原处置显示插图. 这个保存格式是我全部试用过之后认为是最佳的, 最大限度地保存了原文的信息, 同时结果文件不会太大.

上面是唯一要说的, 剩下能做的事就是啧啧惊叹于生成的PDF文件的清晰及高保真能力, 字体, 颜色, 布局, 处处都是精心打造.

如果你有耐心看到这里, 我也犒劳各位一下, 附件是我OCR好的这本电子书, 原来的扫描版一者不清晰, 二者文件有37M. 这里是9M, 却更清晰, 更好. 如果没人干跟我一样的事, 你能下载的很可能是目前该书唯一的OCR版PDF格式.
文件:操作系统概念(第6版,Silberschatz 著) OCR版.part1.rar
大小:4882KB
下载:下载

文件:操作系统概念(第6版,Silberschatz 著) OCR版.part2.rar
大小:4376KB
下载:下载

现今, 用这种方法又OCR了一些扫描版的PDF电子后, 我的看法有些改变, 保存时的PDF选项, 最好是用Page在上, 文字在下, 这样的好处是, 不管你原始的扫描版质量如何, 都会保留, 同时你又有了搜索和选择等对文字的编辑能力.

另外, 视PDF扫描的质量而定, 如果保存图像时的选项不当, 可能出来的效果不是你想要的, 经过摸索, 我认为下面的质量最好

注意不要被 Format中的 lossless 所迷惑, 我试过LZW的lossless压缩, 这只意味着压缩方法本身是lossless, 并非说你最终输出的PDF中看到的图像跟原文件一样, 即使选择lossless压缩方法, 仍然是有细微差别的.
阅读(1050) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~