整理制作电子书技巧(6) --用Abbyy的FineReader 英文电子书 OCR-slimzhao-ChinaUnix博客

一笑

首页　| 　博文目录　| 　关于我

slimzhao

博客访问： 2381999
博文数量： 527
博客积分： 10343
博客等级：上将
技术积分： 5565
用户组：普通用户
注册时间： 2005-07-26 23:05

文章分类

全部博文（527）

static-analyze（2）
test（1）
GNU make（5）
linux（15）
debug（17）
杂想（2）
其它（170）
Perl 脚本（5）
.NET/C#（103）
源代码/读书（7）
windows编程（24）
c/c++编程（101）
vim（20）
bash 脚本（39）
未分配的博文（16）

文章存档

2014年（4）

2012年（13）

2011年（19）

2010年（91）

2009年（136）

2008年（142）

2007年（80）

2006年（29）

2005年（13）

我的朋友

jiangjia

相关博文

整理制作电子书技巧(6) --用Abbyy的FineReader 英文电子书 OCR

分类： WINDOWS

2007-12-15 19:07:29

如果没听过 Abbyy的 FineReader 你可能会认为 Abbyy是一个占位符, 比如foo, bar, abc, xyz, 它的确是个公司的名词, 而且其 FineReader的英文OCR能力独步天下. 我见过的最强的, 绝对不要想OCR英文时想到汉王紫光这些东东.

假想的电子书是PDF格式的, 例子是 [操作系统概念（第6版，Silberschatz 著）]的PDF, 不是网上那个同样广为流传的PPT讲稿做成的PDF, 是高等教育出版社的影印版, 正式出版的书.

有了FineReader, 整个工作变得没什么好说的, 找个处理能力超级生猛的电脑, 这是需要的, 这本书几乎独占了我CPU一个多小时的时间.

打开PDF文件, 点击Read All(它实际执行的是OCR动作), 用它的保存wizard 保存成 PDF格式, 注意PDF格式最好选成是 Text Above Page, Text是指识别出来的文字, Page是指整个页面的图像, 这样保存出来的文件是这样的: 对于成功识别的文字, 显示的是文本, 对于它认为是图片的部分, 比如插图, 还是在原处置显示插图. 这个保存格式是我全部试用过之后认为是最佳的, 最大限度地保存了原文的信息, 同时结果文件不会太大.

上面是唯一要说的, 剩下能做的事就是啧啧惊叹于生成的PDF文件的清晰及高保真能力, 字体, 颜色, 布局, 处处都是精心打造.

如果你有耐心看到这里, 我也犒劳各位一下, 附件是我OCR好的这本电子书, 原来的扫描版一者不清晰, 二者文件有37M. 这里是9M, 却更清晰, 更好. 如果没人干跟我一样的事, 你能下载的很可能是目前该书唯一的OCR版PDF格式.

文件:	操作系统概念（第6版，Silberschatz 著） OCR版.part1.rar
大小:	4882KB
下载:	下载

文件:	操作系统概念（第6版，Silberschatz 著） OCR版.part2.rar
大小:	4376KB
下载:	下载

现今, 用这种方法又OCR了一些扫描版的PDF电子后, 我的看法有些改变, 保存时的PDF选项, 最好是用Page在上, 文字在下, 这样的好处是, 不管你原始的扫描版质量如何, 都会保留, 同时你又有了搜索和选择等对文字的编辑能力.

另外, 视PDF扫描的质量而定, 如果保存图像时的选项不当, 可能出来的效果不是你想要的, 经过摸索, 我认为下面的质量最好

注意不要被 Format中的 lossless 所迷惑, 我试过LZW的lossless压缩, 这只意味着压缩方法本身是lossless, 并非说你最终输出的PDF中看到的图像跟原文件一样, 即使选择lossless压缩方法, 仍然是有细微差别的.

阅读(1069) | 评论(0) | 转发(0) |

上一篇：整理制作电子书技巧(6) --用Abbyy的FineReader 英文电子书 OCR

下一篇：修改log4net 生成换行, 缩进的XML输出

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6