[转载] 扫描版电子书制作全攻略-fan3838-ChinaUnix博客

fan3838fan3838.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

fan3838

博客访问： 2149991
博文数量： 220
博客积分： 8531
博客等级：中将
技术积分： 4976
用户组：普通用户
注册时间： 2007-07-18 13:33

文章分类

全部博文（220）

linux软件（47）
集群和虚拟化（21）
数据库（7）
存储（2）
心情不错（43）
藏书雅事（8）
名片收集（3）
linux技术（89）
未分配的博文（0）

文章存档

2017年（1）

2015年（1）

2014年（5）

2013年（6）

2012年（6）

2011年（30）

2010年（37）

2009年（53）

2008年（41）

2007年（40）

我的朋友

最近访客

推荐博文

[转载] 扫描版电子书制作全攻略

分类：

2007-10-25 11:09:35

发信人: jiuixi (熙熙), 信区: NewSoftware
标题: 扫描版电子书制作全攻略
发信站: 水木社区 (Thu Aug 30 22:30:25 2007), 站内

制作工具:

1.扫描仪
不一定是很好的扫描仪, 但最好是速度快一些的, 这样能省不少时间. 如果手头上宽
裕的话还可以买能扫A3纸的扫描仪, 这样就能两页并作一页来扫.

2.OCR软件
除了FINEREADER不作它想, 这个软件及其破解已经放到服务器上了. 此外它还带了不
少语言包, 能识别很多种语言(汉语不行). 不过大部分时候用英语来识别就行了. 但
是, 如果你的书里面有很多其它符号, 比如阿尔法, 贝塔等, 就要再加一个语言包了
.

请勿到该公司的网站上去下载, 因为该公司昨天刚换了一个新一点的FineReader, 目
前还找不到破解. 服务器上这个是Build 6.0.0.395; part# 2561; 该公司新放上来
的是Build 6.0.0.395; part# 2562.

扫描前的准备工作:

1.打开电脑, 插上电源….这些废话就不多说了.

2.到Google上找一找看有没有你要扫的书的样章下载, 有得下当然要下啦, 那怕是一
章也好

3.设置FINEREADER:
a)量一下书的尺寸, 选择TOOLS菜单中的OPTIONS选项, 切换到Scan/Open Image页,
单击Select Source…按钮选好你要用的扫描仪; 然后选中Use FineReader Interface
, 记住不要选下面的”Display Options Dialog Before Scanning”. 接下来, 单击
右边的Scanner Setting按钮, 将刚量好的书的尺寸填在这里. 这样当扫描到指定的
位置时扫描仪就会折返, 而不用走完整个扫描仪的长度, 当然就又省了不少时间啦.
最后设定扫描间隔时间, 我一般设成两秒.
b)在跟上一步相同的界面中将扫描模式设为灰度, 300dpi. 如果采用黑白模式会使书
中插图漆黑一团
c)大概翻一下你将要扫的书, 主要是看看里面有没有特殊的字符, 比如有些数学方面
的书就有不少公式及其它怪怪的字符, 这时你就需要加装相应的语言包.如果你不想
使用整个语言包, 也可以自己定义新语言, 这项工作是在Tools菜单的Language Editor
…里面完成的. 完成语言包的加装只是完成了一半的任务, 为了让软件使用语言包或
是你自己定义的语言, 还必须要告诉软件你需要用哪些语言来完成识别任务. 在工具
栏上有一个下拉列表框, 默认值是English. 选中里面的Select Multiple Languages
…在随后弹出来的对话框中勾选相应的语言. 语言的设置就完成了. (注:这个功能很
少用到, 一般英语就足够了.)
d)单击Process菜单, 选中Start Background Recognition, 这样就能一边扫描一边
辨认, 扫描结束后, 自动辨认也就结束了.

4.打开音箱, 音乐起, 开工喽

扫描及辨认中要注意的问题:

1.如果你的扫描仪不是超薄那种, 最好在扫描仪旁边放几本书, 高度跟扫描仪的高度
一样, 这样扫书的时候, 书就不会往一边塌, 可以省不少力.

2.一些比较厚的书在扫到中间的时候, 书脊会向上拱起,需要用力按下去, 不然靠近
书脊部分的文字会扭曲, 影响辨认效果. 一般来讲, 当扫到中间的时候可以经常性地
将书往两边扯, 或是用力向后翻, 不过这样做对书的伤害是比较大的, 如果你是借朋
友的书来扫,就不要这样干了, 小心被人扁; 如果是图书馆的书就无所谓了

3.目前还没有一款OCR软件能百分之百地辨认出书中的插图部分. 如果一个插图中有
很中横线或直线, 它往往会把它当成是一个表格; 有时干脆不管三七二十一, 硬是把
一张插图当成是文字来认. 遇到这种情况就只能是手工来指定辨认区域的类型了. 方
法很简单, 选中垂直工具条上的图形区按钮, 在扫描得来的图形上画一个矩形框就行
了.

4.只有在改变的文本辨认区域的大小或新增文本区的情况下,你才需要对一页重新进
行辨认. 如果只是删除文本区, 或将文本区变成图形区, 则不用重新辨认.

5.FineReader对表格的处理也不错, 一般不需要对表格的辨认做什么改动. 如果你想
增加或删除表格中的分隔线, 用垂直工具条上的想应按钮就行了, 改动的结果会立即
显示出来, 不用再对该页进行辨认.

6.为了保证准确度, OCR结束后, 还需要进行一次拼写检查. 最常见的错误就是将l(
小写的L)和1(阿拉伯数字), 0和O搞混淆. 如果你能发现一些规律的话, 比如很多r0
被认成是rO, 可以使用替换功能, 一次过替换掉. 这样以后就不会再就错误提示了.

结语
以上只是我自己在制作扫描版电子书的时候的一些心得体会. FineReader是一款功能
强大的软件, 有部分功能我还没用过, 比如Pattern Editor等. 希望此文能起到抛砖
引玉的作用, 也希望它能对想要制作电子书的朋友一点点帮助.

制作扫描版的电子书是一个不小的工程, 要想制作高质量的电子书需要投入时间及精
力, 但是当你完成一本电子书的制作时, 感觉就象是完成了一件杰作

阅读(2424) | 评论(1) | 转发(0) |

上一篇：抓取图片中的文字──pdf to txt

下一篇：即将踏上鲜艳的红地毯

给主人留下些什么吧！~~

chinaunix网友2010-08-27 21:42:04

即使是图书馆的书也要珍惜，你扫描书难道只是为了自己吗？

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6