第一部分 关于pdf文件识词
pdf阅读:建议使用adobe acrobat 7.0 Professional简体中文版(只有专业版本才有ocr
功能,而reader版本没有ocr,而且同以前版本比较打开速度快,无专利认证那套东东,文
件大小209M吧。以下简称“Acrobat 7.0 pro”)
下载地址
注意:在安装acrobat 7.0 pro的时候要选择完全安装或者自定义安装选择安装上
“亚洲语言支持”,因为在“典型”安装时是不安装“亚洲语言支持”的,这在看中文的
时候可能有影响。
针对电子词典:金山词霸2003医学版(以下简称“金山”)
新医药大词典(以下简称“新医药”)
1.所有的pdf文件都不能识词
或者在“金山”和“新医药”都安装的情况下,用其中一个可以识词,另外一个不能识词
,
可以肯定是插件问题。
对于金山
Acrobat Reader 7.0取词:将金山词霸的安装目录下(*:\Program Files\Kingsoft\Power
word 2003\PlugIn *代表你所安装到的盘符,以下同)的Xdict32.API复制到Adobe Read
er 7.0的安装目录*:\Program Files \Adobe\Acrobat 6.0Reader\plug_ins 文件夹下即可
。
Acrobat 7.0取词:将金山词霸的安装目录下的Xdict32.API复制到Adobe 7.0的安装目录*
:\Program Files\Adobe\Acrobat 7.0\Acrobat\plug_ins文件夹下即可。
如果上述办法仍然无法加入词霸的插件(Acrobat工具栏没有出现词霸的图标),则请到在
中文版acrobat 7.0 pro中设置如下:选择"编辑"菜单中的"首选项",在弹出的界面的左侧
列表中选中"启动"一项,然后在"启动"面板中将"仅认证增效工具"前的选项去掉,再将右
下角的浏览方式设为单页,最后重启Acrobat reader即可。(好像acrobat 7.0 pro默认的
就是去掉的估计这项用不着,Acrobat Reader 7.0我没装不知道)
6.0版把7.0换成6.0即可。
对于新医药
(截取自其官方网站
)
一般情况下,《新编全医药学大词典》在安装时会将自己的一个插件自动添加到acrobat
reader中去,用户安装词典后即可在pdf文件中使用词典,但是正确添加插件的前提是acrob
at reader是正常安装的,即注册表中有acrobat reader的安装路径。不能取词,可能是注
册表中没有acrobat reader的安装路径,需要手工添加词典的插件到acrobat reader中
解决办法:
第一步:首先找到词典的安装路径,例如默认安装路径,*\program files\kingyee\meddic
\ 找到meddic 文件夹中的plugin文件夹打开,里面有三个文件:RwAcrob4c.api,RwAcrob5
c.api,RwAcrob6c.api;
如果是acrobat reader4.0就拷贝RwAcrob4c.api;
如果是acrobat reader5.0就拷贝RwAcrob5c.api;
如果是acrobat reader6.0就拷贝RwAcrob6c.api; (4,5,6没人用了吧)
如果是acrobat reader7.0也拷贝RwAcrob6c.api;
第二步:找到acrobat reader的安装路径,打开plug_ins文件夹,然后将拷贝的文件粘贴进
来。然后重新启动acrobat reader软件。
第三步:此时一般就可以翻译pdf文件了。如果还是不行,就是acrobat reader还需要设置
一下。
设置方法:
在中文版acrobat 7.0 pro中设置如下:选择"编辑"菜单中的"首选项",在弹出的界面的左
侧列表中选中"启动"一项,然后在"启动"面板中将"仅认证增效工具"前的选项去掉,再将
右下角的浏览方式设为单页,最后重启Acrobat reader即可(好像acrobat 7.0 pro默认的
就是去掉的估计这项用不着,Acrobat Reader 7.0我没装不知道)。
2.部分pdf文件可以识词,部分不可以。
把握一个原则:pdf文档内容只要可以复制就可以识词。
分以下两种情况:
A:有密码保护:有些虽有密码保护只是不准更改文档,可以复制,内容只要可以复制,就
可以识词,就不用理什么密码了。
对不允许复制的就要用软件去出密码。
去除密码工具PDF Password Remover(推荐使用英文版)
下载地址:
PDF Password Remover v2.2
PDF Password Remover v2.2 注册机
软件很容易上手:
注意有些时候文件名比较长或有特殊字符或是中文,可能无法打开,此时将文件名改成数
字的,如“1.pdf”(pdf为扩展名),处理完后再改回原来的文件名就可以了。
B:pdf文件是扫描图片做的,虽无任何限制,但无法复制文档内容。
可参见我在dxy发的帖子
620
这就要用到Adobe Acrobat Pro 7.0的ocr功能 ,图片格式的PDF可以直接转换成文字PDF,
版面形式不变,转完后直接保存即可。
选择“文档”--“使用OCR识别文本”
另外针对前面提到的密码保护的图片格式pdf文件,先去除密码后再ocr。(未去除密码前
,ocr功能是灰色的不能用)。
另外有些从网站下载来的文献,会在页眉和页脚加上“Copyright”等字样,此时直接运用
ocr时,会出现提示“acrobat无法在本页执行识别,因为:本页包含可渲染的文本”
针对以上情况,摸索出了一个方法:
先从“高级”--“导出所用图像”(文中的插图也会按一张图片导出),然后再用acro
bat将导出的图片合并成pdf文件(因为文中的插图也按一张图片导出了,如何合并时不剔
除插图形成的图片的话,合并后插图将会作为单独的一页,因此合并后的文件页码将多于
原始文件),然后再进行OCR就可以成功了。
对于dpi比较低的,可能ocr无法成功
Dxy网友lakshmi回复说
“如果dpi小于600,可以输出成tif文件,用专门的ocr软件校对,推荐汉王文本王”
我未用过。
第二部分pdf的编辑
使用软件:Foxit PDF Editor v1.2 build 0429 汉化版
下载地址:
安装汉化软件时注意,只要有另外的东西,比如3721,划词搜索,dudu下载器等等,通通
不要安装。
亚洲语言包(无此语言包,有些中文pdf打开会乱码,且无法输入中文),下载后,复制到
安装目录下
软件很容易上手,各工具按钮都有气球提示,自己摸索下吧,
比较有难度的是输入中文,默认的状态下只能输入英文。
输入中文方法如下:从主菜单或右键菜单中选择“添加文本对象”,点“对象属性”--“
导入字体”,然后选择你想要的中文字体(如宋体),确定后就可以支持中文输入了。但
前提是装好了亚洲语言包fpdfcjk.bin。
面板的右下脚可以对输入文件进行进一步设置,比如默认字体大小是10我可以随便改大些
,如改成20。未改动前“更改”按钮是灰色的,在“大小”里把10.00改成20.00后,“更
改”按钮自动变成黑色,点击它后更改完成。