系统整理pdf文件识词与编辑-myching-ChinaUnix博客

小慧的天空

首页　| 　博文目录　| 　关于我

myching

博客访问： 2135932
博文数量： 454
博客积分： 10921
博客等级：上将
技术积分： 5396
用户组：普通用户
注册时间： 2006-06-15 15:20

个人简介

伪IT男

文章分类

全部博文（454）

医学（0）
GPGPU编程（3）
并行算法（4）
医学物理（43）
LINUX（34）
程序设计（83）
电脑硬件（28）
职业生涯（34）
医疗器械（24）
数据库（7）
每日心情（54）
WINDOWS（78）
乱七八糟（62）
未分配的博文（0）

文章存档

2016年（2）

2013年（6）

2012年（17）

2011年（29）

2010年（24）

2009年（54）

2008年（53）

2007年（202）

2006年（67）

我的朋友

相关博文

系统整理pdf文件识词与编辑

分类： WINDOWS

2007-05-14 23:29:26

第一部分关于pdf文件识词
pdf阅读：建议使用adobe acrobat 7.0 Professional简体中文版（只有专业版本才有ocr
功能，而reader版本没有ocr，而且同以前版本比较打开速度快，无专利认证那套东东，文
件大小209M吧。以下简称“Acrobat 7.0 pro”）
下载地址

注意：在安装acrobat 7.0 pro的时候要选择完全安装或者自定义安装选择安装上
“亚洲语言支持”，因为在“典型”安装时是不安装“亚洲语言支持”的，这在看中文的
时候可能有影响。
针对电子词典：金山词霸2003医学版（以下简称“金山”）
新医药大词典（以下简称“新医药”）
1.所有的pdf文件都不能识词
或者在“金山”和“新医药”都安装的情况下，用其中一个可以识词，另外一个不能识词
，
可以肯定是插件问题。
对于金山
Acrobat Reader 7.0取词：将金山词霸的安装目录下(*:\Program Files\Kingsoft\Power
word 2003\PlugIn *代表你所安装到的盘符，以下同)的Xdict32.API复制到Adobe Read
er 7.0的安装目录*:\Program Files \Adobe\Acrobat 6.0Reader\plug_ins 文件夹下即可
。
Acrobat 7.0取词：将金山词霸的安装目录下的Xdict32.API复制到Adobe 7.0的安装目录*
:\Program Files\Adobe\Acrobat 7.0\Acrobat\plug_ins文件夹下即可。
如果上述办法仍然无法加入词霸的插件（Acrobat工具栏没有出现词霸的图标），则请到在
中文版acrobat 7.0 pro中设置如下：选择"编辑"菜单中的"首选项"，在弹出的界面的左侧
列表中选中"启动"一项，然后在"启动"面板中将"仅认证增效工具"前的选项去掉，再将右
下角的浏览方式设为单页,最后重启Acrobat reader即可。（好像acrobat 7.0 pro默认的
就是去掉的估计这项用不着，Acrobat Reader 7.0我没装不知道）
6.0版把7.0换成6.0即可。
对于新医药
（截取自其官方网站
）
一般情况下，《新编全医药学大词典》在安装时会将自己的一个插件自动添加到acrobat
reader中去,用户安装词典后即可在pdf文件中使用词典,但是正确添加插件的前提是acrob
at reader是正常安装的,即注册表中有acrobat reader的安装路径。不能取词，可能是注
册表中没有acrobat reader的安装路径,需要手工添加词典的插件到acrobat reader中

解决办法：
第一步：首先找到词典的安装路径,例如默认安装路径,*\program files\kingyee\meddic
\ 找到meddic 文件夹中的plugin文件夹打开,里面有三个文件：RwAcrob4c.api,RwAcrob5
c.api,RwAcrob6c.api;
如果是acrobat reader4.0就拷贝RwAcrob4c.api;
如果是acrobat reader5.0就拷贝RwAcrob5c.api;
如果是acrobat reader6.0就拷贝RwAcrob6c.api; （4，5，6没人用了吧）
如果是acrobat reader7.0也拷贝RwAcrob6c.api;
第二步：找到acrobat reader的安装路径,打开plug_ins文件夹,然后将拷贝的文件粘贴进
来。然后重新启动acrobat reader软件。
第三步：此时一般就可以翻译pdf文件了。如果还是不行,就是acrobat reader还需要设置
一下。
设置方法：
在中文版acrobat 7.0 pro中设置如下：选择"编辑"菜单中的"首选项"，在弹出的界面的左
侧列表中选中"启动"一项，然后在"启动"面板中将"仅认证增效工具"前的选项去掉，再将
右下角的浏览方式设为单页,最后重启Acrobat reader即可（好像acrobat 7.0 pro默认的
就是去掉的估计这项用不着，Acrobat Reader 7.0我没装不知道）。

2.部分pdf文件可以识词，部分不可以。
把握一个原则：pdf文档内容只要可以复制就可以识词。
分以下两种情况：
A：有密码保护：有些虽有密码保护只是不准更改文档，可以复制，内容只要可以复制，就
可以识词，就不用理什么密码了。
对不允许复制的就要用软件去出密码。
去除密码工具PDF Password Remover（推荐使用英文版）
下载地址：
PDF Password Remover v2.2

PDF Password Remover v2.2 注册机

软件很容易上手：
注意有些时候文件名比较长或有特殊字符或是中文，可能无法打开，此时将文件名改成数
字的，如“1.pdf”（pdf为扩展名），处理完后再改回原来的文件名就可以了。
B：pdf文件是扫描图片做的，虽无任何限制，但无法复制文档内容。
可参见我在dxy发的帖子

620

这就要用到Adobe Acrobat Pro 7.0的ocr功能，图片格式的PDF可以直接转换成文字PDF，
版面形式不变，转完后直接保存即可。
选择“文档”－－“使用OCR识别文本”
另外针对前面提到的密码保护的图片格式pdf文件，先去除密码后再ocr。（未去除密码前
，ocr功能是灰色的不能用）。
另外有些从网站下载来的文献，会在页眉和页脚加上“Copyright”等字样，此时直接运用
ocr时，会出现提示“acrobat无法在本页执行识别，因为：本页包含可渲染的文本”
针对以上情况，摸索出了一个方法：
先从“高级”－－“导出所用图像”（文中的插图也会按一张图片导出），然后再用acro
bat将导出的图片合并成pdf文件（因为文中的插图也按一张图片导出了，如何合并时不剔
除插图形成的图片的话，合并后插图将会作为单独的一页，因此合并后的文件页码将多于
原始文件），然后再进行OCR就可以成功了。
对于dpi比较低的，可能ocr无法成功
Dxy网友lakshmi回复说
“如果dpi小于600，可以输出成tif文件，用专门的ocr软件校对，推荐汉王文本王”
我未用过。

第二部分pdf的编辑
使用软件：Foxit PDF Editor v1.2 build 0429 汉化版
下载地址：
安装汉化软件时注意，只要有另外的东西，比如3721，划词搜索，dudu下载器等等，通通
不要安装。
亚洲语言包（无此语言包，有些中文pdf打开会乱码，且无法输入中文），下载后，复制到
安装目录下

软件很容易上手，各工具按钮都有气球提示，自己摸索下吧，
比较有难度的是输入中文，默认的状态下只能输入英文。
输入中文方法如下：从主菜单或右键菜单中选择“添加文本对象”，点“对象属性”--“
导入字体”，然后选择你想要的中文字体（如宋体），确定后就可以支持中文输入了。但
前提是装好了亚洲语言包fpdfcjk.bin。
面板的右下脚可以对输入文件进行进一步设置，比如默认字体大小是10我可以随便改大些
，如改成20。未改动前“更改”按钮是灰色的，在“大小”里把10.00改成20.00后，“更
改”按钮自动变成黑色，点击它后更改完成。

阅读(1447) | 评论(0) | 转发(0) |

上一篇：尝试运行“shell32.dll,Control_RunDLL C:\WINDOWS.1\SYSTE

下一篇：怎样清除 windows2000密码（是进系统的管理员密码）

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6