Chinaunix首页 | 论坛 | 博客
  • 博客访问: 438696
  • 博文数量: 52
  • 博客积分: 3193
  • 博客等级: 中校
  • 技术积分: 860
  • 用 户 组: 普通用户
  • 注册时间: 2007-11-19 09:58
文章分类

全部博文(52)

文章存档

2012年(1)

2011年(9)

2009年(18)

2008年(24)

我的朋友

分类: WINDOWS

2009-09-14 16:05:32

PDF文档里图片中的文字转换成文本格式?
我不久前碰到PDF文件这个问题
1)对文字可以直接识别的(以文本形式保存的PDF文件):最新下载通用acrobat版本即可编辑(还可防止系统漏洞);
2)对文字不能直接识别的(以图片形式保存的PDF文件):也就是大家都头痛的问题,特别是图片里有表格有文字,文字因为印刷不清晰!
-----------------------------------------------
a.使用了各种PDF软件工具(Foxit Reader,PDF To Word RTF Converter,ScanSoft PDF Converter,文电通PDF编辑器,Solid Converter PDF ……)和PDF工具包等,均只能转1)文本形式PDF,无任何效果。郁闷!
b.使用截图软件HyperSnap处理PDF,再用各种Ocr文字识别软件,效果还是不理想,基本乱码。郁闷又!
c.直接使用新Office(2003或2007)的辅助工具,OK!
-----------------------------------------------
具体步骤:
1.Office2003(必须有word)以上,安装时选择自定义,在Office工具中选上Microsoft Office Document Imaging,并选择选择其下的“Microsoft Office Document Image Writer”和“扫描、OCR……”两项!
2.安装完成后,系统打印机里面会新增Microsoft Office Document Image Writer虚拟打印机;打开图片形式PDF文件,打印到此打印机,设定打印选项,形成一合适的图形文件。
3.用Microsoft Office Document Imaging打开该图形文件,选择“工具”菜单中的“使用OCR识别文本”;识别完成后,左侧图片页面示意图会出现OCR小图标;再次选择“工具”菜单,使用“将文本发送到Word”,OK!
4.PDF文件内容多时,可设置截图软件输出到Microsoft Office Document Image Writer虚拟打印机,依上述步骤进行转换。
阅读(5622) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~