图片型PDF文件的OCR识别方法-wuty2007-ChinaUnix博客

深呼吸的CU博客

首页　| 　博文目录　| 　关于我

wuty2007

博客访问： 103201
博文数量： 18
博客积分： 1421
博客等级：上尉
技术积分： 170
用户组：普通用户
注册时间： 2007-05-04 15:21

文章分类

全部博文（18）

oracle（0）
技术文档（14）
未分配的博文（4）

文章存档

2009年（14）

2008年（4）

我的朋友

最近访客

推荐博文

图片型PDF文件的OCR识别方法

分类：

2009-02-28 16:24:48

1.工具：microsoft office document imaging(见Office 2003 工具)、Windows程序附件中的“画图”板。

2.图片文件格式：.tif(即Tag图像文件格式，tiff)

3.步骤：

A.在PDF文件中使用快照工具，选中需要识别的区域。提示“选定的区域已复制到了剪贴板”，点击“确定”。

B. 打开“画图”板，“开始－－程序－－附件－－画图”，然后点“编辑－－粘贴－－文件－－另存为”，在保存类型中选择Tiff，然后“保存”。

C.用microsoft office document imaging打开保存的文件，“开始－－程序－－Microsoft office－－microsoft office工具－－microsoft office document imaging”，接着点“工具－－将文本发送到Word”，去掉“在输出时保持图片版式不变”前面选择框中的“√”，然后确定。

D.在弹出的Word中即可进行编辑，识别完成。

4.注意事项：

A.PDF原稿越清晰识别效果越好，建议放大到200%使用快照工具。

B.其他格式图片应先转换为tif格式，用“画图”板打开然后另存就可以。

C.使用快照工具时选区边界尽量放宽，避免靠边的字无法正确识别。

D.支持跨栏选择的文字，识别后段落正常。

E.使用快照工具时，避免一次选择太大范围，造成死机。

F.如果识别后全为乱码，注意microsoft office document imaging的OCR选项是否为相应语言，“工具－－选项－－OCR－－OCR语言（中英文选择）－－确定”。

阅读(1143) | 评论(0) | 转发(0) |

上一篇：TcpDump 相关文章

下一篇：Linux下双网卡绑定实现负载均衡

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6