将图片中的文字提取出来（OCR识别系统）-xinyonda-ChinaUnix博客

JAVA GUI 开发xinyonda.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

xinyonda

博客访问： 149621
博文数量： 49
博客积分： 2025
博客等级：大尉
技术积分： 630
用户组：普通用户
注册时间： 2007-05-11 11:27

文章分类

全部博文（49）

娱乐（0）
unix/linux（2）
javaScript（2）
学习经验（7）
数据库（10）
模型检测（2）
DOM（7）
信息安全（2）
操作系统（2）
WEB编程（11）
毕业设计（1）
正则表达式（2）
未分配的博文（1）

文章存档

2008年（49）

我的朋友

lovegqin

相关博文

将图片中的文字提取出来（OCR识别系统）

分类： WINDOWS

2008-04-27 16:32:45

利用Office 2003从图片中提取文字

Office在2003版中增加了Document Imaging工具，用它可以把文字给“抠”出来。
（1）打开传真图片，用抓图软件SnagIt对相关的内容进行抓取，然后在“文件”菜单中选择“复制到剪贴板”命令（也可以用其他抓图软件，当然最简单的是Windows中自带的Print Screen键来抓取整个屏幕，然后在“画图”程序中对不要的部分进行裁剪并保存，然后复制）。
（2）在“开始”菜单的“Microsoft Office工具”中打开Microsoft Office Document Imaging，在左侧窗口中单击鼠标右键，选择“粘贴页面”，把复制的图片粘贴到Document Imaging中，在“工具”中选择“使用OCR识别文本”，Document Imaging的OCR识别程序就会对图片进行识别，完成后选择“工具”中的“将文本发送到Word”，程序会自动打开Word文档，展现在你面前的就是从图片中“抠”出来的文字。
提示：一般而言，识别的准确率可以达到95％以上，但对英文和数字的识别不是太好。

（转：）

将图片中的文字识别出来，所有的OCR(Optical Character Recognition的简称，指光学字符识别技术，是自动识别技术研究和应用中的一个重要领域 )软件都可以做到，例如清华紫光OCR等，一般购买扫描仪的用户大多安装有此类软件。但需要注意，通常OCR软件只能够识别比较规范的印刷体，手写文本目前在识别上仍有困难。

而在大部分用户都有安装的Office 2003套件中，也附带有OCR功能的组件Microsoft Office Document Imaging。如果您有安装Office 2003，那么可以单击“开始”按钮指向程序组“Microsoft Office”中的“Microsoft Office 工具”选择“Microsoft Office Document Imaging”，即可打开。但Microsoft Office Document Imaging不是Office 2003默认的安装选项，所以在初次启用时如果该组件仍未安装，则需要插入Office的安装光盘进行安装，但整个安装过程将自动完成，您只需要按提示信息操作即可。

安装并打开Microsoft Office Document Imaging之后，只需通过“文件”菜单打开需要识别的图片，或者选择“扫描新文档”利用扫描仪将印刷品的文字扫描到电脑上，再选择“工具”菜单中的“使用OCR识别文本”或者“将文本发送到Word”，就可以将该图片上规范的印刷体文字识别出来。如果图片中的文字是“宋体”等比较常见的字体，并且版面比较整齐，基本上所有的文字都可以正确的识别出来。

另外，由于Microsoft Office Document Imaging只支持MDI、TIF等图片格式，需要您准备识别的图片，可能需要利用图片处理软件转换一下，又或者利用在安装Microsoft Office Document Imaging组件后，系统会自动安装的一个名为“Microsoft Office Document Imaging Writer”的虚拟打印机，将图片打印成一个MDI文件，然后再使用Microsoft Office Document Imaging识别。

（转：）

如何从图片中提取文字

现在许多网站都有EXE、CHM、PDF等格式的电子书下载。很多时候这些电子书可以看，但是其中的内容却不能复制。如果我们需要这些电子书中的文本内容，是不是就非得要重新输入一遍呢?当然不用这么麻烦。下面我就告诉大家如何将这些内容从资料中提取出来。

Snaglt文字提取

　　Sn.agIt是一款功能强大的图片捕捉工具，但是很多朋友可能不知道，它还有文字捕捉的功能，能将文字从图片中提取出来。目前它的最新版本为7.O。启动SnagIt 7.O，在左侧选中“窗口文字”(如图)，在左侧选择输入位置(比如屏幕、区域、窗口等)，输出位置(比如打印机、剪贴板、文件等)。设置完成后，.回到要捕捉文字的文件窗口，按下“捕获”快捷键，即可将文字提取出来。
　　此时我们会发现提取的文字中有很多空格或出现段落错乱等情况，这时我们可以用文字编辑工具进行重新编排。这里以WPS Offi.ce 2003为例：将提取文字复制粘贴至新文档中，依次选择菜单“工具”→“文字”下的 “段落重排”→“删除段首空格”→“删除空段”命令，这时文章已经变得很整齐了。 SnagIt (屏幕捕捉程序) v8.1 汉化绿色版：

文字识别工具

　　文字识别工具简称OCR工具。这里我们以清华紫光OCR文字识别工具为例。打开带有文字的图片(如果是电子书籍，可按下“Print Screerl”屏幕捕获键将其保存为图片)，根据所要提取的文字进行裁剪。启动OCR，打开已裁减的图片，用鼠标在图片中绘制出待识别的文字区域，按下工具栏“识别"按钮即可。文字识别结束后，会自动在一个文本编辑器中打开已提取文字，将结果复制粘贴至其他文档中即可。

(转：）

阅读(4424) | 评论(0) | 转发(0) |

上一篇：当代编译技术三大圣经！

下一篇：存储过程入门与提高

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6