Chinaunix首页 | 论坛 | 博客
  • 博客访问: 397481
  • 博文数量: 159
  • 博客积分: 372
  • 博客等级: 一等列兵
  • 技术积分: 1693
  • 用 户 组: 普通用户
  • 注册时间: 2012-01-13 17:05
个人简介

致力于图形处理和移动开发。

文章分类

全部博文(159)

文章存档

2014年(77)

2013年(67)

2012年(15)

我的朋友

分类: C#/.net

2013-12-31 14:04:42

ECM(Enterprise Content Management)系统,尤其是文档图像应用程序的一个主要特点就是和处理。ECM系统在采集、管理、储存和传递文件过程中,表单识别和处理是优化整个工作流的一个关键因素。

表单识别是一个填写表单并自动确定表单类型的过程。表单识别也是一个从所填写的表单中自动提取关键信息的过程。

在大多数情况下,一个典型的工作流以创建需要被处理的实际表单为起点,以存储稍后需要检索的数据和生成报表为终点。

表单识别和处理流程如下:

Form Creation(表单创建): 该步骤创建实际表单,并将所有相关信息和字段添加到窗体。

Distribution(分配):表单被分配给用户填写,文档以电子形式或者纸面形式进行分配。

Input/Capture(输入和捕获):文件可以以多种方式进行捕获。一旦文档被捕获,文档就被发送到内容管理系统中进行处理。源文档捕获

  • 扫描/传真文件
  • 导入所填写的电子文档
  • 现有的电子文档

Image Cleanup(图像清理):为了最大限度地提高识别和处理结果,该文件必须尽可能干净。 LEADTOOLS提供了一套广泛的方法移除扫描或传真图像中的一些常见问题,去除点、线和孔。

Recognition(识别):图像清理后就可以进行识别。通过识别还可以确定图像类型。在识别过程中,可以采用多种识别技术,如条形码、OCR以及LEADTOOLS所提供的其他技术等。可以标注一些无法识别的表单并且以后还可以手动检查。

Processing(处理):一旦识别出了表单类型,我们就可以知道哪些信息需要被提取以及位于窗体上的位置。所有相关信息如条码数据、客户填充数据(姓名,地址,日期,签名,徽标等)均可被提取。OCR, ICR和 OMR等多种技术均被用户提取数据。一些无法识别的表单将被标注出来,并且以后还可以手动检查。

Quality Assurance(质量保证):在某些情况下,表单可能无法被识别或处理。这些情况包括:扫描\传真质量低、表单没有添加到master collection、单证不全、文件没有被填写好等等。质量保证机构将手工检查这些文件,并决定稳健是否应该识别和处理,或者需要重新创建。

Output(输出):此时,表单已经就绪,准备输出。输出阶段通常需要用到所提取的数据。可以对输出文档进行存储、归档、以电子邮件发送结果、生成报表和启动其他过程等。原始文件可以以最为有效的格式进行存储,如LEADTOOLS ABC,还可以一些TIFF、PDF和JPEG等标准格式存储。目前支持140种不同格式。

阅读(703) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~