LEADTOOLS使用教程:表单识别和处理流程概述
2013-12-31 13:21
459 查看
ECM(Enterprise Content Management)系统,尤其是文档图像应用程序的一个主要特点就是表单识别和处理。ECM系统在采集、管理、储存和传递文件过程中,表单识别和处理是优化整个工作流的一个关键因素。
表单识别是一个填写表单并自动确定表单类型的过程。表单识别也是一个从所填写的表单中自动提取关键信息的过程。
在大多数情况下,一个典型的工作流以创建需要被处理的实际表单为起点,以存储稍后需要检索的数据和生成报表为终点。
Distribution(分配):表单被分配给用户填写,文档以电子形式或者纸面形式进行分配。
Input/Capture(输入和捕获):文件可以以多种方式进行捕获。一旦文档被捕获,文档就被发送到内容管理系统中进行处理。源文档捕获
扫描/传真文件
导入所填写的电子文档
现有的电子文档
Image Cleanup(图像清理):为了最大限度地提高识别和处理结果,该文件必须尽可能干净。 LEADTOOLS提供了一套广泛的方法移除扫描或传真图像中的一些常见问题,去除点、线和孔。
Recognition(识别):图像清理后就可以进行识别。通过识别还可以确定图像类型。在识别过程中,可以采用多种识别技术,如条形码、OCR以及LEADTOOLS所提供的其他技术等。可以标注一些无法识别的表单并且以后还可以手动检查。
Processing(处理):一旦识别出了表单类型,我们就可以知道哪些信息需要被提取以及位于窗体上的位置。所有相关信息如条码数据、客户填充数据(姓名,地址,日期,签名,徽标等)均可被提取。OCR, ICR和 OMR等多种技术均被用户提取数据。一些无法识别的表单将被标注出来,并且以后还可以手动检查。
Quality Assurance(质量保证):在某些情况下,表单可能无法被识别或处理。这些情况包括:扫描\传真质量低、表单没有添加到master collection、单证不全、文件没有被填写好等等。质量保证机构将手工检查这些文件,并决定稳健是否应该识别和处理,或者需要重新创建。
Output(输出):此时,表单已经就绪,准备输出。输出阶段通常需要用到所提取的数据。可以对输出文档进行存储、归档、以电子邮件发送结果、生成报表和启动其他过程等。原始文件可以以最为有效的格式进行存储,如LEADTOOLS ABC,还可以一些TIFF、PDF和JPEG等标准格式存储。 LEADTOOLS目前支持140种不同格式。
表单识别是一个填写表单并自动确定表单类型的过程。表单识别也是一个从所填写的表单中自动提取关键信息的过程。
在大多数情况下,一个典型的工作流以创建需要被处理的实际表单为起点,以存储稍后需要检索的数据和生成报表为终点。
表单识别和处理流程如下:
Form Creation(表单创建): 该步骤创建实际表单,并将所有相关信息和字段添加到窗体。Distribution(分配):表单被分配给用户填写,文档以电子形式或者纸面形式进行分配。
Input/Capture(输入和捕获):文件可以以多种方式进行捕获。一旦文档被捕获,文档就被发送到内容管理系统中进行处理。源文档捕获
扫描/传真文件
导入所填写的电子文档
现有的电子文档
Image Cleanup(图像清理):为了最大限度地提高识别和处理结果,该文件必须尽可能干净。 LEADTOOLS提供了一套广泛的方法移除扫描或传真图像中的一些常见问题,去除点、线和孔。
Recognition(识别):图像清理后就可以进行识别。通过识别还可以确定图像类型。在识别过程中,可以采用多种识别技术,如条形码、OCR以及LEADTOOLS所提供的其他技术等。可以标注一些无法识别的表单并且以后还可以手动检查。
Processing(处理):一旦识别出了表单类型,我们就可以知道哪些信息需要被提取以及位于窗体上的位置。所有相关信息如条码数据、客户填充数据(姓名,地址,日期,签名,徽标等)均可被提取。OCR, ICR和 OMR等多种技术均被用户提取数据。一些无法识别的表单将被标注出来,并且以后还可以手动检查。
Quality Assurance(质量保证):在某些情况下,表单可能无法被识别或处理。这些情况包括:扫描\传真质量低、表单没有添加到master collection、单证不全、文件没有被填写好等等。质量保证机构将手工检查这些文件,并决定稳健是否应该识别和处理,或者需要重新创建。
Output(输出):此时,表单已经就绪,准备输出。输出阶段通常需要用到所提取的数据。可以对输出文档进行存储、归档、以电子邮件发送结果、生成报表和启动其他过程等。原始文件可以以最为有效的格式进行存储,如LEADTOOLS ABC,还可以一些TIFF、PDF和JPEG等标准格式存储。 LEADTOOLS目前支持140种不同格式。
相关文章推荐
- LEADTOOLS使用教程:表单识别和处理流程概述
- 【示例教程】使用Leadtools对身份证进行识别和表单模板创建
- ActionErrors 使用说明 struts1 validate 处理流程 详细教程(转)
- JQuery教程:第一节:使用JQuery处理表单元素
- ActionErrors 使用说明 struts validate 处理流程 详细教程
- LEADTOOLS使用教程:图像的倾斜校正处理
- 关系型数据的分布式处理系统MyCAT ——概述和基本使用教程
- 关系型数据的分布式处理系统MyCAT(1)—概述和基本使用教程
- LEADTOOLS使用教程:表单自动对齐
- 【示例教程】如何使用LEADTOOLS 的JAVA接口从护照中识别和提取数据
- 关系型数据的分布式处理系统MyCAT(1)—概述和基本使用教程
- LEADTOOLS使用教程:支票读取和处理
- 这不仅仅是另一个使用TensorFlow来做MNIST数字图像识别的教程
- git使用教程概述
- Java使用OpenCV和Tesseract-OCR实现银行卡图片处理与卡号识别
- (更新视频教程)Tensorflow object detection API 搭建属于自己的物体识别模型(2)——训练并使用自己的模型
- CodeSmith 使用教程(1): 概述
- 兼容IE8以下浏览器input表单属性placeholder不能智能提示功能,以及使用jquery.validate.js表单验证插件的问题处理
- SQL SERVER2000教程-第五章 处理数据 第十九节 使用DECLARE 语句进行数据统计
- spring mvc的controller识别同一个form表单的多个submit按钮问题以及相关处理