所以目前,很多单位都在争相建立起自己的财物数据中心,这样一来,便可以通过共享财物数据以完善票据的统计梳理工作。这不仅是企业单位快速发展的重要环节之一,财物数据信息化也是企业单位信息化的重要组成部分。利用模式识别的OCR技术,可以进行票据的自动识别以及重要信息数据的提取,这样不仅免去了传统人工处理较大工作量的发票信息,可以提高效率、减少误差,降低较大的业务风险,还可以节约成本,这些都是有助于企业向更好的运营方向发展的因素。论文网
在这个快速发展、信息化的时代,能够有效的管理票据、发票以及实现信息管理自动化,是每个企业单位都有必要去认真面对、解决的部分。
高效的发票信息识别系统对于个人、单位都是有重大意义的。以下几点优势不容忽视:
(1)可以提高发票信息存储效率,这一点相比书面记录信息的方式可以有效的延长信息存储时间,还可以节省存储空间;
(2)解决输入发票重要信息这一较为的繁杂问题,利用系统代替大量的手工操作可以更有效率的完成;
(3)完善的信息库有利于发票信息的检索,使之变得更容易、更快捷、更精准、更高效。
本文讨论的基于Tesseract-OCR、ImageMagick这两个开源代码软件的发票信息识别是一个综合性的研究课题,涉及到多门学科,如c++、图像处理、模式识别、模糊数学、数字信号处理、信息论等等。针对这些学科结合实际情况进行综合性的运用,难度比较大,可以算为信息识别领域中较为挑战性的命题。但其理论、成果对很多产业如金融、通信、办公自动化、出版行业等行业的发展都起着极大的推动作用,在这光明的市场需求中,将利用其优势吸引更多的潜在性用户,市场如自动识别名片信息、自动识别车牌信息、自动识别身份证信息、对文档进行自动分类等等。
1.2 发票信息识别系统的研究现状及不足
1.3 发票识别基本模型及其特征
1.3.1 基本模型
一般情况下,理想的发票信息识别系统可分为这几个模块:发票样本图像的输入模块、图像预处理模块、版面分析模块、字符切分模块、特征提取模块、模式分类模块、识别后处理模块。如图1.1所示。
图1.1 发票信息识别流程
发票样本的输入:发票图像的输入系统可采用光电扫描仪,常用的扫描精度有100dpi、200dpi、300dpi和600dpi等几种。扫描的精度越高,图像分辨率就越高,虽然质量好了,这是对识别率有利的方面,但同时数据量的增大也会使需要的内存加大,会延长处理时间,速度明显会受到影响。所以,选取合适的扫描精度不容忽视。
图像预处理:首先用扫描仪处理样本图片,二值化灰度、彩色图像,随后需要平滑去除图像噪声、图像增强、进行倾斜校正以及对扫描时产生的黑边去除等等。很多论文中中提到的常用的去噪方法不少,主要有:领域平均法、低通滤波、中值滤波这几种。对于图像增强的算法,可以采用高通滤波等方法[8]。这些理论、方法已被广泛应用,故本文不着重阐述。
版面分析:总体、宏观的分析发票图像版面,划分出对所要提取信息的区域,对于重要信息的区域将被进行识别。
字符切分:文本的字符切分是一个文本图像分割处理的过程,对每个字符块按一定规则进行处理。这一步是OCR系统的重要步骤,这将影响到识别率的高低。目前,大多数系统这部分的算法可分为基于结构、识别结果,也可以基于整体切分或综合切分等算法。文献综述