特征提取:这是环节中不可忽视的部分,从独立的字符图像中得到特征。得到的特征的性质也影响到了识别率。统计特征和结构特征两种较为常用,前者是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域;后者则将文字细化之后的端点、交叉点和位置进行对比。
模式识别:通过将待识别信息与库中字符进行对比,其中,相似度最高的字符即被作为结果。
识别后处理:根据实际情况或语言库对信息识别结果进行校正。
1.3.2 发票图像的基本特征
本文研究的对象是增值税发票图像,如图1.2所示。通过对增值税发票信息的归纳,得到了比较通用的增值税发票图像特征:
(1)字体均为印刷体;
(2)单位信息包括了名称、纳税人识别号、地址、电话、开户行及账号;
(3)地址中包含中文和数字,电话号码中也有“-”的字符出现。
图1.2 常见的增值税发票样式
在了解了发票样式特点之后,根据我们所需要的重要信息的内容,在图像处理中采取图像区域的分割,如对购货单位、销货单位的信息和发票编号等重要信息区域进行划分,以便提高整体处理速度。
1.4 本文主要内容及创新点
主要内容:
(1)对发票信息识别的理论部分进行阐述,包括图像的预处理、版面分析、字符识别等一些常用的理论。
(2)根据Tesseract-OCR、ImageMagick开源代码对发票图片进行重要信息的提取。无论是在功能模块划分还在算法选择上都做了仔细的分析。
(3)本设计提出了一种基于Tesseract和ImageMagick开源代码的发票信息识别方式。该方法可以实现对输入的发票图像进行预处理、版面分析、信息识别等多个环节的处理,最后得到发票的识别结果,其中包括发票号、出货人信息以及收货人信息等。实验结果表明,该方法能有效完成对发票信息的识别处理,准确识别出发票重要信息的中文、数字。
创新点:
(1)本文提出了一种利用Tesseract、ImageMagick这两个开源代码软件对发票信息进行识别的方法。
(2)针对增值税发票的版面特征,进行了版面分析;根据发票增值税发票通用排版的格式,通过实验得到区域划分的数据,完成对发票版面的划分。
1.5 本文的组织结构源:自~优尔·论`文'网·www.youerw.com/
本文叙述了图1.1中的流程,文章结构如下:
第一章“绪论”分析了本课题的研究背景及研究现状,并对发票信息识别的相关理论概念进行叙述。描述了基于OCR的发票信息识别系统的典型框架以及各模块作用等,最后介绍了本文的主要内容和框架。
第二章“预处理”部分逐一介绍了预处理中每个环节、步骤,二值化、倾斜校正等部分的常用方法也进行了阐述,最后,还说明了ImageMagick在此环节的使用操作步骤。
第三章“版面分析”部分,提出采用“自顶向下”的版面分析方法,分析了针对增值税发票的版面。首先划分了3个发票中需要提取的区域,每个区域根据情况在后续也进行了进一步划分分析。
第四章“Tesseract识别算法”阐述了识别环节中的流程、识别操作。对识别流程中重要的环节,也提出了Tesseract代码中对应的函数。同时通过实验,分析得到了对于两张发票样本的识别率。
“总结”部分总结了论文的实施效果,在写论文的过程中实现的功能以及对于未能实现的功能提出进一步的展望、建议。