摘要现代信息化社会中,发票的自动化处理可以有效的减少人工参与操作,不仅可以避免输入信息时的操作差错,还可以减少花费节约人力成本。如若将发票图片进行整体识别信息,对于OCR系统来说,图片版面虽较为简单但运算量不小且识别率低,所以不太适用。本文尝试通过结合开源软件ImageMagick和Tesseract来处理发票信息。本文的主要内容总结如下:
(1)利用ImageMagick进行对发票图像的预处理、版面分析等多个环节,处理好的图片即为Tesseract识别信息的输入端图片。64870
(2)分析Tesseract识别信息的流程及其重要算法,利用它来实现识别重要信息中的中文和数字。实验证明,可以准确的识别发票中所需区域的数字,而中文识别率还有待提高。
关键词 发票信息识别 ImageMagick Tesseract-OCR
毕业论文毕业设计说明书(论文)外文摘要
Title Algorithm module in information recognition software of invoice
Abstract With the incredibly rapid advancement of society, invoice automated processing can effectively reduce manual operations involved, not only to avoid errors made by inpiduals, but to reduce labor costs. If the overall picture of the invoice, simple layout of picture relatively, to be identified by OCR systems, a huge amount of computation and low recognition rate cannot be ignored. This paper attempts to combine ImageMagick and Tesseract, which is open source softwares, to process information of invoice. The main contents of this paper are summarized as follows:
(1)Using the ImageMagick to preprocess the image of an invoice, to analysis the layout and so on, whose result image is the input picture of Tesseract.
(2)Analyze the flow of information recognition in Tesseract and its important algorithms, and then use it to achieve the identification result of important information in Chinese and numbers. Experiments show that the invoice numbers can be accurately identified in the desired area, and the rate of Chinese recognition to be improved.
Keywords recognition of invoice ImageMagick Tesseract-OCR
目 次
1 绪论 1
1.1 发票识别的研究背景 1
1.2 发票信息识别系统的研究现状及不足 2
1.3 发票识别基本模型及其特征 3
1.4 本文主要内容及创新点 5
1.5 本文的结构组织 5
2 预处理 7
2.1 预处理环节 7
2.2 发票图像二值化 8
2.3 倾斜校正 10
2.4 去除噪声 10
2.5 ImageMagick的操作 11
2.6 本章小结 11
3 版面分析 13
3.1 版面分析的方法 13
3.2 ImageMagick命令行 15
3.3 实验效果 15
3.4 本章小结 17
4 Tesseract识别算法 19
4.1 Tesseract识别过程 19
4.2 字的识别 20
4.3 功能模块函数 21
4.4 实验结果及分析 22
4.5 本章小结 26
结论 27
致谢 29
参考文献 30
1 绪论
1.1 发票识别的研究背景
我们的生活、工作中离不开发票,而各行各业发票的信息输入大部分都沿袭着手工操作的方法,这种方式需要大量的人力的投入来完成票据中内容的数字化输入。同时,也需要不少的时间投入到这项工作之中。如此一来,工作的效率肯定也不如自动化系统来处理的效果好,而且人为操作有引入差错导致经济损失的可能性。