摘要现代信息化社会中,发票的自动化处理可以有效的减少人工参与操作,不仅可以避免输入信息时的操作差错,还可以减少花费节约人力成本。如若将发票图片进行整体识别信息,对于OCR系统来说,图片版面虽较为简单但运算量不小且识别率低,所以不太适用。本文尝试通过结合开源软件ImageMagick和Tesseract来处理发票信息。本文的主要内容总结如下:

(1)利用ImageMagick进行对发票图像的预处理、版面分析等多个环节,处理好的图片即为Tesseract识别信息的输入端图片。64870

(2)分析Tesseract识别信息的流程及其重要算法,利用它来实现识别重要信息中的中文和数字。实验证明,可以准确的识别发票中所需区域的数字,而中文识别率还有待提高。

关键词  发票信息识别  ImageMagick  Tesseract-OCR

毕业论文毕业设计说明书(论文)外文摘要

Title                  Algorithm module in information recognition software of invoice                                           

Abstract With the incredibly rapid advancement of society, invoice automated processing can effectively reduce manual operations involved, not only to avoid errors made by inpiduals, but to reduce labor costs. If the overall picture of the invoice, simple layout of picture relatively, to be identified by OCR systems, a huge amount of computation and low recognition rate cannot be ignored. This paper attempts to combine ImageMagick and Tesseract, which is open source softwares, to process information of invoice. The main contents of this paper are summarized as follows:

(1)Using the ImageMagick to preprocess the image of an invoice, to analysis the layout and so on, whose result image is the input picture of Tesseract.

(2)Analyze the flow of information recognition in Tesseract and its important algorithms, and then use it to achieve the identification result of important information in Chinese and numbers. Experiments show that the invoice numbers can be accurately identified in the desired area, and the rate of Chinese recognition to be improved. 

Keywords  recognition of invoice  ImageMagick  Tesseract-OCR

目   次

1  绪论 1

1.1  发票识别的研究背景 1

1.2  发票信息识别系统的研究现状及不足 2

1.3  发票识别基本模型及其特征 3

1.4  本文主要内容及创新点 5

1.5  本文的结构组织 5

2  预处理 7

2.1  预处理环节 7

2.2  发票图像二值化 8

2.3  倾斜校正 10

2.4  去除噪声 10

2.5  ImageMagick的操作 11

2.6  本章小结 11

3  版面分析 13

3.1  版面分析的方法 13

3.2  ImageMagick命令行 15

3.3  实验效果 15

3.4  本章小结 17

4  Tesseract识别算法 19

4.1  Tesseract识别过程 19

4.2  字的识别 20

4.3  功能模块函数 21

4.4  实验结果及分析 22

4.5  本章小结 26

结论  27

致谢  29

参考文献  30

1  绪论

1.1  发票识别的研究背景

我们的生活、工作中离不开发票,而各行各业发票的信息输入大部分都沿袭着手工操作的方法,这种方式需要大量的人力的投入来完成票据中内容的数字化输入。同时,也需要不少的时间投入到这项工作之中。如此一来,工作的效率肯定也不如自动化系统来处理的效果好,而且人为操作有引入差错导致经济损失的可能性。

上一篇:HFSS的WLAN双频双模贴片滤波器的设计
下一篇:ADS宽带线性调频源的设计

LabVIEW+OPC通信的光信息采集交互系统设计

Android智能终端的信息加密技术研究与实现

Arduino心率传感器信息采集和远程传输技术

LabVIEW船用产品质量信息分析系统设计

OpenGL数字图像处理的矢量...

AT89C51单片机模拟GPS定位信息显示系统设计

基于偏振信息的图像处理及融合技术研究

张洁小说《无字》中的女性意识

老年2型糖尿病患者运动疗...

互联网教育”变革路径研究进展【7972字】

安康汉江网讯

我国风险投资的发展现状问题及对策分析

ASP.net+sqlserver企业设备管理系统设计与开发

网络语言“XX体”研究

麦秸秆还田和沼液灌溉对...

LiMn1-xFexPO4正极材料合成及充放电性能研究

新課改下小學语文洧效阅...