对图像中文字信息的提取包括对文字的定位、提取、切分和识别,其中,文字定位是整个过程的第一步,它的性能直接决定了文字信息提取系统所具有的最好性能。文本区域定位就是找出图像中文本所在的位置或者刚好包围文本的矩形区域,是文本识别非常关键的一步,文本定位的精准与否直接决定了整个识别系统准确率的高低。但文本定位受语种、文字的颜色、分辨率、字符间距、背景、光照和倾斜等因素的影响比较大,并且某些纹理、图案等很难与文字区分开来。由于数据采集设备的原因,可能会出现离焦模糊、运动模糊、传感器噪声等情况,这些都给文本定位带来了较大的困难,它到目前为止依然是一个未能很好解决的问题。与算法比较成熟的文字切分和文字识别相比,图像中的文字定位还没有通用有效的解决方案。现有的算法中往往使用了大量的先验知识条件,缺乏足够的鲁棒性,只有在特定的应用环境中才能获得令人满意的定位准确率。60135
目前,基于纹理进行文字区域的检测与定位是一种思路,相关算法都试图找出能有效体现文字区域纹理模式的特征,已提出的纹理特征主要包括原始像素抽样、梯度分布等空域统计特征,以及离散余弦变换、小波变换系数的统计特征。大部分研究者采用传统的神经网络、支持向量机实现文字区域的分类。
文字定位算法可以被分为基于连通域、基于纹理、基于边缘、基于机器以及其他定位算法。其中,基于连通域的方法是首先利用颜色或灰度等属性从图像中提取出连通域;然后根据几何特征来对它们进行鉴别;最后将通过鉴别的连通域合并成文字定位的结果论文网。由于基于连通域的方法易于实现,因而被广泛地应用,然而,当图像的背景比较复杂或者质量较差时,此类算法很难抽取出准确的连通域;另外,此类算法中所使用的规则和门限阈值是根据特定的图像集确定的,这使得它们局限于具体的应用,缺乏鲁棒性,很难进行推广。
基于纹理的方法认为,图像中的文字具有特殊的纹理属性,可以采用纹理分析的方法来对文字区域进行定位。文字纹理分析的工具包括Gabor滤波器 、小波 等。基于纹理的方法通过考察像素的邻域,能够有效地克服背景噪声干扰和图像质量下降给定位带来的困难。同时,部分纹理分析的方法由于采用了机器学习的算法,从而比基于连通域的方法具有更强的鲁棒性。
基于边缘定位方法是利用图像中的文本与背景图像之间拥有较高的对比度,文字笔画边缘比较明显这一特性来进行定位的。边缘检测的方法可以有效的检测到字符的边缘,主要由于文本区域通常含有较高的边缘密度。图像的文本一般为了方便阅读,文本嵌入时候与背景颜色会有较大的差别,所以一般假设文本边缘比较陡峭,梯度也比较大。文字字符笔画一般以水平和垂直为主,垂直笔画边缘有相近的高度,而且笔画边缘在空间上会表现出粘连性,然后把相邻的笔画边缘连接就能够得到矩形状的文本区域。
基于机器学习方法是由于纹理的定位方法对文字的风格和大小比较敏感,选择特征相对水平比较低,很难手工设计出一种通过纹理分类器来适用于各种情况。文本定位可以简单认为把图像分成文本和非文本两类的分类问题。为此提出了基于机器学习的方法来实现自动纹理分类。为此,一般基于纹理的分类方法都会选择较为复杂的分类器,比较常见的又人工神经网路和支持向量机。