3. 第三章主要从线条的角度实现文本区域的检测,得到文本区域,相关区域的合并,以及区域的过滤。
4. 第四章的主要工作是对文本区域进行二值化,过滤,得到最终的文字区域。
2 当前文字提取的主要方法
图像中的文本定位涉及到比较多的学科和方法,是多种学科交叉的产物,包括模式识别、数学、计算智能等等。
图像中的文本提取比较复杂,情况多样化,分为场景文字和人工文字两种情况。人工文字情况比较单一,背景不太复杂,一般都是固定的,比如字幕、广告等。而场景文字一般是相机拍摄到的实际场景中有的文字,一般比较复杂,比如路牌等。场景文字可能会有扭曲变形的情况发生,有的可以进行校正然后再处理。
图像的文字定位于提取主要的方法大致可以分为基于边缘、基于纹理、基于区域、基于学习这几种方法。
2.1 基于边缘
由于文字的边缘信息往往非常的丰富,基于边缘的这类方法通过提取图像的边缘信息(通过边缘检测,比如canny算子等边缘检测算子),进行筛选过滤,然后形成文字块,然后再进一步筛选。
这类的方法一般比较适用于图像的背景比较简单的情况,可以很好的定位出文本的位置,而且该方法主要考虑的是边缘的信息,所以说对于文字的颜色不太敏感。但是该方法对于背景比较复杂的情况就不太适用了,效果往往不好,会有比较高的误检率,因为背景复杂的图像往往纹理比较复杂,在边缘检测的时候往往会有比较相似于文字的边缘信息,难以过滤掉。
2.2 基于纹理
由于文字的纹理特征是不同于背景的纹理特征的,文字的纹理特征往往呈现周期性的水平强度变化或者垂直的强度变化,所以说该方法主要是利用了图像中的这一特性,根据纹理特征分割文字。通过滤波器对图像进行滤波处理,计算每个像素的特征向量,从而根据这些向量实现像素的分类。文献综述
该方法正好弥补了基于边缘的方法的不足,对于纹理比较复杂的图像仍然有比较好的查全率和查准率。但是目前该类方法的主要难点是纹理的特征如何获取,应该选择什么样的纹理特征去处理,作为分类的标准。我们知道文字和背景的纹理不同,但是怎样充分利用这一点确实是一个难点。另外,该方法的一个严重的问题是计算量太大,往往现有的设备运算的太慢,不足以有效的实现该方法,也许在未来,计算量不再是问题的时候,该方法是一个不错的选择。
2.3 基于区域
该类方法一般比较适用于文本的前景色一致的,并且与背景色的反差足够大的情况下。一般使用区域的分裂与合并等方法来检测文本区域。由于文字区域有文字区域特有的几何特性,比如说文字的尺寸等,这样可以排除一些非文字的区域,从而实现初步的过滤。然后进行区域的合并,合成文字区域,同时过滤一些不符合我们定义的准则的区域。最后,我们再最终的过滤一些非文字的区域,优化结果,从而得到文字区域。
基于区域的方法一般适用于背景粒度比较粗的一类的图像,但是如果文本的的区域不够明显,往往不太适用。该类的方法在很大的程度上都依赖于初始的连通域的生成。
2.4 基于学习
基于学习的方法是随着计算智能化的发展而发展而来的,该方法可以说是一种智能化的方法,模仿人类的学习的能力,可以利用机器去学习样本,从而可以实现对文本区域和非文本区域的分割。我初次接触这类学习的方法是在《计算智能》这门课上学习到的,其中的神经网络就是类似这样的一种方法,该方法是预设一些参数,可以实现对不同的输入进行不同的分类。通过的样本的学习,可以不断的优化参数,从而实现类似于样本的分类标准。文字的检测也是一样的,也是一种分类的问题,只不过把区域分为文本区域和非文本区域两类。来!自~优尔论-文|网www.youerw.com