视觉显著性检测算法主要基于神经生物学、认知心理学等领域的研究对人类视觉系统机理的探索。目前,研究者们提出了很多的模型,既包括理论模型也包括计算模型。本文主要集中于视觉注意计算模型的研究。79563
显著性分析问题的研究是从模拟人类视觉行为开始的。人眼可以快速锁定视觉场景中的核心目标物体,早期研究学者通过生物体视觉仿真技术建立相应模型,以实现图像显著区域的高效检测,代表性算法是Itti等人提出的中心周边算子特征融合方法[7]。这个方法第一次完整的实现了C。Koch提出的显著性检测系统,将两个或两个以上特征通过某一融合机制进行融合。继Itti模型提出后,许多学者对它进行了优化或者将它应用于其他计算视觉任务中,例如Frintrop[29]和Wang[30]等人。前者借用积分图像的快速特征计算将显著性检测的时耗降低了一个数量级,解决了Itti模型无法用于实时分析的问题。后者用梯度图和Itti模型生成的显著性图合成重要性图,并用这些重要性图实现了高质量内容敏感的图像缩放。两者从不同的方向对前人的方法进行改进,使当时的图像显著性检测得到了很大的提升,同时也为后面的研究者们打开了一扇新的大门。
近年来,研究者们已提出了很多计算模型来检测图像和视频的显著性,为后续计算机对图像和视频的处理提供了很大的便捷。这些显著性检测算法可以分为两大类:眼动点预测(eyefixationprediction)模型和显著物体检测(salientobjectdetection)模型。
1眼动点预测模型
早期的工作大多数都致力于眼动预测算法的研究。Itti等人[7]提出了一种可行的自底向上的眼动点预测方法。首先对图像进行线性滤波得到多个尺度上的颜色、亮度、方向特征,然后,利用中心-周围算子对每一种特征进行操作得到多个特征显著图,最后,经过合并和归一化的操作来得到最终显著性检测结果。论文网
Bruce等人[8]提出了一种基于信息最大化的自底向上的显著性检测方法。该方法主要是利用了香农的自信息理论来衡量图像区域的显著性。首先利用独立分量分析(ICA)算法从自然图像采集的大量图像块中学习出一系列的滤波器,然后,将各个滤波器和图像做卷积得到一系列的特征,接着利用图像本身的信息来估计特征的概率密度分布函数,最后,根据得到的概率密度函数来计算图像区域的自信息,从而得到图像的显著图。
Harel等人[9]介绍了一种基于图模型的显著性检测算法(GBVS)。首先在多个尺度上计算了多个特征性图,然后,针对每个特征图建立一个全连接图,图中两个节点之间边的权重由两个节点在特征图的距离和在图像中的空间距离共同决定,接着,显著图定义为图模型上随机游走的稳态分布。如果一个节点和其周围的节点有很大的差异,那么这个节点相对应的稳态分布值将比较大,也就是随机游走过程中不容易到达该节点,最后,将每个特征图得到的稳态分布图进行合并,得到最后的显著图。
Hou等人[10]在频域内分析了图像显著性和谱余量之间的关系。首先,通过傅里叶变换得到图像幅度谱,接着,对幅度谱取对数得到对数幅度谱,然后,将对数幅度谱与一个邻域平均滤波器相乘,并和自己相减得到谱余量,最后,对谱余量进行拉普拉斯反变换,并利用高斯滤波器进行平滑得到最终显著图。
Zhang等人[11]提出了经典的SUN方法。SUN也是基于香农的信息论理论来衡量显著性。通过DoG或者ICA等方法得到一系列滤波器,进而得到图像的响应特征图。利用100多幅自然图像而不是测试图像本身来估计响应特征的概率密度函数,因此得到的概率密度函数包含了自然图像的统计特征,最后利用概率密度函数,得到测试图像的自信息,进而计算得到显著图。