您的位置：首页 > 其它

图像显著度（saliency detection）研究现状调研

2014-02-24 02:00 183 查看

最近老板让我接触这方面的研究，做了一个简单的调研。

============================================================

关于显著度的研究是从生物研究发展而来，早期比较重要的工作是C.Koch与S.Ullman做的，时间可以追溯到1985年。

显著度的获取方式主要有两种：自上而下，从高层语义入手，其实目标检测等等也可以归入这一类中；更普遍的是自下而上，从底层特征入手。直到现在，第二种自下而上的方法仍是主流。

从CV角度研究显著度问题从1998年开始，开创者是Itti。其最出名的文章是A model of saliency based visual attention for rapid scene analysis，发表在1998年的PAMI上。

这篇文章基本奠定了显著度研究的基本思路，即：特征提取—>归一化—>特征综合/显著度计算—>显著性区域划分/兴趣点标定。

在最初的文章中主要采取启发式的方法提取特征，依据生物学研究，主要提取亮度、色彩、旋转一致性三种特征，得到三种feature map。随后这些feature map被归一化以便综合，综合方法是简单的相加。从综合后的saliency map上提取前N个峰值即为寻求的interest point。

随后的很多研究都采取了这样的框架，针对特征提取/特征综合等等不同的阶段分别进行优化。

例如这篇：J. Harel, C. Koch, &P. Perona. Graph-based visual saliency. Advances in Neural Information Processing Systems, 19:545-552, 2006.

假定仍采用原先的特征提取方式，但是综合阶段使用的不是线性组合而是马尔科夫随机场，获得了比Itti更好的效果。

另两篇Xiaodi Hou, Jonathan Harel and Christof Koch: Image Signature: Highlighting Sparse Salient Regions (PAMI 2012)

和R. Achanta, S. Hemami ,F. Estrada,& S. Süsstrunk, Frequency-tuned salient region detection. IEEE International Conference on Computer Vision and Pattern Recognition, 2009, pp.1597-1604.

则是定义了一种新的底层特征提取方法，计算saliency的过程仍采用马尔科夫随机场。

采用条件随机场的比较著名的一篇文章应该是Tie Liu, Jian Sun, Nan-Ning Zheng, Xiaoou Tang and Heung-Yeung Shum. Learning to Detect A Salient Object. In Proc. IEEE Cont. on Computer Vision and pattern Recognition (CVPR), 2007.

引用665次！作者建立了一个10k级别的数据库（手工标注方框），并提出了系统的评估方法。

2007年，侯晓迪另辟蹊径，提出了一种完全不同的思路，称为频域残差法。这种方法不考察前景的特点，反而去研究背景都具有那些特点，从图片中提取跟这些特点不符的就是interest point。

其考察背景特征的方法是计算图片的log频谱，发现对于自然图片，其曲线应该与1/f成正比。因此只需从待考察频谱中减去基准频谱，剩下的就是需要关注的部分。

R. Achanta, S. Hemami ,F. Estrada,& S. Süsstrunk, Frequency-tuned salient region detection. IEEE International Conference on Computer Vision and Pattern Recognition, 2009, pp.1597-1604.

在频域残差法的基础上，复旦大学有人提出了利用相位谱的方法。相位谱就是仅仅保留频谱分量的符号而不保存其值，这样可以获得更高的计算效率。

在获得每个点的相位谱之后，两点之间的距离简单地用hamming距离表示，随后采用条件随机场进行优化。其文章发表于2008年CVPR。

Chenlei Guo, Qi Ma, Liming Zhang: Spatio-temporal Saliency detection using phase spectrum of quaternion fourier transform. CVPR 2008

同样采用相位谱的还有M. Holtzman-Gazit, L. Zelnik-Manor and I.Yavne, " Salient Edges: A MultiScale Approach", ECCV 2010 Workshop on Vision for Cognitive Tasks.

不同点是，他们还对图片提取了多种分辨率。其思想是，无用的背景在多种分辨率下应该是相似的，而有用信息则只出现在某几层中。

同一拨人还做了大量细致的工作。S. Goferman, L. Zelnik-Manor, and A. Tal. Context-Aware Saliency Detection. CVPR 2010.

这篇文章中，他们提出应当同时考虑局部信息和全局信息，例如注意力应该集中在某些特定区域而不是分散，距离视觉焦点更近的点容易被观察到等等，效果拔群。

采用底层特征和高层（全局）特征结合方法的还有Tilke Judd, Krista Ehinger, Frédo Durand, Antonio Torralba.Learning to predict where people look,International Conference on Computer Vision, ICCV 2009.

这篇文章中，他们提取了三个层次的特征：一般的底层特征，自然场景中的地平线，人脸检测（采用V-J算法）。

以上是比较主流的做法。其余还有一些人，例如Xiaohui Shen and Ying Wu, "A Unified Approach to Salient Object Detection via Low Rank Matrix Recovery", in IEEE Conference on Computer Vision and Pattern Recognition (CVPR)(Oral), 2012.希望通过寻找图像在特征空间中的有效表示（可以将图片信息简洁的分为无用部分+有用部分）来解决问题。

Chuan Yang, Lihe Zhang, Huchuan Lu, Minghsuan Yang, Saliency Detection via Graph-Based Manifold Ranking, CVPR 2013.则希望通过流形嵌入解决问题，用到了大量的数学推导（原谅我这两篇都没看懂。。。）。

总结：从近几年的趋势来看，纯数学的频域方法似乎没什么潜力。人们更多的还是关注有效的特征提取以及高层特征和底层特征的结合。

saliency的问题具有特殊性，因为我们容易给出的ground truth是0或1,而不是0-1之间的连续值。这就让神经网络在这里难以训练，相反有的借助SVM的方法（Tilke Judd, Krista Ehinger, Frédo Durand, Antonio Torralba.Learning to predict where people look,International Conference on Computer Vision, ICCV 2009.）效果不错。

学习算法在这里发挥的作用似乎不是很大，可以从高层起到一些辅助作用（例如特定的类别和目标检测），但不本质。

============================================================

调研主要参考了这篇博客整理的内容，向作者致谢。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航