您的位置：首页 > 移动开发 > Objective-C

PARTICULAR OBJECT RETRIEVAL WITH INTEGRAL MAX-POOLING OF CNN ACTIVATIONS阅读笔记

2017-12-17 16:31 1636 查看

不久前看到一篇paper，感觉效果虽然不是特别好，但是对于图像检索和目标识别的后续工作特别有启发意义，所以大致记录一下阅读笔记，以此激励自己学习。

近年来，基于CNN的图像表征已经为图像检索提供了很有效的描述子，超越了很多由预训练CNN模型的到的短向量表示。然而这些方法和模型不适用于几何感知重排，仍然会被一些依赖于精确的特征匹配，几何重排或者查询扩展的传统图像检索所超越。所以本文的工作利用CNN获得的信息重新学习了初始搜索和重排序阶段，构建了紧致的特征向量编码几个图像区域，不需要多次输入图像到网络。然后，文章对整个图像的卷积层进行最大池化操作，从而有效地定位匹配目标。最终的bounding box用来图像重排序。总之，文章改善了现有的CNN识别方法，在oxford5k和paris6k上获得了比较好的效果。

本文考虑预训练的CNN模型，比如Alexnet 或者VGG,并抛弃了所有的全连接层。给定一个输入图像I,大小为WIHI,卷积层的响应构成了3维的张量WH*K,这里K是输出特征通道的数量，即多维的滤波。

MAC(卷积层最大激活值)：通过上述的到的k维的向量之间的余弦相似度计算两幅图像的相似性。这个向量叫做MAC，对单个W*H的区域最大池化。MAC编码了每个卷积核的局部响应，所以是旋转不变的，本文主要考虑最后一层卷积层。

对图像的区域进行编码

R-MAC(卷积层区域最大激活值）：考虑R个不同大小的区域，文章定义区域在CNN响应图上，而不是原始图片。采样了L个不同规模的方形区域。当尺度l=1,即区域的宽和高是W和H,区域被统一采样连续区域使得覆盖率为40%。注意原始图像的分辨率对区域的个数m有影响，如果输入图像是方形则提取一个区域，对于尺度l，我们统一采样宽度为2min(W,H)/(l+1)的l*(l+m-1)个区域。然后计算每个区域的特征向量,再通过l2归一化，PCA白化，对区域向量求和的单一的向量，进行l2归一化。这样使得特征的维度保持和k一致，与MAC维度相同但是性能改进了很多。

接下来还有目标检测阶段，窗口检测阶段，AML近似最大池化定位，都是为了目标匹配，定位而做的。

本文在检索阶段主要对提取的向量进行初始化检索，然后重排序，查询扩展使得检索精度比较好。

我感觉通过这种方法提取得到的特征其实还有很多信息丢失，所以应该还有很多改进的办法来提高精度的，有必要好好研究一下细节了。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

PARTICULAR OBJECT RETRIEVAL WITH INTEGRAL MAX-POOLING OF CNN ACTIVATIONS阅读笔记

本文考虑预训练的CNN模型，比如Alexnet 或者VGG,并抛弃了所有的全连接层。给定一个输入图像I,大小为WI*HI,卷积层的响应构成了3维的张量W*H*K,这里K是输出特征通道的数量，即多维的滤波。

对图像的区域进行编码

接下来还有目标检测阶段，窗口检测阶段，AML近似最大池化定位，都是为了目标匹配，定位而做的。

本文考虑预训练的CNN模型，比如Alexnet 或者VGG,并抛弃了所有的全连接层。给定一个输入图像I,大小为WIHI,卷积层的响应构成了3维的张量WH*K,这里K是输出特征通道的数量，即多维的滤波。