您的位置：首页 > 移动开发 > Objective-C

STDN: Scale-Transferrable Object Detection 论文笔记

2018-02-27 17:31 295 查看

原文链接：Scale-Transferrable Object Detection（暂时只有网盘的 - -）

这篇论文是上交的，收录于CVPR2018，个人觉得创新性很高，牛人还是多呀~

直接看算法过程。Figure1 是几种常见的detect算法对比，(a)是最原始的用一层feature来predict；(b)是FPN，Top-down结构；(c)是SSD，多scale检测；(d)是STDN，也就是本文算法，大致可以看出是和SSD比较类似的，base network是densenet 169，具体见figure 2 (densenet不清楚的移步这里)。

如下图2所示，STDN也是采用SSD的架构，构造出6个不同resolution layer来进行detect。

base ntework是densenet 169, 其网络结构移步这里。

在每个densenet block里，每个layer的输出size是一样的，从图2中看出作者采用的是最后一个densenet block里的6层layer来生成6个不同resolution layer（对应于shicai densenet的concat 5_5,contact5_10,……）。对于low resolution lauer，直接采用mean pool来生成，对于high resloution layer ，采用作者提出的scale transfer
layer 进行上采样，这样就能得到如图2所示的6个用于predict的不同resolution layer。

那么scale transfer layer 是怎么进行上采样的呢？从图3可以看出，在此就不贴公式了，直接口头表述。对于H
× W ×
C · r2

的feature map，根据channel，以r2 为一组，将其划分为C组，每一组都可以理解为是r2个H × W
的feature map，把同一组的H × W 的feature map上的同一位置的像素点组合到一起，也就是说把1*1*r2变成了r*r*1*1，那么一组feature map就变成了rh*rw，完成了上采样。想法还是很新颖的。

此外，为什么要用最后一个densenet block呢？作者说明了网络的顶层具有高语义信息和低细节信息（也就是低分辨率吧）更有利于进行OD，其实这个还是很好理解的，但是会不会引用一部分低block信息会更好一点呢？这个有待考究，有时间的话我会试一下~

文中作者也比较了，直接将VGG换为Densenet，接上SSD和STDN进行了比较，验证了算法的有效性。

再贴一个本文算法和其它算法在VOC上的对比图，效果还是蛮不错的。coco的就不贴了。。

总结：本文是基于SSD算法进行改进，前置网络采用densenet，考虑到追求速度，为什么要接那么多layer去生成low resolution layer呢，多浪费时间，何不从网络本身进行上下采样来获得predict layer。。反正densenent够深，特征提取的应该是很棒的。作者的上采样方法也是很有特色，获得predict layer的方法也算是打破传统，总之个人觉得是一篇好文啊。

看来现在OD发paper主要是围绕densenet和seperable conv啊，当然对性能好的网络做pruning/压缩并且不丢acc也是不衰的方向啊。要加快速度了，赶紧搞点实在的东西啊~

文章看的比较匆促，表述不清或有错误的看官请指出，共同进步~

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航