您的位置:首页 > 其它

[深度学习论文笔记][arxiv 1711]Learning to Segment Every Thing

2017-11-30 20:28 579 查看

[arxiv 1711]Learning to Segment Every Thing

Ronghang Hu, Piotr Dollar, Kaiming He, Trevor Darrell and Ross Girshick

from BAIR & FAIR

paper link

Motivation

这是一篇在实例分割问题(instance segmentation)中研究扩展分割物体类别数量的论文。目前instancce segmentation任务分类种类过少主要是因为分割标注的数量较少,而检测框的标注已经覆盖了非常多的种类,比如Visual Genome数据库。如果要拓展可分割物体类别数量,则或多或少需要引入弱/半监督的学习方法。

Method



Partial Supervised Learning

这篇文章的方法来源于Mask R-CNN[1],作者将自己的模型称作”Mask^X R-CNN”。Mask R-CNN将instance segmentation任务重新定义为“检测+前背景分割”两个相对独立的子任务。为了拓展可分割物体的类别数量,一个很自然的想法则是使用所有类别的检测标注训练检测模块,使用仅覆盖了部分类别的分割标注训练分割模块。一个是全监督,一个是半监督,作者将两者兼而有之的训练方式称作“偏监督”(partial supervised learning)。

Mask Prediction UsingWeight Transfer

对于分割部分的训练方式其实有两种方案:

在检测结果之上训练一个类别无关(class-agnostic)的二分割网络,以不变应对数量众多的类别;

延续Mask R-CNN的思路,对每一个类别都训练一个二分割网络。但是面对类别很多的情况时,这样做会导致网络非常庞大,对优化是一个挑战。而且对于没有分割标注的类别,它们对应的权重也无法更新。

这篇文章以第二个思路为主来设计分割部分的结构。但是作者并没有直接去优化有物体类别个数的二分割网络,而是使用了“参数迁移”(weight transfer)的方式,从检测部分的模型中生成分割网络的参数。详细来说,作者设计了一个生成网络,以检测框分类器和检测框坐标回归器的权重做输入,输出每一类分割器的权重。其功能如框架示意图中的“weight transfer function”所示。在训练的时候,作者发现截断权重迁移函数(weight transfer function)回传给检测器的梯度有助于提升模型性能。

其原因可能是分割任务的监督信息会对检测任务产生干扰。

除此之外,作者还额外训练了一个类别无关的多层感知机(图中的”class-agnostic mask MLP”部分),将其结果同刚才讨论的生成的多类二分割网络的结果相融合,可以形成互补,提升性能。

Experiment

Dataset

作者使用了COCO和Visual Genome(VG)两个数据库。其中COCO有80类检测+实例分割标注,VG有3000类检测标注。为了定量评价模型质量,作者将COCO数据库分为两个子集。其中一个子集只有20类VOC数据库包含的类别,另一个子集包含剩下的60类,分别称为”voc”和”non-voc”。作者对比了“检测+无类别二分类分割”(即前面讨论的第一个方案)模型作为baseline和全监督训练模型(oracle)作为上界。为了验证训练结果的有效性,作者分别使用了“在”voc”上训练,在”non-voc”上测试”和“在”non-voc”上训练,在”voc”上测试”两个迁移方案。定量评价结果如下:



作者使用VG数据库上的图片给出了定性对比结果。上面一行结果来自于“检测+无类别二分类分割”方案的baseline,下面一行的结果来自作者提出的模型:



Reference

[1] K. He, G. Gkioxari, P. Dollar, and R. Girshick. Mask RCNN. In ICCV, 2017
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐