您的位置：首页 > 其它

[深度学习论文笔记][arxiv 1711]Learning to Segment Every Thing

2017-11-30 20:28 579 查看

[arxiv 1711]Learning to Segment Every Thing

Ronghang Hu, Piotr Dollar, Kaiming He, Trevor Darrell and Ross Girshick

from BAIR & FAIR

paper link

Motivation

这是一篇在实例分割问题(instance segmentation)中研究扩展分割物体类别数量的论文。目前instancce segmentation任务分类种类过少主要是因为分割标注的数量较少，而检测框的标注已经覆盖了非常多的种类，比如Visual Genome数据库。如果要拓展可分割物体类别数量，则或多或少需要引入弱/半监督的学习方法。

Method

Partial Supervised Learning

这篇文章的方法来源于Mask R-CNN[1]，作者将自己的模型称作”Mask^X R-CNN”。Mask R-CNN将instance segmentation任务重新定义为“检测+前背景分割”两个相对独立的子任务。为了拓展可分割物体的类别数量，一个很自然的想法则是使用所有类别的检测标注训练检测模块，使用仅覆盖了部分类别的分割标注训练分割模块。一个是全监督，一个是半监督，作者将两者兼而有之的训练方式称作“偏监督”(partial supervised learning)。

Mask Prediction UsingWeight Transfer

对于分割部分的训练方式其实有两种方案：

在检测结果之上训练一个类别无关(class-agnostic)的二分割网络，以不变应对数量众多的类别；

延续Mask R-CNN的思路，对每一个类别都训练一个二分割网络。但是面对类别很多的情况时，这样做会导致网络非常庞大，对优化是一个挑战。而且对于没有分割标注的类别，它们对应的权重也无法更新。

这篇文章以第二个思路为主来设计分割部分的结构。但是作者并没有直接去优化有物体类别个数的二分割网络，而是使用了“参数迁移”(weight transfer)的方式，从检测部分的模型中生成分割网络的参数。详细来说，作者设计了一个生成网络，以检测框分类器和检测框坐标回归器的权重做输入，输出每一类分割器的权重。其功能如框架示意图中的“weight transfer function”所示。在训练的时候，作者发现截断权重迁移函数(weight transfer function)回传给检测器的梯度有助于提升模型性能。

其原因可能是分割任务的监督信息会对检测任务产生干扰。

除此之外，作者还额外训练了一个类别无关的多层感知机(图中的”class-agnostic mask MLP”部分)，将其结果同刚才讨论的生成的多类二分割网络的结果相融合，可以形成互补，提升性能。

Experiment

Dataset

作者使用了COCO和Visual Genome(VG)两个数据库。其中COCO有80类检测+实例分割标注，VG有3000类检测标注。为了定量评价模型质量，作者将COCO数据库分为两个子集。其中一个子集只有20类VOC数据库包含的类别，另一个子集包含剩下的60类，分别称为”voc”和”non-voc”。作者对比了“检测+无类别二分类分割”（即前面讨论的第一个方案）模型作为baseline和全监督训练模型(oracle)作为上界。为了验证训练结果的有效性，作者分别使用了“在”voc”上训练，在”non-voc”上测试”和“在”non-voc”上训练，在”voc”上测试”两个迁移方案。定量评价结果如下：

作者使用VG数据库上的图片给出了定性对比结果。上面一行结果来自于“检测+无类别二分类分割”方案的baseline，下面一行的结果来自作者提出的模型：

Reference

[1] K. He, G. Gkioxari, P. Dollar, and R. Girshick. Mask RCNN. In ICCV, 2017

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航