论文阅读-《Joint Object and Part Segmentation using Deep Learned Potentials》
2017-04-17 14:35
627 查看
ICCV 2015 UCLA
上面这张图表示joint object and part segmentation的结果。
整体的框架如上图所示,基本的流程在Abstract里面介绍过了。下面具体分析其中的component
我觉得作者的意思是,如果part segmentation的时候只是按照 (l_s) 来分类的话,同一个类里面可能差别会比较大,比如马头和牛头,但是完全按照马头、牛头、马尾巴、牛尾巴这种object+part来对所有part进行分类的话,不仅要分的class很多,而且像马尾巴、牛尾巴这种语义很接近,外观很接近的part就很难区分。所以作者自己构建了一个semantic compositional part,把所有object class里面具有区分度的part拿出来。通过scp分类,再结合object class,就完全可以恢复出这个part是哪种动物的哪种part了。就算不结合object class的信息,再进行scp segmentation之后,也可以将horse head和cow head统一映射到head。
这里需要注意的一点是,scp segmentation和object segmentation需要不同scale的输入。这个在DPM里面也有体现,在DPM里面,root filter作用在较小scale的图像上进行粗定位,然后part filter作用在更大scale的图像上进行part的定位。就好比我们对一个物体要看的更仔细,需要细看到物体的某个部分,我们通常需要放大图像。
minL∑i∈Vψ(liop)+λe∑i,j∈V,i≠jψi,j(liop,ljop)
where
ψ(liop)=η(lio,lip)(ψoi(lio)+λpψpi(lip));
ψi,j(liop,ljop)=η(lio,lip)η(ljo,ljp)ψopi,j(lio,ljo,lip,ljp);
ψoi(lio)=∑−log(P(lo(xj)))
其中 L 表示label, ψoi(lio) 表示object-level pixel-wise的energy,unary项里面scp的pixel-wise energy同理。 η(lio,lip) 表示part和object之间的约束,当一个part和一个object是有意义的组合(牛-头有意义,但是牛-翅膀就是无意义的),这一项等于1,否则这一项等于无穷。
这里的pairwise potential ψopi,j(lio,ljo,lip,ljp) 是通过一个两层全连接网络学习得到的,这个网络的输入是两个scp proposal,输出是四个概率值 P(lio),P(ljo),P(lip),P(ljp) 。
作者按照下面的方法根据输入的scp proposal构建pairwise feature作为网络的输入, fij=[fTi,fTj,κi,j,θj|i] 其中前面两个f分别表示i,j各自的特征,第三项表示两者的两种距离信息,最后一下表示i,j之间的相对角度。模型训练的label就是i,j对应的scp label和object label。作者用multinomial logistic loss进行训练。
模型训练好之后,pairwise potential就可以通过下式进行计算。
ψopi,j(lio,ljo,lip,ljp)=−log(P(lio)P(ljo)P(lip)P(ljp))
做inference的时候,因为其实scp proposal的数目不是很多,因此用loopy belief propogation经过少数几个迭代就可以收敛了。
效果自然是最好的,当然作者在探讨输入图像尺寸的时候也另外说道一点:图像尺度越大,object boundary越好,但是local confusion越厉害。
Abstract
从图像中分割出物体并把他们分解成各自的semantic part是CV中detailed object understanding的基础。作者在这篇论文中提出了一种joint semantic object and part segmentation的方法。通过利用object-level的信息来引导part segmentation,同时part segmentation的结果也可以用来refine object segmentation的结果。作者首先引入了semantic compositional part(SCP)这一概念,将不同种类object各自的part根据他们的相似程度进行分类,允许不同的object之间进行part sharing。然后作者构建了一个two stream的FCN,一个用来做object segmentation,一个用来做SCP segmentation。同时通过后续的model fusion对object segmentation进行refine,进一步构建了一个FCRF,来同时优化object 和part的预测结果。上面这张图表示joint object and part segmentation的结果。
Framework
整体的框架如上图所示,基本的流程在Abstract里面介绍过了。下面具体分析其中的component
1.Semantic compositional part
我们在进行part segmentation的时候,不同的object的某一个部分的part可能长得比较相似,因此在进行part segmentation之前,作者首先将所有object的part进行了grouping,比如cow leg和horse leg就归为leg,但是有的部位,比如说head,cow head和horse head差别还是挺大的,因此这两种part就没有合并在一起。作者构建的scp grammar如下图所示:我觉得作者的意思是,如果part segmentation的时候只是按照 (l_s) 来分类的话,同一个类里面可能差别会比较大,比如马头和牛头,但是完全按照马头、牛头、马尾巴、牛尾巴这种object+part来对所有part进行分类的话,不仅要分的class很多,而且像马尾巴、牛尾巴这种语义很接近,外观很接近的part就很难区分。所以作者自己构建了一个semantic compositional part,把所有object class里面具有区分度的part拿出来。通过scp分类,再结合object class,就完全可以恢复出这个part是哪种动物的哪种part了。就算不结合object class的信息,再进行scp segmentation之后,也可以将horse head和cow head统一映射到head。
2.Deep part and object potential
这一小节主要讨论joint prediction。回到上面的框图,在经过两路FCN之后,我们得到scp segmentation和object segmentation的初步结果,接下来将两个初步分割结果concatenate起来,通过一个后续的fusion,得到refine之后的object potential。这里主要是依靠part segmentation提供更加细致的边界。当然,反之object分割的结果用来refine scp分割结果的效果没有提升,原因可想而知。这里需要注意的一点是,scp segmentation和object segmentation需要不同scale的输入。这个在DPM里面也有体现,在DPM里面,root filter作用在较小scale的图像上进行粗定位,然后part filter作用在更大scale的图像上进行part的定位。就好比我们对一个物体要看的更仔细,需要细看到物体的某个部分,我们通常需要放大图像。
3.Joint FCRF
首先根据scp segmentation的结果得到scp proposal,这里是通过将相同label的pixel进行grouping得到的。然后FCRF就可以formulate成下式minL∑i∈Vψ(liop)+λe∑i,j∈V,i≠jψi,j(liop,ljop)
where
ψ(liop)=η(lio,lip)(ψoi(lio)+λpψpi(lip));
ψi,j(liop,ljop)=η(lio,lip)η(ljo,ljp)ψopi,j(lio,ljo,lip,ljp);
ψoi(lio)=∑−log(P(lo(xj)))
其中 L 表示label, ψoi(lio) 表示object-level pixel-wise的energy,unary项里面scp的pixel-wise energy同理。 η(lio,lip) 表示part和object之间的约束,当一个part和一个object是有意义的组合(牛-头有意义,但是牛-翅膀就是无意义的),这一项等于1,否则这一项等于无穷。
这里的pairwise potential ψopi,j(lio,ljo,lip,ljp) 是通过一个两层全连接网络学习得到的,这个网络的输入是两个scp proposal,输出是四个概率值 P(lio),P(ljo),P(lip),P(ljp) 。
作者按照下面的方法根据输入的scp proposal构建pairwise feature作为网络的输入, fij=[fTi,fTj,κi,j,θj|i] 其中前面两个f分别表示i,j各自的特征,第三项表示两者的两种距离信息,最后一下表示i,j之间的相对角度。模型训练的label就是i,j对应的scp label和object label。作者用multinomial logistic loss进行训练。
模型训练好之后,pairwise potential就可以通过下式进行计算。
ψopi,j(lio,ljo,lip,ljp)=−log(P(lio)P(ljo)P(lip)P(ljp))
做inference的时候,因为其实scp proposal的数目不是很多,因此用loopy belief propogation经过少数几个迭代就可以收敛了。
Experiments
说实在的,做part segmentation的dataset真的不多,下面随意贴一张图效果自然是最好的,当然作者在探讨输入图像尺寸的时候也另外说道一点:图像尺度越大,object boundary越好,但是local confusion越厉害。
相关文章推荐
- 论文阅读笔记:R-CNN:Rich feature hierarchies for accurate object detection and semantic segmentation
- 论文阅读理解 - Semantic Image Segmentation With Deep Convolutional Nets and Fully Connected CRFs
- 论文阅读:Three-dimensional reconstruction of teeth and jaws based on segmentation of CT images using wat
- [论文阅读]HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection
- 论文阅读:Deep Filter Banks for Texture Recognition and Segmentation
- 论文阅读:RCNN[Rich feature hierarchies for accurate object detection and semantic segmentation]
- 论文阅读:Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis
- 读论文笔记:Unsupervised Joint Object Discovery and Segmentation in Internet Images
- 【CV论文阅读】:Rich feature hierarchies for accurate object detection and semantic segmentation
- 论文阅读:ROBUST AND FULLY AUTOMATED SEGMENTATION OF MANDIBLE FROM CT SCANS
- 阅读论文:Suggestive Annotation: A Deep Active Learning Framework for Biomedical Image Segmentation
- 论文阅读:《Natural Image Matting Using Deep CNN》ECCV 2016
- 论文阅读之: Hierarchical Object Detection with Deep Reinforcement Learning
- 论文笔记:Structure Inference Net: Object Detection Using Scene-Level Context and Instance-Level Relationships
- 论文阅读:Deep Neural Networks for Object Detection
- 论文阅读:Touching Tooth Segmentation from CT Image Sequences Using Coupled Level Set Method
- 论文阅读-《Deformable Part-based Fully Convolutional Network for Object Detection》
- 《Joint segmentation and NER using dual decomposition in Chinese discharge summaires》——笔记
- Part 2 – Deep analysis using Androguard tools
- 论文阅读(Zhuoyao Zhong——【aixiv2016】DeepText A Unified Framework for Text Proposal Generation and Text Detection in Natural Images)