您的位置:首页 > 其它

Contextual Action Recognition with R*CNN

2016-12-10 15:33 309 查看
Gkioxari G(UC Berkeley), Girshick R(Microsoft Research), Malik J(UC Berkeley). Contextual Action Recognition with R*CNN[J]. 2015, 40(1):1080-1088.

摘要:一张图片中会有多个线索来显示图片中人物正在做的动作,例如,一个慢跑运动员的姿势是慢跑所特有的动作。但是,街道,小径以及其他的慢跑运动员也可以作为判断的依据信息。本文中,因为动作都伴随着上下文线索,我们通过简单的观察来建立一个强大的动作识别系统。我们采用RCNN使用多于一个的区域进行分类,同时保持对动作定位的能力。我们把该系统称作R*CNN。具体的动作模型和特征映射共同训练,使得具体动作的表示形成。在PASAL
VOC Action dataset 上,R ∗ CNN 的mAP达到90.2% ,在该领域以非常明显的差距领先与所有其它方法。最后,我们证明了R*CNN不仅仅适用于动作识别。特别是,R*CNN也可以用于细粒度任务,比如属性分类。

Introduction

 
考虑图1(a)。 我们如何知道红色框突出显示的人在电脑上工作?这可能是计算机可以看到图像,是否有可能是一个人的特殊姿势在思考问题,还是他身处在办公环境中?同样,我们如何知道图1(b)中的人正在跑步?是她的胳膊和腿的运行具体姿势或现场和附近的其他人也传达的行为?

  对于来自静止图像的动作识别的任务,所讨论的人的姿势,其周围的特殊物体以及他们与这些对象和场景交互的方式也是是重要的线索信息。在本文中,我们采用所有能够得到的线索来实现动作的识别。

    我们采用基于区域的卷积网络方法(RCNN)[11]并使用多个区域进行预测。我们称该方法为R * CNN.在R * CNN方法中,我们有一个主区域包含目标人物和一个自动发现上下文线索的次要区域。

     我们如何选择次要区域? 换句话说,我们如何确定哪个区域包含有关相应动作的信息?受多重实例学习(MIL)[31,21]和Latent SVM [9]的启发,假设I是一张图片,r是I中包含目标人物的区域,我们将动作α的分数定义为

其中φ(r; I)是从图片I中r区域提取的特征向量,和是α的主要和次要的权重,R(r;
I)定义为次要区域可选项的集合。例如,R(r; I)可以是r附近的一组区域,或者甚至是I中的整个区域集合。给定每个动作的分数,我们使用softmax计算r中的人执行动作α的概率:

Figure 2. Schematic overview of our approach. Given image I, we select the primary region to be the bounding box containing the person

(red box) while region proposals define the set of candidate secondary regions (green boxes). For each action α, the most informative

secondary region is selected (max operation) and its score is added to the primary. The softmax operation transforms scores into probabilities

and forms the final prediction

          等式(1)中特征表示φ(·)和权重向量(和)通过所有动作α
∈ A用一个cnn模型使用SGD随机梯度下降方法训练共同得到。我们建立在fast rcnn的基础上,这样可以更有效的处理一张图片上的多个区域。图2显示了我们网络的架构.

         我们使用PASCAL VOC Actions和the MPII Human Pose datase两个公用数据集来测量R*CNN在动作识别上的表现,在PASCAL VOC Actions数据集上我们得到的mAP是90.2%,比之前最好的方法提高了6个百分点。我们假象选择次要的区域并且显示次要的模型可以学习到预期的辅助线索。在the larger MPII dataset数据集上我们得到的mAP是26.7%,与之前的最好结果5.5%相比,该方法表现是最好的。

           另外对于动作识别的任务,我们证明R*CNN能够得到很好的结果,我们在the Berkeley At-

tributes of People dataset数据集上试验了动作属性的识别并取得了和好的结果,图8的可视化展示了次要区域捕获的特征有一定作用。

2. Related Work

        action recognition: 在静态图像中的动作识别领域中有各种各样的工作.大多数方法使用整体线索,通过提取人边界框上的特征,并将它们与来自整个图像和对象模型的上下文线索组合。Maji  [20]训练特定动作poselet,并且对于每个实例创建使用SVM分类的poselet激活矢量。

他们以两种方式捕获上下文线索:他们使用预训练的模型检测对象例如自行车,摩托车,马和电视监视器类别,并利用图像中其他人的动作获取信息。Hoai [16] 使用身体部分检测器并将它们对应于相似实例的同一位置,由此对准它们的特征描述符。他们将对象检测得分的部分特征与和训练非线性SVM相结合。Khosla [33] 参考地面真实区域在任意位置和尺度处密集地采样图像区域。他们训练随机森林分类器来区分不同的行动。Perst
 [26]只使用动作标签学习人类对象交互。 他们通过在动作的图像上找到重复的模式来定位动作对象,然后捕获它们的相对空间关系。上述方法基于手工工程特征,如HOG [5]和SIFT [19]。

        CNNs实现了手写数字分类的最先进的性能[18],并且最近被应用于计算机视觉中的各种任务,如图像分类[17,28]和对象检测[11],具有令人印象深刻的结果。对于动作识别的任务,Oquab[23] 使用地面实况框上的CNN进行动作分类的任务,但与以前的方法相比,获得的效比较小的提升。Hoai [15]使用放置在图像和地面真实框中的区域的几何分布,并使用来自在ImageNet-1k数据集上训练的网络的fc7特征对其分数进行加权以做出单一预测。Gkioxari
et al。 [12]在pool5层上以滑动窗口方式训练身部件探测器(头部,躯干,腿部)并且将它们与地面bounding box结合以共同训练CNN。

        我们的工作与上述方法在以下方面不同。采用自底向上的区域建议框作为次要区域的可选项,替代锚定特定长宽比的区域和在图像中特定的位置,并且不依赖于通过背景约束框提供的参考,区域的建议框被证明是有效的,目标的候选项允许检测不论目标的闭塞和视点。一起得到特征图和得分模型的权重,用于显示动作的专用表示。这些表示可能涉及人
- 对象关系,人 - 场景关系和人-人之间的关系。这种方法与重新定义要捕获的关系或使用手工工程特征或针对不同任务训练的网络的特征的工作相反。我们允许分类器为当前的任务选择最丰富的次要区域。如我们在部分4中所示,所选择的次要区域是实例特定的,并且可以是对象(例如,蜂窝电话),场景的一部分(例如,附近的自行车),整个场景或人体的一部分。

        scene and context:场景在视觉和感知中的作用已经研究了很长时间。Biederman等人 [3]确定对象与其设置之间的五类关系(存在,位置,大小,支持和插入),并进行实验以测量当这些关系被违反时人类识别对象的程度。他们发现识别对象的能力更弱,并且随着惩罚项加重,它变得更糟。最近,Olivia和Torralba [22]研究对象与他们的场景的上下文关联,并链接各种形式的上下文线索与计算机视觉。

        Multiple-Instance Learning:多实例学习(MIL)为训练模型提供了一个框架当训练时间非监督是不可用。而不是准确的注释,数据形成袋,带正或负标签[21]。有很多关于计算机视觉任务的MAIL的工作。对于对象检测,Viola等人 当在训练时间没有准确地提供地面实况对象面位置时,使用MIL和提升来获得面部检测器。最近,Song et al。 [29]使用MIL来定位带有二进制图像级标签的对象(图像中是否存在对象)。对于图像分类的任务,Oquab
[24]修改CNN架构[17],其将图像划分为相等大小的区域,并通过最终最大池层组合其分数以对整个图像进行分类。Fang [8]遵循类似的技术来定位用于图像字幕生成的概念。

        在这项工作中,我们将每个训练样本的次级区域视为未知潜在变量。在训练期间,每次对样本进行采样时,CNN的正向传递通过max操作推断该潜在变量的当前值。这类似于DPM中的潜在零件位置和组件模型[9]。然而,这里我们使用在线算法(SGD)执行端到端优化,而不是优化潜在SVM。

3.Implementation

    在图2中展示了我们的网络结构,给一张图片I,我们选择主要区域作为包含人的边界框,自下而上的建议框作为二级区域的候选集,每个动作的α,通过最大化操作选择信息量最大的区域并将它的得分加入等式一中的primary,softmax操作将得分转换成等式二中估计的后验概率,其被用于预测动作的标签。

3.1R*CNN

本文的工作建立在fast rcnn的基础上,在FRCNN中,输入的图片不被采样直接通过卷基层。一个相应的最大池化层将最有一层卷基层的输出和ROIS作为自己的输入。为每一个特定的区域输出固定尺度的特征图,感兴趣区域的联合池化特征连续的通过全连接层用作最后的预测。该方法的执行是非常有效的,因为密集的卷积计算是在图像级进行的,并且被随后进行的ROI操作重复使用。测试时的操作类似与SPPnet测试操作。然而,训练的算法不同并且所有的层都可以进行微调,而不仅仅是最后的ROI池化层之前。这种属性对于深度网络的多分类的准确率非常有用。

在我们的应用中扩展了FRCNN的传输途径。一个图片I的每一个主要区域为每一个action α ∈ A预测一个得分。同时,二级区域可选项集合中的每一个region R(r; I)独立做出预测值,对于每一个主要区域,合并候选项区域通过max操作得分超过该区域得分的候选区域。

定义二级区域R(r; I)可选项集合为:

S(I)是图片I中的region集合,本文中采用selective search。重叠的上下限被定义为建议框之间的交点,定义region集合其中region被视为每一个主要区域的二级区域。

3.2 Learning

使用反向传播随机梯度下降算法训练R*CNN。采用vgg16

在训练期间,最小化预测log的损失。P (α | I, r)是图片I上区域r中人物动作在等式二中计算出来的概率,然后可以计算一批训练样本的loss为:

其中是图片上样例区域的真正label。

4. Result

在数据集PASCAL VOC Actions and the MPII Human Pose dataset上证明了R*CNN在静态图片动作识别中的有效性。

4.2.1 R*CNN VS RCNN

Table 1. AP on the PASCAL VOC Action 2012 val set. RCNN is the baseline approach, with the ground-truth region being the primary

region. Random-RCNN is a network trained with primary the ground-truth region and secondary a random region. Scene-RCNN is a

network trained with primary the ground-truth region and secondary the whole image. R ∗ CNN (l, u) is our system where l, u define the

lower and upper bounds of the allowed overlap of the secondary region with the ground truth. R ∗ CNN (l, u, n S ) is a variant in which n S

secondary regions are used, instead of one.

4.2.2 Comparison with published results

Table 2. AP on the PASCAL VOC Action 2012 test set. Oquab et al. [23] train an 8-layer network on ground-truth boxes. Gkioxari et

al. [12] use part detectors for head, torso, legs and train a CNN. Hoai [15] uses an 8-layer network to extract fc7 features from regions at

multiple locations and scales. Simonyan and Zisserman [28] combine a 16-layer and a 19-layer network and train SVMs on fc7 features

from the image and the ground-truth box. R ∗ CNN (with (l = 0.2, u = 0.75)) outperforms all other approaches by a significant margin.

4.3Attribute Classification

Table 3. AP on the Berkeley Attributes of People test set. PANDA [34] uses CNNs trained for each poselet type. Gkioxari et al. [12] detect

parts and train a CNN jointly on the whole and the parts. RCNN is our baseline approach based on FRCN. Both RCNN and R ∗ CNN do

not use any additional part annotations at training time. [12] and R ∗ CNN perform equally well, with the upside that R ∗ CNN does not need

use keypoint annotations during training.
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: