行人属性“Contextual Action Recognition with R*CNN”
2017-10-16 15:25
525 查看
静态图像的行人行为识别,论文挖掘行为行为的上下文信息构建识别系统。
源代码: https://github.com/gkioxari/RstarCNN
在静态图像的行为识别中,人体的姿态,行人周围的物体,行人与物体的交互方式和场景都是重要的线索。论文使用RCNN,提取不止一个区域进行预测,即R*CNN。R*CNN有一个包含人体的首要区域,还有一个次要区域包含上下文线索。
如何选择次要区域呢,由多实例学习(MIL)和Latent SVM,给定图像I和人体区域r,行为α的得分为:
![](https://img-blog.csdn.net/20171016144530404?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY3ZfZmFtaWx5X3o=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
次要区域R(r;I)可以是区域r的临近区域的集合,给定每个行为的得分,使用softmax计算区域r中行人的行为为α的概率为:
![](https://img-blog.csdn.net/20171016144837234?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY3ZfZmFtaWx5X3o=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
方法描述
1. 网络结构
对于输入图像I,选择人体的bbox作为首要区域,次要区域来自proposals。对每个行为α,选择包含信息次要区域,将其得分添加到首要区域(公式1),然后使用softmax操作将得分转换到估计的后验概率。网络的结构为:
![](https://img-blog.csdn.net/20171016145556881?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY3ZfZmFtaWx5X3o=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
2. 方法描述
基于Fast RCNN,FRCN的流程:一个自适应最大池化层将最后一个卷积层和一些列ROIs作为输入,输出每个ROI固定尺寸的特征图。之后将ROI-池话特征输入到全链接层作预测。
论文的方法:图像的首要区域预测一个得分,次要区域集中每个区域独立预测一个得分,通过max操作将这些得分综合到首要区域。次要区域R(r;I)如下定义:
R(r;I)=s∈S(I):overlap(s,r)∈[l,u]。
S(I)是proposals,使用Selective Search获得。重合率的上下边界定义了次要区域集合。
3. 训练
最小化预测的log损失:
![](https://img-blog.csdn.net/20171016151625141?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY3ZfZmFtaWx5X3o=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
对每个首要区域,在次要区域集合中随机选择N个区域
实验结果
Pascal VOC 2012行为识别结果对比:
![](https://img-blog.csdn.net/20171016152310548?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY3ZfZmFtaWx5X3o=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
Berkeley属性识别结果对比:
![](https://img-blog.csdn.net/20171016152408916?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY3ZfZmFtaWx5X3o=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
次要区域显示:
源代码: https://github.com/gkioxari/RstarCNN
在静态图像的行为识别中,人体的姿态,行人周围的物体,行人与物体的交互方式和场景都是重要的线索。论文使用RCNN,提取不止一个区域进行预测,即R*CNN。R*CNN有一个包含人体的首要区域,还有一个次要区域包含上下文线索。
如何选择次要区域呢,由多实例学习(MIL)和Latent SVM,给定图像I和人体区域r,行为α的得分为:
次要区域R(r;I)可以是区域r的临近区域的集合,给定每个行为的得分,使用softmax计算区域r中行人的行为为α的概率为:
方法描述
1. 网络结构
对于输入图像I,选择人体的bbox作为首要区域,次要区域来自proposals。对每个行为α,选择包含信息次要区域,将其得分添加到首要区域(公式1),然后使用softmax操作将得分转换到估计的后验概率。网络的结构为:
2. 方法描述
基于Fast RCNN,FRCN的流程:一个自适应最大池化层将最后一个卷积层和一些列ROIs作为输入,输出每个ROI固定尺寸的特征图。之后将ROI-池话特征输入到全链接层作预测。
论文的方法:图像的首要区域预测一个得分,次要区域集中每个区域独立预测一个得分,通过max操作将这些得分综合到首要区域。次要区域R(r;I)如下定义:
R(r;I)=s∈S(I):overlap(s,r)∈[l,u]。
S(I)是proposals,使用Selective Search获得。重合率的上下边界定义了次要区域集合。
3. 训练
最小化预测的log损失:
对每个首要区域,在次要区域集合中随机选择N个区域
实验结果
Pascal VOC 2012行为识别结果对比:
Berkeley属性识别结果对比:
次要区域显示:
相关文章推荐
- Contextual Action Recognition with R*CNN
- 行人属性“Person Attribute Recognition with a Jointly-trained Holistic CNN Model”
- Contextual Action Recognition with R*CNN-论文阅读
- 行为识别阅读笔记(paper+code):Real-time Action Recognition with Enhanced Motion Vector CNNs
- "Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors"阅读小结
- Two-Stream RNN/CNN for Action Recognition in 3D Videos-阅读笔记
- Action Recognition with Fisher Vectors(idt source codes)
- P-CNN: Pose-based CNN Features for Action Recognition (CNN篇)
- Action Recognition-Two Stream CNN论文笔记
- 行人属性“Fully-adaptive Feature Sharing in Multi-Task Networks with Applications in Person Attribute Cl”
- 行人属性“Generative Adversarial Models for People Attribute Recognition in Surveillance”
- Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors
- Two-Stream SR-CNNs for Action Recognition in Videos
- 行人属性“Human Attribute Recognition by Deep Hierarchical Contexts”
- Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors
- 【action recognition】Action Recognition with Improved Trajectorie
- Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors
- Learning hierarchical spatio-temporal features for action recognition with ISA
- Action Recognition with DTF + Fisher Vectors
- 论文笔记——(有源码)Real-time Action Recognition with Enhanced Motion VectorCNNs