您的位置:首页 > 其它

Action Recognition-Two Stream CNN论文笔记

2018-03-14 20:58 369 查看
本文主要针对论文:《Two-Stream Convolutional Networks for Action Recognition in Videos》记录自己的理解。

考虑到视频由空间和时间两个部分组成,空间部分更多表征Appearence信息,比如目标、场景等;而时间部分更多表征Motion信息,包括摄像机的运动或者目标物体的运动信息。所以该网络结构的设计考虑两个部分。

Two-stream网络结构如下图所示:

(1) Spatial stream ConvNet 空间维度,用来处理RGB视频图像。

(2) Temporal stream ConvNet 时间维度,用来处理密集光流图像。

两路CNN分别对输入的视频(input video)进行分类,最后直接对两个网络的class score进行fusion(融合方法包括直接平均和在堆叠的softmax上直接训练一个SVM)



如上图所示,我们可以看到两路CNN结果基本相同,除去在temporal ConvNet 去掉第二个normalization(LRN局部响应归一化) 层,减少内存的损耗。

文章中的一些trick:

1、动作识别的数据集UCF101和HMDB51包含的视频太少,将会导致过拟合问题,因此文中考虑了以下几种策略:(1) 直接在HMDB51数据集上进行训练;(2) 先在UCF101数据集上做预训练,用训练好的模型做finetune;(3) 在HMDB51上增加了从UCF101数据集中挑选的78个classes,用重新构建的数据集来训练;(4) 在HMDB51和UCF101两个数据集上做multi-task learning;最终的做multi-task learning 的效果是最好的,如下图所示:



2、

个人感觉论文中比较核心的内容大概就是上面这些。关于用光流做为temporal网络的输入,这部分的内容可以详细看论文,此外,还有multi-task learning部分的trick。

总结:动作识别方向目前基于two-stream的工作还是很多的,是深度学习在该方向应用的一大主流方法。

实验结果:

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐