您的位置：首页 > 其它

Action Recognition－Two Stream CNN论文笔记

2018-03-14 20:58 369 查看

本文主要针对论文：《Two-Stream Convolutional Networks for Action Recognition in Videos》记录自己的理解。

考虑到视频由空间和时间两个部分组成，空间部分更多表征Appearence信息，比如目标、场景等；而时间部分更多表征Motion信息，包括摄像机的运动或者目标物体的运动信息。所以该网络结构的设计考虑两个部分。

Two－stream网络结构如下图所示：

(1) Spatial stream ConvNet 空间维度，用来处理RGB视频图像。

(2) Temporal stream ConvNet 时间维度，用来处理密集光流图像。

两路CNN分别对输入的视频(input video)进行分类，最后直接对两个网络的class score进行fusion(融合方法包括直接平均和在堆叠的softmax上直接训练一个SVM)

如上图所示，我们可以看到两路CNN结果基本相同，除去在temporal ConvNet 去掉第二个normalization(LRN局部响应归一化) 层，减少内存的损耗。

文章中的一些trick:

1、动作识别的数据集UCF101和HMDB51包含的视频太少，将会导致过拟合问题，因此文中考虑了以下几种策略：(1) 直接在HMDB51数据集上进行训练；(2) 先在UCF101数据集上做预训练，用训练好的模型做finetune；(3) 在HMDB51上增加了从UCF101数据集中挑选的78个classes，用重新构建的数据集来训练；(4) 在HMDB51和UCF101两个数据集上做multi-task learning；最终的做multi-task learning 的效果是最好的，如下图所示：

2、

个人感觉论文中比较核心的内容大概就是上面这些。关于用光流做为temporal网络的输入，这部分的内容可以详细看论文，此外，还有multi-task learning部分的trick。

总结：动作识别方向目前基于two-stream的工作还是很多的，是深度学习在该方向应用的一大主流方法。

实验结果：

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航