Action Recognition-Two Stream CNN论文笔记
2018-03-14 20:58
369 查看
本文主要针对论文:《Two-Stream Convolutional Networks for Action Recognition in Videos》记录自己的理解。
考虑到视频由空间和时间两个部分组成,空间部分更多表征Appearence信息,比如目标、场景等;而时间部分更多表征Motion信息,包括摄像机的运动或者目标物体的运动信息。所以该网络结构的设计考虑两个部分。
Two-stream网络结构如下图所示:
(1) Spatial stream ConvNet 空间维度,用来处理RGB视频图像。
(2) Temporal stream ConvNet 时间维度,用来处理密集光流图像。
两路CNN分别对输入的视频(input video)进行分类,最后直接对两个网络的class score进行fusion(融合方法包括直接平均和在堆叠的softmax上直接训练一个SVM)
![](https://img-blog.csdn.net/20180314193254768?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvd2VpeGluXzM3OTcwNjk0/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
如上图所示,我们可以看到两路CNN结果基本相同,除去在temporal ConvNet 去掉第二个normalization(LRN局部响应归一化) 层,减少内存的损耗。
文章中的一些trick:
1、动作识别的数据集UCF101和HMDB51包含的视频太少,将会导致过拟合问题,因此文中考虑了以下几种策略:(1) 直接在HMDB51数据集上进行训练;(2) 先在UCF101数据集上做预训练,用训练好的模型做finetune;(3) 在HMDB51上增加了从UCF101数据集中挑选的78个classes,用重新构建的数据集来训练;(4) 在HMDB51和UCF101两个数据集上做multi-task learning;最终的做multi-task learning 的效果是最好的,如下图所示:
![](https://img-blog.csdn.net/20180314204232337?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvd2VpeGluXzM3OTcwNjk0/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
2、
个人感觉论文中比较核心的内容大概就是上面这些。关于用光流做为temporal网络的输入,这部分的内容可以详细看论文,此外,还有multi-task learning部分的trick。
总结:动作识别方向目前基于two-stream的工作还是很多的,是深度学习在该方向应用的一大主流方法。
实验结果:
考虑到视频由空间和时间两个部分组成,空间部分更多表征Appearence信息,比如目标、场景等;而时间部分更多表征Motion信息,包括摄像机的运动或者目标物体的运动信息。所以该网络结构的设计考虑两个部分。
Two-stream网络结构如下图所示:
(1) Spatial stream ConvNet 空间维度,用来处理RGB视频图像。
(2) Temporal stream ConvNet 时间维度,用来处理密集光流图像。
两路CNN分别对输入的视频(input video)进行分类,最后直接对两个网络的class score进行fusion(融合方法包括直接平均和在堆叠的softmax上直接训练一个SVM)
如上图所示,我们可以看到两路CNN结果基本相同,除去在temporal ConvNet 去掉第二个normalization(LRN局部响应归一化) 层,减少内存的损耗。
文章中的一些trick:
1、动作识别的数据集UCF101和HMDB51包含的视频太少,将会导致过拟合问题,因此文中考虑了以下几种策略:(1) 直接在HMDB51数据集上进行训练;(2) 先在UCF101数据集上做预训练,用训练好的模型做finetune;(3) 在HMDB51上增加了从UCF101数据集中挑选的78个classes,用重新构建的数据集来训练;(4) 在HMDB51和UCF101两个数据集上做multi-task learning;最终的做multi-task learning 的效果是最好的,如下图所示:
2、
个人感觉论文中比较核心的内容大概就是上面这些。关于用光流做为temporal网络的输入,这部分的内容可以详细看论文,此外,还有multi-task learning部分的trick。
总结:动作识别方向目前基于two-stream的工作还是很多的,是深度学习在该方向应用的一大主流方法。
实验结果:
相关文章推荐
- [论文阅读笔记]Two-Stream Convolutional Networks for Action Recognition in Videos
- 论文笔记-Two-Stream Convolutional Networks for Action Recognition in Videos
- Two-Stream RNN/CNN for Action Recognition in 3D Videos-阅读笔记
- [深度学习论文笔记][Video Classification] Two-Stream Convolutional Networks for Action Recognition in Videos
- 【CV论文阅读】Two stream convolutional Networks for action recognition in Vedios
- 【论文学习】Two-Stream Convolutional Networks for Action Recognition in Videos
- [行为识别] Two –Stream CNN for Action Recognition in Videos
- 论文笔记之: Bilinear CNN Models for Fine-grained Visual Recognition
- 论文笔记之 SST: Single-Stream Temporal Action Proposals
- Two-Stream Convolutional Networks for Action Recognition in Video
- 论文阅读笔记 | (ICCV 2017) Multi-Attention CNN for Fine-Grained Image Recognition:MA-CNN
- Contextual Action Recognition with R*CNN-论文阅读
- 论文笔记:A Critical Review of Action Recognition Benchmarks
- 【ML】Two-Stream Convolutional Networks for Action Recognition in Videos
- 《3D Convolutional Neural Networks for Human Action Recognition》论文阅读笔记
- 论文笔记:Evaluation of local spatio-temporal features for action recognition
- READING NOTE: Two-Stream Convolutional Networks for Action Recognition in Videos
- Two-Stream Convolutional Networks for Action Recognition in Videos
- 论文笔记——(有源码)Real-time Action Recognition with Enhanced Motion VectorCNNs
- Two-Stream Convolutional Networks for Action Recognition in Video