您的位置:首页 > 其它

【论文笔记】Video2Vec: Learning Semantic Spatial-Temporal Embeddings for Video Representation

2017-03-13 16:21 1261 查看

摘要翻译

这篇论文我们提出了一种视频片段的语义和时空信息嵌入(embedding)方法。视频作为语义连续的时序列帧,我们借助视频的这个特点来表达视频的高层特征(备注,视频和图像的高层特征通常就是指understanding层面)。我们的网络提取CNN的特征并且训练了两个学习视频的文本信息地独立GRU编码器,此外我们还把视频的彩色图像序列和光流序列嵌入到相同尺寸的表征向量(representation)。之后,训练一个多层感知机(MLP)把图像序列的表征向量和word2vec语义文本向量嵌入到一起。我们通过几个任务表面我们的方法可以很好的表达视频的时空和语义信息,这些任务包括动作识别、zero-shot分类和”word-to-video”的检索任务,以上任务都是在UCF-101视频数据集上实现的。

网络框架



一图知全文系列,简单概括下这个网络:

视频预处理:将一个视频片段预处理为原始的视频帧序列和光流帧序列,然后作为网络的两个输入端口

提取图像空间特征:利用CNN网络分别提取两个视频流的图像空间特征,根据论文中提到的,使用的CNN是预训练的VGG-f网络

提取视频时序特征:将上一步提取的两个特征张量分别放到两个GRU网络中去提取时序特征,得到两个特征向量

用MLP进行embedding训练:将上一步提取的两个特征向量合并作为MLP的输入,然后训练embedding。

特别说明最后MLP输出的loss函数由两部分组成,分别是语义损失(ESE)和分类损失(ESM)。ESM比较好理解,因为用的是UCF101动作识别数据集,所以每个样本都有一个分类标签,这部分就是正常的softmax激活函数接着的分类损失。ESE用的也是训练词向量非常常用的损失函数Hinge Loss(max margin),用的语料库是wekidata,用的训练模型也是经典的skip-gram

结果展示



宏观上来看,这个网络最后得到的视频表征向量拥有一定的语义embedding性质,文章中提到,如果不加入语义embedding这个环节,用CNN+GRU这种搭配方式,最后的结果就是篮球扣篮和打篮球的视频在表征空间里的距离会特别远,但是这种方法得到的视频表征向量在表征空间会呈现语义相关的聚类特性。



具体到分类任务和zero-shot分类任务:分类任务上表现为还不错,87.5的分类准确度;zero-shot是指用101类视频中的51类作为训练集,另外50类作为测试集,也就是说测试集的这些类别是完全没有经过训练的,所以分类难度大大提升,最后用预测向量最接近的那个label作为预测结果,最后结果显示为state of art。



在语义视频检索任务上,作者输入“Acrobatics”(杂技)这个单词,最后检索出来的是“Juggling Balls”(杂耍球)和“Soccer Juggling”(颠球)的视频,大致效果还不错。

总结评价

本博客只是大致介绍这篇论文的主要思想,如果具体review这篇文章的可以去阅读原文,另外如果要看懂需要拥有以下预备知识:

CNN网络

GRU网络

word2vec模型

zero-shot learning

我个人对这篇文章的看法是这个网络综合了现在比较多的深度学习流行元素,在努力解决一个空白巨大的高难度任务,也是一个非常值得研究解决的任务。当然方法上属于把各种积木搭起来的“自然而然”形成的类型,并没有在理论上提供太多创新,结果也没有特别大的飞跃,但是也有蛮多值得我们学习的地方。这篇论文主要工作来自ASU大学计算机学院的一篇硕士学位论文。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
相关文章推荐