您的位置:首页 > 其它

image_caption相关论文以及数据集

2018-01-17 16:04 561 查看
还不了解image caption的新同学,这里有paperweekly的slides:http://slides.com/walkingdead526/deck#/
paperweekly论文推荐:http://blog.csdn.net/c9yv2cf9i06k2a9e/article/details/78664170
1. SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning 
2. Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning 
3. Skeleton Key: Image Captioning by Skeleton-Attribute Decomposition 
4. Deep Reinforcement Learning-based Image Captioning with Embedding Reward数据集:
1.(论文地址)https://arxiv.org/pdf/1611.05594.pdf
1)Flickr8k:它包含8000张照片。6000训练,1000验证,1000测试;
2)Flickr30k:它包含3.1万张图片。我们有29000张train,1000张验证,1000张测试;
3)MSCOCO:在训练集中包含82,783个图像,验证集中40504个图像,测试集中40775个图像,由于MSCOCO测试集的ground truth不可用,验证集进一步被分割,成为模型选择和测试子集的验证子集。
它利用整个82,783个训练集图像进行训练,并从官方验证集选择5000个验证图像和5000个图像进行测试。
我们使用BLEU (B@1,B@2, B@3, B@4), (MT), CIDEr(CD), ROUGE-L (RG)作为评价指标。
对于四个指标,简而言之,他们测量了生成的句子之间n-gram的一致性,这种一致性被n-gram的显著性和罕见性所影响。
同时,四个指标都可以通过MSCOCO标题评估工具直接计算。源代码已经公开可用 
2.(论文地址)https://arxiv.org/pdf/1612.01887.pdf
我们实验了两个数据集:Flickr30k和COCO。
Flickr30k包含从Flickr收集的31,783张图片大多描绘了人类进行各种各样的活动。每个图像与5个标题配对。1000分割来进行验证和测试。
COCO是最大的图像字幕数据集,分别82,783train、40,504valid和40,775test,每个图像都有5个人类注释的标题。
对于COCO评测服务器的在线评估,我们保留了2000张来自开发验证和其他培训的图片。 
3.(论文地址)https://arxiv.org/pdf/1704.06972.pdf
其使用的数据集有:流行的基准MS-COCO、Stock3M
MS-COCO有123287图片,每幅图像都附有5个人类生成的标题,平均长度为10.36个单词。我们使用标准的培训/测试/验证、测试和使用5000张图片,5000张图片进行验证。MS-COCO是一个常用的用于图像字幕任务的基准。但是,数据集存在一些问题:图像有限,偏向于特定的内容类别,图像集相对较小。此外,由AMT员工产生的字幕也不是特别自然。
因此,我们收集了一个新的数据集:Stock3M,包含3,217,654个用户上传的图片,内容种类繁多,每个图片都与一个标题相关,图片上传者在一个股票网站上提供。更自然,数据集是26倍。标题比MS-COCO短得多,平均长度为5.25个单词。
我们使用2000个图像进行验证和8000个图像进行测试。
4.(论文地址)https://arxiv.org/pdf/1704.03899.pdf
我们对广泛使用的MSCOCO进行了评估。为了进行公平的比较,使用82783张图片train,5000张valid,5000张test。
每个图像至少由不同的AMT工作者提供5个标题。我们遵循[17]对标题进行预处理(即构建字典,对标题进行标记)。
 安装caffe很困难。。我决定还是使用pytorch。。
SECOND:四篇paper的概述对比:
1. 效果最好 CNN-RNN CNN中引入attention
2. 对 visual attention 进行的改进  一个视觉哨兵来判断引入图片内容还是使用语言模型
3. 先生成主干句,再生成特征的描述 不再是逐个的生成词
4. 强化学习相结合
还不了解传统的visual attention的同学,先看这篇https://arxiv.org/pdf/1502.03044v2.pdf
可参考博客http://blog.csdn.net/qq_21190081/article/details/53069541
5. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
使用数据集:Flickr8k, Flickr30k and MS COCO
THIRD:下载数据集
https://blog.csdn.net/ccbrid/article/details/79368639 
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐