您的位置：首页 > 其它

MacroSoft数据集MS-Celeb-1M

2016-11-22 11:18 901 查看

这两天要训练人脸。那么数据集首选MS-Celeb-1M.

人脸数据集：CAISA-WebFace,VGG-Face, MS-Celeb-1M, MegaFace.

介绍一下MS-Celeb-1M数据集：

MSR IRC是目前世界上规模最大、水平最高的图像识别赛事之一，由MSRA（微软亚洲研究院）图像分析、大数据挖掘研究组组长张磊发起，每年定期举办。参赛队伍被要求基于微软云服务，搭建包括人脸检测、对齐、识别的完整人脸识别系统，而且识别系统必须先通过远程实验评估.

reference paper：MS-Celeb-1M: A Dataset and Benchmark for Large-Scale Face Recognition published at ECCV 2016.

Training dataset, contains 10M images in version 1, is the largest publicly available one in the world

Task : 识别 1M 个明星 from their face images.

这篇文章提出要建立知识库。这是与传统不同的地方。

建立知识库有何好处？

首先，知识库上的每个人实体是unique，并且清楚地定义，而没有歧异，使得可以定义这样的大规模面部识别任务。第二，每个实体自然具有多个属性（例如性别，出生日期，职业），为数据收集，清洗和多任务学习提供丰富且有价值的信息。

数据集是什么样的？

从1M个名人中，根据他们的受欢迎程度，选择100K个。然后，利用搜索引擎，给100K个人，每人搜大概100张图片。共100K*100=10M个图片。注意，这是lady gaga的图片，我去，化妆太夸张了吧。估计连人都难认出来。

下面这个是jobs。从中学时代到近50岁的时候图片。年龄跨度很大。注意绿色框是中学时代的jobs。红色的框是人工合成的（job本人以及电影中的扮演者共同合成）。也就是一张false。但是假的逼真。

测试集是如何制定的？

测试集包括1000个名人，这1000个名人来自于1M个明星中随机挑选。而且经过微软标注。每个名人大概有20张图片，这些图片都是网上找不到的。因此，你不可能专门训练这1000个人，之后对于测试结果非常好。

如何评估谁的识别系统好?

输入一张人脸，然后输出最多5个置信度，按百分比排名，排名最好的额，定位结果。

假设：输入为：

然后你的输出【89.3%，8.4%，1.1%，0.8%，0.4%】对应【李小龙，王浩，马龙，张继科，刘国梁】。

那么认为你的top1是评价的结果。本来的标注是李小龙。那么你的预测是正确的。

【附】：一份干净的，列表（训练集）。MS-Celeb-1M_clean_list.txt

http://pan.baidu.com/s/1hrD9MgW

================================Q&A=================================

1、如何将MsCelebV1-Faces-Aligned.tsv 转成jpg。

google：How to extract the images and associating class labels from clickture_dog_thumb.tsv file?

2、转换完效果是什么？

注意：可以看到数据有噪声。如果想得到比较好的效果，请用上面干净的列表。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航