MacroSoft数据集MS-Celeb-1M
2016-11-22 11:18
901 查看
这两天要训练人脸。那么数据集首选MS-Celeb-1M.
人脸数据集:CAISA-WebFace,VGG-Face, MS-Celeb-1M, MegaFace.
介绍一下MS-Celeb-1M数据集:
MSR IRC是目前世界上规模最大、水平最高的图像识别赛事之一,由MSRA(微软亚洲研究院)图像分析、大数据挖掘研究组组长张磊发起,每年定期举办。参赛队伍被要求基于微软云服务,搭建包括人脸检测、对齐、识别的完整人脸识别系统,而且识别系统必须先通过远程实验评估.
reference paper:MS-Celeb-1M: A Dataset and Benchmark for Large-Scale Face Recognition published at ECCV 2016.
Training dataset, contains 10M images in version 1, is the largest publicly available one in the world
Task : 识别 1M 个明星 from their face images.
这篇文章提出要建立知识库。这是与传统不同的地方。
建立知识库有何好处?
首先,知识库上的每个人实体是unique,并且清楚地定义,而没有歧异,使得可以定义这样的大规模面部识别任务。 第二,每个实体自然具有多个属性(例如性别,出生日期,职业),为数据收集,清洗和多任务学习提供丰富且有价值的信息。
数据集是什么样的?
从1M个名人中,根据他们的受欢迎程度,选择100K个。然后,利用搜索引擎,给100K个人,每人搜大概100张图片。共100K*100=10M个图片。注意,这是lady gaga的图片,我去,化妆太夸张了吧。估计连人都难认出来。
下面这个是jobs。从中学时代到近50岁的时候图片。年龄跨度很大。注意绿色框是中学时代的jobs。红色的框是人工合成的(job本人以及电影中的扮演者共同合成)。也就是一张false。但是假的逼真。
测试集是如何制定的?
测试集包括1000个名人,这1000个名人来自于1M个明星中随机挑选。而且经过微软标注。每个名人大概有20张图片,这些图片都是网上找不到的。因此,你不可能专门训练这1000个人,之后对于测试结果非常好。
如何评估谁的识别系统好?
输入一张人脸,然后输出最多5个置信度,按百分比排名,排名最好的额,定位结果。
假设:输入为:
然后你的输出【89.3%,8.4%,1.1%,0.8%,0.4%】对应【李小龙,王浩,马龙,张继科,刘国梁】。
那么认为你的top1是评价的结果。本来的标注是李小龙。那么你的预测是正确的。
【附】:一份干净的,列表(训练集)。MS-Celeb-1M_clean_list.txt
http://pan.baidu.com/s/1hrD9MgW
================================Q&A=================================
1、如何将MsCelebV1-Faces-Aligned.tsv 转成jpg。
google:How to extract the images and associating class labels from clickture_dog_thumb.tsv file?
2、转换完效果是什么?
注意:可以看到数据有噪声。如果想得到比较好的效果,请用上面干净的列表。
人脸数据集:CAISA-WebFace,VGG-Face, MS-Celeb-1M, MegaFace.
介绍一下MS-Celeb-1M数据集:
MSR IRC是目前世界上规模最大、水平最高的图像识别赛事之一,由MSRA(微软亚洲研究院)图像分析、大数据挖掘研究组组长张磊发起,每年定期举办。参赛队伍被要求基于微软云服务,搭建包括人脸检测、对齐、识别的完整人脸识别系统,而且识别系统必须先通过远程实验评估.
reference paper:MS-Celeb-1M: A Dataset and Benchmark for Large-Scale Face Recognition published at ECCV 2016.
Training dataset, contains 10M images in version 1, is the largest publicly available one in the world
Task : 识别 1M 个明星 from their face images.
这篇文章提出要建立知识库。这是与传统不同的地方。
建立知识库有何好处?
首先,知识库上的每个人实体是unique,并且清楚地定义,而没有歧异,使得可以定义这样的大规模面部识别任务。 第二,每个实体自然具有多个属性(例如性别,出生日期,职业),为数据收集,清洗和多任务学习提供丰富且有价值的信息。
数据集是什么样的?
从1M个名人中,根据他们的受欢迎程度,选择100K个。然后,利用搜索引擎,给100K个人,每人搜大概100张图片。共100K*100=10M个图片。注意,这是lady gaga的图片,我去,化妆太夸张了吧。估计连人都难认出来。
下面这个是jobs。从中学时代到近50岁的时候图片。年龄跨度很大。注意绿色框是中学时代的jobs。红色的框是人工合成的(job本人以及电影中的扮演者共同合成)。也就是一张false。但是假的逼真。
测试集是如何制定的?
测试集包括1000个名人,这1000个名人来自于1M个明星中随机挑选。而且经过微软标注。每个名人大概有20张图片,这些图片都是网上找不到的。因此,你不可能专门训练这1000个人,之后对于测试结果非常好。
如何评估谁的识别系统好?
输入一张人脸,然后输出最多5个置信度,按百分比排名,排名最好的额,定位结果。
假设:输入为:
然后你的输出【89.3%,8.4%,1.1%,0.8%,0.4%】对应【李小龙,王浩,马龙,张继科,刘国梁】。
那么认为你的top1是评价的结果。本来的标注是李小龙。那么你的预测是正确的。
【附】:一份干净的,列表(训练集)。MS-Celeb-1M_clean_list.txt
http://pan.baidu.com/s/1hrD9MgW
================================Q&A=================================
1、如何将MsCelebV1-Faces-Aligned.tsv 转成jpg。
google:How to extract the images and associating class labels from clickture_dog_thumb.tsv file?
2、转换完效果是什么?
注意:可以看到数据有噪声。如果想得到比较好的效果,请用上面干净的列表。
相关文章推荐
- MacroSoft数据集MS-Celeb-1M
- python解析 MS-Celeb-1M 数据库
- 解压下载的ms_celeb_1m数据集
- Python3解析MS-Celeb-1M人脸数据集中的FaceImageCroppedWithAlignment.tsv文件
- 微软人脸数据库ms-celeb-1m清洗Python Coding #1
- 人脸识别数据集之MS-Celeb-1M
- python解析 MS-Celeb-1M 数据库
- 1M 的宽带到底有多快?
- 保护模式中4G、1M和64T的含义
- 【C++小练习】1M至10G文件输出器
- Mysq无法上传大于1M文件的问题, max_allowed_packet
- Oracle CRS stack is already configured and will be running under init(1M)
- 从优秀IT项目经理到千万富翁的距离只有1m——如何当好项目经理
- 100万并发连接服务器笔记之1M并发连接目标达成
- 服务器1M带宽同时能承受多少人在线
- 服务器1M带宽同时能承受多少人在线
- 100万并发连接服务器笔记之Java Netty处理1M连接会怎么样
- android中拷贝assets下的资源文件到SD卡中(可以超过1M)
- sys模块的问题,深浅COPY的应用场景,元祖与购物车程序练习-打印彩色\033[31;1m--------\033[0m
- 100万并发连接服务器笔记之1M并发连接目标达成