MacroSoft数据集MS-Celeb-1M
2017-04-13 20:35
1966 查看
这两天要训练人脸。那么数据集首选MS-Celeb-1M.
人脸数据集:CAISA-WebFace,VGG-Face, MS-Celeb-1M, MegaFace.
介绍一下MS-Celeb-1M数据集:
MSR IRC是目前世界上规模最大、水平最高的图像识别赛事之一,由MSRA(微软亚洲研究院)图像分析、大数据挖掘研究组组长张磊发起,每年定期举办。参赛队伍被要求基于微软云服务,搭建包括人脸检测、对齐、识别的完整人脸识别系统,而且识别系统必须先通过远程实验评估.
reference paper:MS-Celeb-1M: A Dataset and Benchmark for Large-Scale Face Recognition published at ECCV 2016.
Training dataset, contains 10M images in version 1, is the largest publicly available one in the world
Task : 识别 1M 个明星 from their face images.
这篇文章提出要建立知识库。这是与传统不同的地方。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202006/05/2db62072cadc957556657043aa14b289)
建立知识库有何好处?
首先,知识库上的每个人实体是unique,并且清楚地定义,而没有歧异,使得可以定义这样的大规模面部识别任务。 第二,每个实体自然具有多个属性(例如性别,出生日期,职业),为数据收集,清洗和多任务学习提供丰富且有价值的信息。
数据集是什么样的?
从1M个名人中,根据他们的受欢迎程度,选择100K个。然后,利用搜索引擎,给100K个人,每人搜大概100张图片。共100K*100=10M个图片。注意,这是lady
gaga的图片,我去,化妆太夸张了吧。估计连人都难认出来。
![](https://www.microsoft.com/en-us/research/wp-content/uploads/2014/03/IRC_ladygaga.jpg)
下面这个是jobs。从中学时代到近50岁的时候图片。年龄跨度很大。注意绿色框是中学时代的jobs。红色的框是人工合成的(job本人以及电影中的扮演者共同合成)。也就是一张false。但是假的逼真。
![](https://www.microsoft.com/en-us/research/wp-content/uploads/2014/03/IRC_ms-celeb-1m-sample2.jpg)
测试集是如何制定的?
测试集包括1000个名人,这1000个名人来自于1M个明星中随机挑选。而且经过微软标注。每个名人大概有20张图片,这些图片都是网上找不到的。因此,你不可能专门训练这1000个人,之后对于测试结果非常好。
如何评估谁的识别系统好?
输入一张人脸,然后输出最多5个置信度,按百分比排名,排名最好的额,定位结果。
假设:输入为:
![](https://oscdn.geek-share.com/Uploads/Images/Content/202006/05/c0359fb8a6f05654629167ffe2e56a73)
然后你的输出【89.3%,8.4%,1.1%,0.8%,0.4%】对应【李小龙,王浩,马龙,张继科,刘国梁】。
那么认为你的top1是评价的结果。本来的标注是李小龙。那么你的预测是正确的。
【附】:一份干净的,列表(训练集)。MS-Celeb-1M_clean_list.txt
http://pan.baidu.com/s/1hrD9MgW
================================Q&A=================================
1、如何将MsCelebV1-Faces-Aligned.tsv 转成jpg。
google:How to extract the images and associating class labels from clickture_dog_thumb.tsv file?
![](https://oscdn.geek-share.com/Uploads/Images/Content/202006/05/3f03580fc4260ec89182e210c00e8e2b)
2、转换完效果是什么?
![](https://oscdn.geek-share.com/Uploads/Images/Content/202006/05/917081b899f647b45852aab1c4e65267)
注意:可以看到数据有噪声。如果想得到比较好的效果,请用上面干净的列表。
人脸数据集:CAISA-WebFace,VGG-Face, MS-Celeb-1M, MegaFace.
介绍一下MS-Celeb-1M数据集:
MSR IRC是目前世界上规模最大、水平最高的图像识别赛事之一,由MSRA(微软亚洲研究院)图像分析、大数据挖掘研究组组长张磊发起,每年定期举办。参赛队伍被要求基于微软云服务,搭建包括人脸检测、对齐、识别的完整人脸识别系统,而且识别系统必须先通过远程实验评估.
reference paper:MS-Celeb-1M: A Dataset and Benchmark for Large-Scale Face Recognition published at ECCV 2016.
Training dataset, contains 10M images in version 1, is the largest publicly available one in the world
Task : 识别 1M 个明星 from their face images.
这篇文章提出要建立知识库。这是与传统不同的地方。
建立知识库有何好处?
首先,知识库上的每个人实体是unique,并且清楚地定义,而没有歧异,使得可以定义这样的大规模面部识别任务。 第二,每个实体自然具有多个属性(例如性别,出生日期,职业),为数据收集,清洗和多任务学习提供丰富且有价值的信息。
数据集是什么样的?
从1M个名人中,根据他们的受欢迎程度,选择100K个。然后,利用搜索引擎,给100K个人,每人搜大概100张图片。共100K*100=10M个图片。注意,这是lady
gaga的图片,我去,化妆太夸张了吧。估计连人都难认出来。
![](https://www.microsoft.com/en-us/research/wp-content/uploads/2014/03/IRC_ladygaga.jpg)
下面这个是jobs。从中学时代到近50岁的时候图片。年龄跨度很大。注意绿色框是中学时代的jobs。红色的框是人工合成的(job本人以及电影中的扮演者共同合成)。也就是一张false。但是假的逼真。
![](https://www.microsoft.com/en-us/research/wp-content/uploads/2014/03/IRC_ms-celeb-1m-sample2.jpg)
测试集是如何制定的?
测试集包括1000个名人,这1000个名人来自于1M个明星中随机挑选。而且经过微软标注。每个名人大概有20张图片,这些图片都是网上找不到的。因此,你不可能专门训练这1000个人,之后对于测试结果非常好。
如何评估谁的识别系统好?
输入一张人脸,然后输出最多5个置信度,按百分比排名,排名最好的额,定位结果。
假设:输入为:
然后你的输出【89.3%,8.4%,1.1%,0.8%,0.4%】对应【李小龙,王浩,马龙,张继科,刘国梁】。
那么认为你的top1是评价的结果。本来的标注是李小龙。那么你的预测是正确的。
【附】:一份干净的,列表(训练集)。MS-Celeb-1M_clean_list.txt
http://pan.baidu.com/s/1hrD9MgW
================================Q&A=================================
1、如何将MsCelebV1-Faces-Aligned.tsv 转成jpg。
google:How to extract the images and associating class labels from clickture_dog_thumb.tsv file?
2、转换完效果是什么?
注意:可以看到数据有噪声。如果想得到比较好的效果,请用上面干净的列表。
相关文章推荐
- MacroSoft数据集MS-Celeb-1M
- 人脸识别数据集之MS-Celeb-1M
- python解析 MS-Celeb-1M 数据库
- python解析 MS-Celeb-1M 数据库
- 解压下载的ms_celeb_1m数据集
- Python3解析MS-Celeb-1M人脸数据集中的FaceImageCroppedWithAlignment.tsv文件
- 微软人脸数据库ms-celeb-1m清洗Python Coding #1
- android raw读取超过1M文件…
- 安装包立减1M--微信Android资源混淆打包工具
- 100万并发连接服务器笔记之Java Netty处理1M连接会怎么样
- 微信小程序 限制1M的瘦身技巧与方法详解
- 图片转成BASE64字符串,然后以JSON的方式传递。当图片大小在1M左右的时候没问题,可以上传。但是当文件大小>1.5M的是否发现图片转BASE64不成功,居然得到的值是NULL
- 从优秀IT项目经理到千万富翁的距离只有1m——如何当好项目经理
- Use "dd" to create different size files 1B,1K,10K,100K,1M,10M,100M,1G etc
- 关于“实模式下能否访问1M以上内存”
- 最新发现:C语言中局部变量数组最大只支持1M,而全局变量数组没有这个限制!
- 处理Assert目录读取超过1M文件
- 关于1Byte 1K 1M 1G(换算)
- 五 100万并发连接服务器笔记之Java Netty处理1M连接会怎么样
- Parallel-ALS推荐算法(factorize-movielens-1M)(转载)