论文理解:DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations
2017-10-12 11:26
513 查看
本文为香港中文大学与熵汤联合出品的一篇CVPR。获取链接:http://www.ee.cuhk.edu.hk/~xgwang/papers/liuLQWTcvpr16.pdf
即将入坑的和已经入坑的小伙伴可以添加QQ群交流:
群名称:AI服装检索分类
群 号:474700336
主要包含两个工作:
1. 创建了一个服装数据集DeepFashion,包含80万张服装图像,有类别,属性,特征点以及服饰框的标注。详情可以参考我的另一篇博客DeepFashion:
服装公开数据集概述。
2. 提出一个深度学习模型FashionNet,结合服饰属性和特征点进行服饰的特征提取,可以较好的应对服饰的变形遮挡等问题。
文中提出结合特征点能够有助于服装识别,同时,大量的属性信息能够更好的划分服饰特征空间,从而能够有助于服饰的识别和检索。示意图如下:
![](https://oscdn.geek-share.com/Uploads/Images/Content/201710/e2fbe5908a88c93619429ff9cf995844)
FashionNet的网络结构类似VGG-16,只是将VGG16的最后一个卷积层进行了修改,改成能够处理服装landmarks,属性和类别的网络。最后一层的网络示意图如下。
![](https://oscdn.geek-share.com/Uploads/Images/Content/201710/6e2db9fd365ae4b883c663a72b2ce98e)
从上图可以看出,VGG16的最后一个卷积层由作者设计的三个分支代替。
最右侧蓝色分支进行特征点可见性预测以及位置回归。
中间绿色的分支,有两个输入:VGG16的conv4 + 右侧蓝色特征点的分支输出结果,根据特征点的位置进行局部feature pooling。这一步有助于应对服饰变形和遮挡问题。
左边橘色分支,进行全局的特征处理。
绿色和橘色分支运算的结果经过fc7_fusion进行融合,预测服装的类别,属性和pairs
反向传播过程定义了4中损失函数:
(1)回归损失,用于特征点位置估计损失计算。
![](https://oscdn.geek-share.com/Uploads/Images/Content/201710/aa6694ac877446c0d8e8ef5ded078779)
(2)softmax损失,用于特征点可见性以及服饰类别估计损失计算。
(3)cross-entropy损失,用于属性预测损失计算。
![](https://oscdn.geek-share.com/Uploads/Images/Content/201710/99d8f65ac9fb3de8eccc8cc7cb55ad7f)
(4)triple损失,用于服饰pairs预测损失计算。
![](https://oscdn.geek-share.com/Uploads/Images/Content/201710/77c3422e7f6a5c66822475a890902402)
FashionNet是通过将以上4中loss进行加权处理进行优化的。训练过程分两步:
step1: 将特征点可见性预测与位置估计作为主任务,其余作为辅助任务,因此该过程中给L_visibility 和 L_landmark较大的权重,其余损失赋予较小的权重。
由于任务间有一定的相关性,因此这种多任务联合处理的手段能够加速收敛。
Step2: 使用特征点分支的预测结果,进行类别,属性以及pairs的预测。
以上两步不断迭代直至收敛。
实验部分未完待续
即将入坑的和已经入坑的小伙伴可以添加QQ群交流:
群名称:AI服装检索分类
群 号:474700336
主要包含两个工作:
1. 创建了一个服装数据集DeepFashion,包含80万张服装图像,有类别,属性,特征点以及服饰框的标注。详情可以参考我的另一篇博客DeepFashion:
服装公开数据集概述。
2. 提出一个深度学习模型FashionNet,结合服饰属性和特征点进行服饰的特征提取,可以较好的应对服饰的变形遮挡等问题。
文中提出结合特征点能够有助于服装识别,同时,大量的属性信息能够更好的划分服饰特征空间,从而能够有助于服饰的识别和检索。示意图如下:
FashionNet的网络结构类似VGG-16,只是将VGG16的最后一个卷积层进行了修改,改成能够处理服装landmarks,属性和类别的网络。最后一层的网络示意图如下。
从上图可以看出,VGG16的最后一个卷积层由作者设计的三个分支代替。
最右侧蓝色分支进行特征点可见性预测以及位置回归。
中间绿色的分支,有两个输入:VGG16的conv4 + 右侧蓝色特征点的分支输出结果,根据特征点的位置进行局部feature pooling。这一步有助于应对服饰变形和遮挡问题。
左边橘色分支,进行全局的特征处理。
绿色和橘色分支运算的结果经过fc7_fusion进行融合,预测服装的类别,属性和pairs
反向传播过程定义了4中损失函数:
(1)回归损失,用于特征点位置估计损失计算。
(2)softmax损失,用于特征点可见性以及服饰类别估计损失计算。
(3)cross-entropy损失,用于属性预测损失计算。
(4)triple损失,用于服饰pairs预测损失计算。
FashionNet是通过将以上4中loss进行加权处理进行优化的。训练过程分两步:
step1: 将特征点可见性预测与位置估计作为主任务,其余作为辅助任务,因此该过程中给L_visibility 和 L_landmark较大的权重,其余损失赋予较小的权重。
由于任务间有一定的相关性,因此这种多任务联合处理的手段能够加速收敛。
Step2: 使用特征点分支的预测结果,进行类别,属性以及pairs的预测。
以上两步不断迭代直至收敛。
实验部分未完待续
相关文章推荐
- 论文阅读理解 - DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations
- 经典论文阅读——DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations (CVPR 2
- DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations论文阅读
- DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations – CVPR 2016
- DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations
- DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations – CVPR 2016
- DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations – CVPR 2016
- 【论文笔记】Robust Scene Text Recognition with Automatic Rectification
- Extracting and composing robust features with denosing autoencoders 论文
- 论文笔记(3)-Extracting and Composing Robust Features with Denoising Autoencoders
- 【论文理解】Clothing Retrieval with Visual Attention Model
- Fast and Accurate Entity Recognition with Iterated Dilated Convolutions 论文阅读
- 论文阅读理解 - Semantic Image Segmentation With Deep Convolutional Nets and Fully Connected CRFs
- 论文阅读(Lukas Neuman——【ICDAR2015】Efficient Scene Text Localization and Recognition with Local Character Refinement)
- 【 论文学习记录】A flexible and scalable slam system with full 3d motion estimation
- 论文笔记之:Multiple Object Recognition With Visual Attention
- Rich feature hierarchies for accurate object detection and semantic segmentation论文笔记
- 论文阅读:Individual tooth segmentation from CT images scanned with contacts of maxillary and mandible te
- Multi-modal Sentence Summarization with Modality Attention and Image Filtering 论文笔记
- Bit-Scalable Deep Hashing with Regularized Similarity Learning for Image Retrieval and Person Re-ide