论文笔记 | 基于双线性CNN模型的细粒度视觉识别
2018-01-11 16:22
531 查看
细粒度视觉识别之双线性CNN模型
[1] Lin T Y, RoyChowdhury A, Maji S. Bilinear cnn models for fine-grained visual recognition[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 1449-1457.[2] Lin T Y, RoyChowdhury A, Maji S. Bilinear CNNs for Fine-grained Visual Recognition//arXiv. 2017.
摘要
定义:双线性CNN模型:包含两个特征提取器,其输出经过外积(外积WiKi)相乘、池化后获得图像描述子。优点:
该架构能够以平移不变的方式,对局部的对级(pairwise)特征交互进行建模,适用于细粒度分类。
能够泛化多种顺序无关的特征描述子,如Fisher 向量,VLAD及O2P。实验中使用使用卷积神经网络的作为特征提取器的双线性模型。
双线性形式简化了梯度计算,能够对两个网络在只有图像标签的情况下进行端到端训练。
实验结果:
对ImageNet数据集上训练的网络进行特定领域的微调,该模型在CUB200-2011数据集上,训练时达到了84.1%的准确率。
作者进行了实验及可视化以分析微调的效果,并在考虑模型速度和精确度的情况下选择了两路网络。
结果显示,该架构在大多数细粒度数据集上都可以与先前算法相媲美,并且更加简洁、易于训练。更重要的是,准确率最高的模型可以在NVIDIA Tesla K40 GPU上以8 f/s的速度高效运行。代码链接:http://vis-www.cs.umass.edu/bcnn
介绍
细粒度识别对同属一个子类的物体进行分类,通常需要对高度局部化、且与图像中姿态及位置无关的特征进行识别。例如,“加利福尼亚海鸥”与“环状海鸥”的区分就要求对其身体颜色纹理,或羽毛颜色的微细差异进行识别。
通常的技术分为两种:
局部模型:先对局部定位,之后提取其特征,获得图像特征描述。缺陷:外观通常会随着位置、姿态及视角的改变的改变。
整体模型:直接构造整幅图像的特征表示。包括经典的图像表示方式,如Bag-of-Visual-Words,及其适用于纹理分析的多种变种。
基于CNN的局部模型要求对训练图像局部标注,代价昂贵,并且某些类没有明确定义的局部特征,如纹理及场景。
作者思路
局部模型高效性的原因:本文中,作者声称局部推理的高效性在于其与物体的位置及姿态无关。纹理表示通过将图像特征进行无序组合的设计,而获得平移无关性。
纹理表征性能不佳的思考:基于SIFT及CNN的纹理表征已经在细粒度物体识别上显示出高效性,但其性能还亚于基于局部模型的方法。其可能原因就是纹理表示的重要特征并没有通过端到端训练获得,因此在识别任务中没有达到最佳效果。
洞察点:某些广泛使用的纹理表征模型都可以写作将两个合适的特征提取器的输出,外积之后,经池化得到。
首先,(图像)先经过CNNs单元提取特征,之后经过双线性层及池化层,其输出是固定长度的高维特征表示,其可以结合全连接层预测类标签。最简单的双线性层就是将两个独立的特征用外积结合。这与图像语义分割中的二阶池化类似。
实验结果:作者在鸟类、飞机、汽车等细粒度识别数据集上对模型性能进行测试。表明B-CNN性能在大多细粒度识别的数据集上,都优于当前模型,甚至是基于局部监督学习的模型,并且相当高效。
相关文章推荐
- 细粒度图像识别算法Mask-CNN 论文笔记
- 论文总结——《基于视觉的目标识别与跟踪综述》(1)
- 论文笔记 | 基于深度学习的乳腺转移瘤识别(Deep Learning for Identifying Metastatic Breast Cancer)
- 论文笔记[2] 基于深度学习的CNN图像质量评估和预测
- 基于高维视觉特征模型的目标图像检测与图像分割技术研究---论文摘录
- 人脸识别方向论文笔记(1)-- A Light CNN for Deep Face Representation With Noisy Labels
- 论文笔记:基于视觉显著性检测的图像分类方法
- 【大数据部落】基于随机森林、svm、CNN机器学习的风控欺诈识别模型
- 基于逻辑的数据模型datalog 的递归应用 (论文摘要笔记)
- 论文笔记(一)基于轮流训练的松弛卷积神经网络对手写字附体的识别(MINIST和ICDAR’13 Competition 汉字库)
- 计算机视觉-论文阅读笔记-基于高性能检测器与表观特征的多目标跟踪
- 论文笔记之:A CNN Cascade for Landmark Guided Semantic Part Segmentation
- Keras —— 基于Vgg16模型(含全连接层)的图片识别
- 深度学习(DL)与卷积神经网络(CNN)学习笔记随笔-03-基于Python的LeNet之LR
- CS229学习笔记之广义线性模型
- R语言实战笔记--第十三章 广义线性模型
- 基于离散图模型的人工视觉简介
- 模式识别学习笔记[1]——基于试探的聚类搜索算法
- 笔记︱基于网络节点的node2vec、论文、算法python实现
- Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现