论文笔记[2] 基于深度学习的CNN图像质量评估和预测
2018-01-19 11:47
513 查看
论文笔记[2] 深度CNN图像质量预测
Introduction
本文主要讲如何用深度CNN模型来做图像质量评估 / 预测(image quality assessment / prediction)。但是这个问题比较困难的一个原因在于缺少数据,即对一张图片的质量人工主观评价的分数。而且对于这类问题,常规的data augmentation方法都不适用,因为会改变主观分数。对于图像质量模型,full-reference,reduced-reference 表示有一个参照图像,而no-reference表示无参考图,或者叫做blind。有reference的往往是已知对图像进行了某种process,比如压缩,增强等等,而blind则是直接对原始图像进行打分。一般来说,blind,即无参考的问题更难一些。但是both reference and no-reference picture-quality models rely
heavily on principles of computational visual neuroscience and/or on highly regular models of natural picture statistics。CNN由于模拟了visual cortex的一些特性,如从带方向的Gabor滤波器提到的低级特征到结构特征等高级特征逐渐学习,使之可以用于图像质量检测。最直接的想法可能就是下图所示这种:
Overview of the problem
浅层的学习方法,如SVR已经对这个问题做的比较好了,但是还有提升空间,深度CNN的做法如下图:CNN不用手动提特征,这是和传统方法的主要区别。preprocessing中可以包括color conversion,local debiasing, local normalization, domain transformation等。主要的还是CNN训练数据不够的问题,主观标定的数据集有LIVE IQA,TID2013,最大的LIVE “In the Wild” Challenge Database有1200多张不同的图片,每个都被unique的某种distortion组合影响,有350000多主观评定。样本太少的一般策略就是augmentation,但是想旋转,crop,reflection等这些会改变主观评价。另一种策略是分patch,这个比较常用,但是没法对每个local的patch打分。
一个解决方法就是无监督学习,如玻尔兹曼机,autoencoder等。但是这些一般都是忽略细节,也就是说对distortion应该比较鲁棒的,而QA问题需要对这些distortion敏感,这是难点。
CNN based Picture Quality Prediction
主要有两种,分别成为patchwise和imagewise,顾名思义。patchwise是为了增加样本量,因为图像的QA问题没法做augmentation。patchwise的CNN,如下图,训练的时候每个patch给一个相同的和image一样的score,而且用了local divisive normalization。test的时候每个patch算一个score,进行平均得到最终的picture quality。由于实际上每个patch的质量不同,因此有方法提出吧最终的结果看做是每个patch的加权和,权重,即每个patch的重要性要通过子网络学习。
另外,为了避免过拟合,因为QA问题样本少,因此采取两步骤训练,先用算法生成的proxy groundtruth quality scores 学,然后在用主观评测的scores调。一种叫做deep image quality assessor (DIQA)的无reference的QA模型是这样训练的,先objective training,后subjective training。
CNN-based full reference models:
dual-path CNN-based full-reference model;
有做法是这样:先用ImageNet pretrain,然后把reference和distortion都投入CNN,用CNN提取feature map,然后通过两者feature map 的局部相似性进行计算得到最终的score。
DeepQA训练一个视觉敏感权重。用的是distortion和objective error map作为输入。学到的权重weight map作为一个objective error map的的multiplier。
关于loss function:
对于不同的策略,解释如下:
Performance of CNN picture-quality models
Two performance metrics were used to benchmark the models: Spearman’s rank order correlation coefficient (SRCC), and Pearson’s linear correlation coefficient (PLCC).SRCC是用rank的差来计算的,即将两组数据都排序,每个元素都替换成在有序数组中的序号,然后比较两组序号。这样相当于没有考虑具体的评分的数值是多少,主要考虑的是不同图像之间的质量好坏的比较关系,比较合理。
PLCC就是皮尔森相关系数。
reference : Kim J, Zeng H, Ghadiyaram D, et al. Deep convolutional neural models for picture-quality prediction: Challenges and solutions to data-driven image quality assessment[J]. IEEE Signal Processing Magazine, 2017, 34(6): 130-141.
2018/01/19 11:45 a.m.
人是一堆无用的热情。
让-保罗-萨特
相关文章推荐
- 文献阅读笔记2 基于双目能量模型的立体图像质量评估(上海交通大学硕士学位论文)
- 基于深度学习的事件驱动型股票预测[论文研读笔记]
- 论文总结(一)—基于深度学习的普通遥感图像质量改进
- 论文笔记 | 基于深度学习的图像语义分割技术概述之5.1度量标准
- 深度学习(DL)与卷积神经网络(CNN)学习笔记随笔-02-基于Python的卷积运算
- 论文笔记 | 基于深度学习的乳腺转移瘤识别(Deep Learning for Identifying Metastatic Breast Cancer)
- 图像检索:基于深度学习的CBIR(Content Based Image Retrieval)内容的图片检索论文
- 基于深度学习的图像去噪(论文总结)
- 深度学习(DL)与卷积神经网络(CNN)学习笔记随笔-04-基于Python的LeNet之MLP
- 论文_阅读笔记_基于机器视觉的水稻秧苗图像分割
- 深度学习(DL)与卷积神经网络(CNN)学习笔记随笔-03-基于Python的LeNet之LR(转)
- 基于深度学习(DL)的图像复原(IR)论文总结
- 论文笔记:基于视觉显著性检测的图像分类方法
- 深度学习(DL)与卷积神经网络(CNN)学习笔记随笔-03-基于Python的LeNet之LR
- 图像分割、目标检测 MASK R-CNN 论文阅读笔记
- 细粒度图像识别算法Mask-CNN 论文笔记
- 论文笔记 | 基于双线性CNN模型的细粒度视觉识别
- 图像美学质量评估相关论文简介
- 《基于深度学习的线上农产品销量预测模型研究》阅读笔记
- 深度学习(DL)与卷积神经网络(CNN)学习笔记随笔-03-基于Python的LeNet之LR