PQ for ANN image retrieval
2017-05-15 17:10
239 查看
近似最近邻检索
hash
PQ
Vector Quantization
这项技术广泛地用在信号处理以及数据压缩等领域。事实上,在 JPEG 和 MPEG-4 等多媒体压缩格式里都有 VQ 这一步。Vector Quantization ,其实它本身并没有这么高深。大家都知道,模拟信号是连续的值,而计算机只能处理离散的数字信号,在将模拟信号转换为数字信号的时候,我们可以用区间内的某一个值去代替着一个区间,比如,[0, 1) 上的所有值变为 0 ,[1, 2) 上的所有值变成 1 ,如此类推。其这就是一个 VQ 的过程。一个比较正式一点的定义是:VQ 是将一个向量空间中的点用其中的一个有限子集来进行编码的过程。
一个典型的例子就是图像的编码。最简单的情况,考虑一个灰度图片,0 为黑色,1 为白色,每个像素的值为 [0, 1] 上的一个实数。现在要把它编码为 256 阶的灰阶图片,一个最简单的做法就是将每一个像素值 x 映射为一个整数 floor(x*255) 。当然,原始的数据空间也并不以一定要是连续的。比如,你现在想要压缩这个图片,每个像素只使用 4 bit (而不是原来的 8 bit)来存储,因此,要将原来的 [0, 255] 区间上的整数值用 [0, 15] 上的整数值来进行编码,一个简单的映射方案是 x*15/255 。
实际做法就是:将每个像素点当作一个数据,跑一下 K-means ,得到 k 个 centroids ,然后用这些 centroids 的像素值来代替对应的 cluster 里的所有点的像素值。对于彩色图片来说,也可以用同样的方法来做,例如 RGB 三色的图片,每一个像素被当作是一个 3 维向量空间中的点。
K-Means
简介PQ
Product Quantizer是由Herv´e J´egou等人2011年在IEEEE上发表的论文《Product Quantization for Nearest Neighbor Search》中提出来的。它的提出是为了在内存和效率之间求得一个平衡,既保证图像索引结构需要的内存足够,又使得检索质量和速度比较好。对于任何基于固定维数特征的事物,它可以应用到其索引结构的建立及检索上。它属于ANN(approximate nearest neighbor)算法。Product Quantizer翻译过来是乘积量化,从字面理解大概包括了两个过程特征的分组量化过程和类别的笛卡尔积过程。假设有一个数据集,那么K-means的做法就是给定类别数目K,目标函数是所有样本到类中心的距离和最小,迭代计算优化目标函数,得到K个类中心和每个样本所属的类别。
目标函数不变,乘积量化的做法是:
数据集每个样本以一个vector的形式表示,维数为d,将vector的各个分量分成m组。(当m=1时,算法与k-means等价)
将所有vector的某组分量作为数据集,采用k-means算法得到
个类中心,运行m次k-means算法,则每组都有
个类中心,记这
个类中心为一个集合。
将上述得到的m个集合做笛卡尔积,就得到整个数据集的codebook了。
文章中表示当m=8,
=256时最好。
监督
SVM
相关文章推荐
- 深度学习入门:Supervised Hashing for Image Retrieval via Image Representation Learning
- 基于哈希的图像检索 HABIR(HASHING BASELINE FOR IMAGE RETRIEVAL)
- Deep Learning of Binary Hash Codes for Fast Image Retrieval 代码编译
- Bag-of-Words Based Deep Neural Network for Image Retrieval
- Aggregating local features for Image Retrieval
- 基于内容的图像检索 Database for Content-Based Image Retrieval
- 图像检索--Deep Supervised Hashing for Fast Image Retrieval
- CNN for image retrieval
- 图像检索系列一:Deep Learning of Binary Hash Codes for Fast Image Retrieval
- 深度学习入门:Aggregating Deep Convolutional Features for Image Retrieval
- Deep Learning of Binary Hash Codes for Fast Image Retrieval (CVPRW15)
- Jointly Learning Binary Code for Large-scale Face Image Retrieval and Attributes Prediction
- 论文笔记(一)Re-ranking by Multi-feature Fusion with Diffusion for Image Retrieval
- Weak Attributes for Large-Scale Image Retrieval 阅读笔记
- 卷及神经网络CNN for image retrieval
- 一篇论文 综合区域匹配的图像检索 IRM: Integrated Region Matching for Image Retrieval
- 基于deep learning的快速图像检索(Deep Learning of Binary Hash Codes for Fast Image Retrieval)
- 《Context Aware Query Image Representation for Particular Object Retrieval》论文阅读
- 基于deep learning的快速图像检索(Deep Learning of Binary Hash Codes for Fast Image Retrieval)
- 局部特征用于图像检索 Aggregating local features for Image Retrieval