您的位置：首页 > 其它

机器学习小组知识点38：谱聚类（Spectral-KMeans）

2017-04-10 23:02 253 查看

此文转自：https://www.cnblogs.com/sparkwen/p/3155850.html
对原作者表示感谢！尊重原作者版权！
谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图，使子图内部尽量相似，而子图间距离尽量距离较远，以达到常见的聚类的目的。其中的最优是指最优目标函数不同，可以是割边最小分割——如图1的Smallest cut(如后文的Min cut)，也可以是分割规模差不多且割边最小的分割——如图1的Best cut(如后文的Normalized
cut)。

图1
谱聚类无向图划分——Smallest cut和Best cut
这样，谱聚类能够识别任意形状的样本空间且收敛于全局最优解，其基本思想是利用样本数据的相似矩阵(拉普拉斯矩阵)进行特征分解后得到的特征向量进行聚类。

1 理论基础

对于如下空间向量item-user matrix：

如果要将item做聚类，常常想到k-means聚类方法，复杂度为o(tknm)，t为迭代次数，k为类的个数、n为item个数、m为空间向量特征数：

1 如果M足够大呢？
2 K的选取？
3 类的假设是凸球形的？
4 如果item是不同的实体呢？
5 Kmeans无可避免的局部最优收敛？
……

这些都使常见的聚类问题变得相当复杂。

1.1 图的表示

如果我们计算出item与item之间的相似度，便可以得到一个只有item的相似矩阵，进一步，将item看成了Graph(G)中Vertex(V)，歌曲之间的相似度看成G中的Edge(E)，这样便得到我们常见的图的概念。

对于图的表示(如图2)，常用的有：

邻接矩阵：E，eij表示vi和vi的边的权值，E为对称矩阵，对角线上元素为0，如图2-2。

Laplacian矩阵：L = D – E，其中di (行或列元素的和)，如图2-3。

图2
图的表示

1.2 特征值与L矩阵

先考虑一种最优化图像分割方法，以二分为例，将图cut为S和T两部分，等价于如下损失函数cut(S, T)，如公式1所示，即最小(砍掉的边的加权和)。

假设二分成两类，S和T，用q(如公式2所示)表示分类情况，且q满足公式3的关系，用于类标识。

那么：

其中D为对角矩阵，行或列元素的和，L为拉普拉斯矩阵。

值得注意的是上述推导少了一个2倍的关系。

由：

有:

1、 L为对称半正定矩阵，保证所有特征值都大于等于0；
2、 L矩阵有唯一的0特征值，其对应的特征向量为1。

离散求解q很困难，如果将问题松弛化为连续实数值，由瑞利熵的性质知其二将你型的最小值就是L的特征值们(最小值，第二小值，......，最大值分别对应矩阵L的最小特征值，第二小特征值，......，最大特征值，且极值q相应的特征向量处取得，请参见瑞利熵(Rayleigh quotient))。

写到此，不得不对数学家们致敬，将cut(S,T)，巧妙地转换成拉普拉斯矩阵特征值(向量)的问题，将离散的聚类问题，松弛为连续的特征向量，最小的系列特征向量对应着图最优的系列划分方法。剩下的仅是将松弛化的问题再离散化，即将特征向量再划分开，便可以得到相应的类别，如将图3中的最小特征向量，按正负划分，便得类{A,B,C}和类{D,E,F,G}。在K分类时，常将前K个特征向量，采用kmeans分类。

PS：

1、此处虽再次提到kmeans，但意义已经远非引入概念时的讨论的kmeans了，此处的kmeans，更多的是与ensemble learning相关，在此不述；

2、k与聚类个数并非要求相同，可从第4节的相关物理意义中意会；

3、在前k个特征向量中，第一列值完全相同(迭代算法计算特征向量时，值极其相近)，kmeans时可以删除，同时也可以通过这一列来简易判断求解特征值(向量)方法是否正确，常常问题在于邻接矩阵不对称。

图3 图的L矩阵的特征值与特征向量

2 最优化方法

在kmeans等其它聚类方法中，很难刻划类的大小关系，局部最优解也是无法回避的漏病。当然这与kmeans的广泛使用相斥——原理简单。

2.1 Min cut方法

如2.2节的计算方法，最优目标函数如下的图cut方法：

计算方法，可直接由计算L的最小特征值(特征向量)，求解。

2.2 Nomarlized cut方法

Normarlized cut，目标是同时考虑最小化cut边和划分平衡，以免像图1中的cut出一个单独的H。衡量子图大小的标准是：子图各个端点的Degree之和。

2.3 Ratio Cut 方法

Ratio cut的目标是同时考虑最小化cut边和划分平衡，以免像图1中的cut出一个单独的H。

最优目标函数为：

2.4 Normalized相似变换

归一化的L矩阵有：

因而L’的最小特征值与D-(1/2)E D-(1/2)的最大特征值对应。

而计算的L’相比计算L要稍具优势，在具体实用中，常以L’替代L，但是min cut和ratio cut不可以。

PS：这也是常常在人们的博客中，A说谱聚类为求最大K特征值(向量)，B说谱聚类为求最小K个特征值(向量的原因)。

3 谱聚类步骤

第一步：数据准备，生成图的邻接矩阵；
第二步：归一化普拉斯矩阵；
第三步：生成最小的k个特征值和对应的特征向量；
第四步：将特征向量kmeans聚类(少量的特征向量)；

4 谱聚类的物理意义

谱聚类中的矩阵：

可见不管是L、L’都与E联系特别大。如果将E看成一个高维向量空间，也能在一定程度上反映item之间的关系。将E直接kmeans聚类，得到的结果也能反映V的聚类特性，而谱聚类的引入L和L’是使得G的分割具有物理意义。

而且，如果E的item(即n)足够大，将难计算出它的kmeans，我们完全可以用PCA降维(仍为top的特征值与向量)。

上述对将E当成向量空间矩阵，直观地看符合我们的认知，但缺乏理论基础；而L(L’等)的引入，如第2节所述，使得计算具有理论基础，其前k个特征向量，也等价于对L(L’等)的降维。

因而聚类就是为图的划分找了理论基础，能达到降维的目的。

其中不少图出源于Mining of Massive Datasets，对于同仁们的布道授业，一并感谢。

1 Spectral Coclustering

1.1 协同聚类(Coclustering)
在数据分析中，聚类是最常见的一种方法，对于一般的聚类算法(kmeans, spectral clustering, gmm等等)，聚类结果都类似图1所示，能挖掘出数据之间的类簇规律。

图1
聚类结果图
即使对于常见的数据User-Item评分矩阵(常见于各社交平台的数据之中，例如音乐网站的用户-歌曲评分矩阵，新闻网站的用户-新闻评分矩阵，电影网站的用户-电影评分矩阵等等)，如表1所示。在聚类分析中，也常常将数据计算成User-User的相似度关系或Item-Item的相似度关系，计算方法诸如应用Jaccard距离，将User或Item分别当成Item或User的特征，再在此基础上计算欧氏距离、cos距离等等。

表1 User-Item评分矩阵
但是如果能聚类成如图2中的coclustering关系，将User和Item同时聚类，将使得数据结果更具意义，即在音乐网站中的用户和歌曲coclustering结果表明，某些用户大都喜欢某类歌曲，同时这类歌曲也大都只被这群用户喜欢着。这样，不管是用于何种场景(例如歌曲推荐)，都将带来极大的益处。

图2
coclustering图
1.2 Spectral Coclustering
对于User-Item评分矩阵，这是一个典型的二部图(Bipartite Grap)，Item-User矩阵A，假设A为N*M，即N个item和M个user，可展开成:

其中E为(M+N)*(M+N)的方阵，且对称。
对于A的二部图，只存在Item与User之间的邻接边，在Item(User)之间不存在邻接边。再用谱聚类原理——将带权无向图划分为两个或两个以上的最优子图，使子图内部尽量相似，而子图间距离尽量距离较远。这样的聚类结果将Cut尽量少的边，分割出User和Item的类，如果类记Ci(U,I)为第i个由特定的User和Item组成的类，由谱聚类原理，Cut掉的Ci边为中的User或Item与其它类Cj(j≠i)的边，且其满足某种最优Cut方法，简单地说，Cut掉的User到其它类Cj(j≠i)的Item的边，可理解为这些User与其它Item相似关系较小；同样Cut掉的Item到其它类Cj(j≠i)的User的边，可理解为这些Item与其它User相似关系较小。这正好满足coclusering的定义。

在谱聚类的基础上，再实现Spectral Coclustering，十分简单，将E直接当成谱聚类的邻接矩阵即可，至于求Laplacian矩阵、求特征值、计算Kmeans，完成与谱聚类相同。
PS:更多详情，请参见参考文献1。

2 谱聚类的半监督学习

假设有大量新闻需要聚类，但对于其中的部分新闻，编辑已经人工分类好了，例如(Ni1,Ni2, …, Nim)，为分类好的第i类，那么对于人工分类好的数据，就相当于聚类中的先验知识(或正则)。
在聚类时，可相应在邻接矩阵E中增加类彼此间邻接边，并使得其邻接权重较大，这样生成的邻接矩阵为E’。这样，再对此邻接矩阵E’做谱聚类，聚类结果将在一定程度上维持人工分类的结果，并达到聚类的目的。
PS：更多详情，请参见参考文献2，不过谱聚类的半监督学习，都有点扯。

参考文献：
1 Inderjit S. Dhillon. Co-clustering documents and words using Bipartite Spectral Graph Partitioning;
2 W Chen. Spectral clustering: A semi-supervised approach;
3 Wen-Yen Chen, Yangqiu Song, Hongjie Bai, Chih-Jen Lin, Edward Y. Chang. Parallel Spectral Clustering in Distributed Systems.

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航