您的位置：首页 > 其它

Mean shift 算法

2016-07-30 11:26 267 查看

常见的聚类算法除了Kmeans，还有Meanshift及AP。这里先总结一下Meanshift相关知识。

Mean shift基本思想

Mean shift将特征空间视为先验概率密度函数，那么输入就被视为是一组满足某种概率分布的样本点，这样一来，特征空间中数据最密集的地方，对应于概率密度最大的地方，且概率密度的质心就可以被视为是概率密度函数的局部最优值，也就是要求的聚类中心。

对于每一个样本点，计算以它为中心的某个范围内所有样本点的均值，作为新的中心（这就是shift既中心的移动），移动直至收敛。这样每一轮迭代，中心都会向数据更密集的地方移动。

伪代码可以写成：

重复移动直至收敛｛
对每一个数据点，固定一个窗口（数据范围）：
计算窗口内数据的中心；
移动窗口至新的中心
｝

###如何完成中心的shift过程？###

可以对概率密度求梯度，梯度的方向就是概率密度增加最大的方向，从而也就是数据最密集的方向。

####预备知识####

- 核 Kernels :

核是满足如下条件的函数：
1.
$\int_{R^{d}}\phi(x)=1$
2.
$\phi(x)\geq0$

常见的核函数包括 :
1. Rectangular
$\phi(x)=\begin{cases} 1 & a\leq x\leq b\\ 0 & else\end{cases}$

2. Gaussian
$\phi(x)=e^{-\frac{x^{2}}{2\sigma^{2}}}$

3. Epanechnikov
$\phi(x)=\begin{cases} \frac{3}{4}(1-x^{2}) & if\;|x|\leq1\\ 0 & else\end{cases}$

- 核密度估计 Kernels Density Estimation :

核密度估计是一种通过非参数估计来估计变量的密度函数的方法，通常也被称为是Parzen窗技术。给定核函数Kernel和带宽 bandwidth（记为h） , d维样本点的核参数估计如下：

$\hat{f}(x)=\frac{1}{nh^{d}}\sum_{i=1}^{n}K\left(\frac{x-x_{i}}{h}\right)$

- Mean shift的梯度下降计算
对概率密度求梯度 ,

$\hat{f}(x)=\frac{1}{nh^{d}}\sum_{i=1}^{n}K\left(\frac{x-x_{i}}{h}\right)$

$\bigtriangledown{\displaystyle \hat{f}(x)=\frac{1}{nh^{d}}\sum_{i=1}^{n}K'\left(\frac{x-x_{i}}{h}\right)}$

令梯度为0,

$\sum_{i=1}^{n}K'\left(\frac{x-x_{i}}{h}\right)\overrightarrow{x}=\sum_{i=1}^{n}K'\left(\frac{x-x_{i}}{h}\right)\overrightarrow{x_{i}}$

最后可得到中心的变化

$\overrightarrow{x}=\frac{\sum_{i=1}^{n}K'\left(\frac{x-x_{i}}{h}\right)\overrightarrow{x_{i}}}{\sum_{i=1}^{n}K'\left(\frac{x-x_{i}}{h}\right)}$

总结

以每一个样本点作为窗口的中心点，再寻得最终中心点，最终中心点相同的样本点就是同一类。

记
$g(x)=-K'(x)$
, 有

$m(x)=\frac{\sum_{i=1}^{n}g\left(\frac{x-x_{i}}{h}\right)x_{i}}{\sum_{i=1}^{n}g\left(\frac{x-x_{i}}{h}\right)}-x$

$m(x)$
就是 mean shift. 所以mean shift过程可被总结为 : 对每一个样本点
$x_{i}$

1. 计算mean shift 向量
$m(x_{i}^{t})$

2. 移动概率估计窗
$m(x_{i}^{t})$

3. 重复上述过程直至收敛

以高斯核为例,

1.
$y_{i}^{0}=x_{i}$

2.
$y_{i}^{t+1}=\frac{\sum_{i=1}^{n}x_{j}e^{\frac{-|y_{i}^{t}-x_{j}|^{2}}{h^{2}}}}{\sum_{i=1}^{n}e^{\frac{-|y_{i}^{t}-x_{j}|^{2}}{h^{2}}}}$

Mean shift VS. K-Means

K-Means 是一种常见的聚类方法，简单有效。下面从参数个数来对比两种聚类方法。

K-means 需要给出聚类中心的个数并且聚类结果形状要比较平整成球状或者椭球状；而Mean shift作为一种非参数估计的方法不需要给出聚类中心个数，对聚类形状也没有要求。.

K-means需要初始化聚类中心，而且不同初始化会带来不同的聚类效果；Mean shift 对初始化具有鲁棒性，因为它是对每一个样本点或者对特征空间中uniformly选择出的样本点执行的；此外 , K-means 对异常点敏感而Mean Shift 不敏感

K-means 速度比较快，时间复杂度为
$O(knT)$
其中 k是聚类中心个数 , n 是样本点数， T 是迭代次数. 一般mean shift 在计算时间上开销很大，时间复杂度为
$O(Tn^{2})$
.

带宽参数的选择对Mean shift影响很大,带宽
$h$
选的小时收敛速度慢；
$h$
选的大时虽然会加速收敛但是聚类效果不会很好. 对于
$h$
的选择有很多方法，scikit-learn中有关于mean shift的实现以及带宽选择的方法

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 算法机器学习

相关文章推荐

新的分享

章节导航