数据挖掘回顾十:聚类算法之 K均值 (K-Means) 算法
2015-04-12 22:47
676 查看
由此,跨入无监督学习。即从此没有训练集和测试集之说,无监督学习只有一个数据集。
并且,在分类或回归算法中(有监督学习),数据集中的一条数据包含两个信息:各特征属性值、类别标签或目标值。而聚类算法的数据集中每一条数据只包含一个信息:各特征属性值。
聚类,顾名思义,就是聚类,呵呵。即把数据集中的数据凝聚成一个或多个小类,这些各个小类自己内部的数据之间有相似的特征属性。
K均值算法,顾名思义,包括两个方面:一在 K,即要把数据集分成 K 个小类。二在均值,即每次迭代选择每一个小类标识的时候,总是求这个小类中所有数据的平均值作为当前小类的标识ci,其中i=1,...,k。
K均值算法如下:
首先,从数据集中确定K个数据分别作为K个小类的初始标识。
然后,进行一次次的迭代,直到满足一定的条件,迭代结束。每次迭代做如下两件事情(先做1后做2):
1,对数据集中的每一条数据,通过计算其与当前迭代周期的K个小类的标识ci之间的距离(比如可以是欧式距离),找出K个距离中最小的那个,然后这条数据就划到距离最小对应的小类。
2,重新计算K各小类的均值,得到一个个新的小类的标识ci。
注:*,第一个标红处,即在数据集中确定K个数据作为K个小类的初始标识,如何选定K的大小,然后以及如何选定这K个数据,这有很多种方法。比如随机选择K个数据。比如K的大小可以多试几次。以验证K取哪种值时,聚类效果最好。
**,第二个标红处,什么条件,迭代会结束?条件就是:当前迭代产生的K个小类和上轮迭代产生的K个小类中的数据一模一样,所有数据的类别都没有发生变化。
至此为止,对于K均值,相信大家都非常明白了。但在实际应用中,可能要经过反复试验才能确定相关的最佳参数,比如K的大小,比如如何选择最初始的K个小类的标识。
并且,在分类或回归算法中(有监督学习),数据集中的一条数据包含两个信息:各特征属性值、类别标签或目标值。而聚类算法的数据集中每一条数据只包含一个信息:各特征属性值。
聚类,顾名思义,就是聚类,呵呵。即把数据集中的数据凝聚成一个或多个小类,这些各个小类自己内部的数据之间有相似的特征属性。
K均值算法,顾名思义,包括两个方面:一在 K,即要把数据集分成 K 个小类。二在均值,即每次迭代选择每一个小类标识的时候,总是求这个小类中所有数据的平均值作为当前小类的标识ci,其中i=1,...,k。
K均值算法如下:
首先,从数据集中确定K个数据分别作为K个小类的初始标识。
然后,进行一次次的迭代,直到满足一定的条件,迭代结束。每次迭代做如下两件事情(先做1后做2):
1,对数据集中的每一条数据,通过计算其与当前迭代周期的K个小类的标识ci之间的距离(比如可以是欧式距离),找出K个距离中最小的那个,然后这条数据就划到距离最小对应的小类。
2,重新计算K各小类的均值,得到一个个新的小类的标识ci。
注:*,第一个标红处,即在数据集中确定K个数据作为K个小类的初始标识,如何选定K的大小,然后以及如何选定这K个数据,这有很多种方法。比如随机选择K个数据。比如K的大小可以多试几次。以验证K取哪种值时,聚类效果最好。
**,第二个标红处,什么条件,迭代会结束?条件就是:当前迭代产生的K个小类和上轮迭代产生的K个小类中的数据一模一样,所有数据的类别都没有发生变化。
至此为止,对于K均值,相信大家都非常明白了。但在实际应用中,可能要经过反复试验才能确定相关的最佳参数,比如K的大小,比如如何选择最初始的K个小类的标识。
相关文章推荐
- 数据挖掘十大经典算法学习之K均值(K-means)聚类算法
- 【数据挖掘算法】聚类方法——K-均值聚类算法
- 数据挖掘/机器学习算法--直接聚类算法(k-means)
- 大数据挖掘算法篇之K-Means实例
- 数据挖掘回顾八:回归算法之 CART 算法 (回归树)
- 数据挖掘算法之 k-means
- 数据挖掘十大算法翻译——2K-means
- 数据挖掘回顾十二:关联规则挖掘之 FP-Growth 算法
- 数据挖掘回顾七:回归算法之 线性回归
- (2)数据挖掘算法之k-means
- 数据挖掘算法之 K-means
- [学习] 数据挖掘-聚类算法(K-means,层次聚类)
- 数据挖掘回顾六:分类算法之 AdaBoost 集成算法
- 数据挖掘回顾九:回归算法之 模型树
- 数据挖掘回顾一:分类算法之 kNN 算法
- 数据挖掘回顾五:分类算法之 支撑向量机(SVM) 算法
- 【十大经典数据挖掘算法】k-means
- 数据挖掘回顾四:分类算法之 logistic回归 算法
- 数据挖掘/机器学习算法--直接聚类算法(k-means)
- 数据挖掘十大经典算法之二:K-means