聚类算法小结
2015-01-02 14:55
127 查看
一、聚类:聚类也称之为自动分类,是一种无监督的学习方法。算法的原则是基于度量数据对象之间的相似性或相异性,将数据对象集划分为多个簇;相比较于分类技术,聚类只需要较少的专家知识(领域知识),就可以自动发掘数据集中的群组。
二、基本的聚类方法包括:
1、划分方法:该方法通常基于距离使用迭代重定位技术,通过将一个对象移入另外一个簇并更新簇心,典型的算法有K-均值算法和K-中心点算法(二者的主要区别在于计算簇心的方法不同),其中K-均值算法的解对噪声和初始簇心比较敏感,K-中心点算法弥补了前者对噪声敏感的缺点,但二者的可伸缩性都不是太好、并且需要初始化簇的数量。
2、层次方法:该方法立求把数据集划分成不同层次上的组群,形成“树”状结构。典型的方法包括:凝聚层次聚类(自底向上的方法)和分裂层次聚类,一图胜千言:
3、基于密度的聚类方法:划分和层次方法都是通过距离度量确定数据对象间的相似性,通过发现的模式都为球状簇,而对于其他形状簇,都无法识别该簇的凸区域,基于密度的方法正是克服了以上方法的这一缺点。基本方法有基于高密度连通区域的聚类和基于密度分布函数的聚类。该方法首先随机初始化一个簇心p(核心对象),(1)在sigma半径范围内搜索p的临近对象,若其临近对象数大于阀值,则确定该初始化对象作为簇C的簇心并将临近对象加入簇C中,(2)对C中的每个对象重复步骤1,直到所有对象都完成簇的分类。基于高密度连通区域聚类的具体方法如下:
以上都是一些比较常用且较为基本的聚类方法,在进行算法选用时,主要从算法的可伸缩性、离线/在线聚类、精确度要求、约束情况、噪声及数据分布本身的特点等考虑。
本文也是在阅读<数据挖掘概念与技术>一书基础上,结合自身使用情况做的一点总结,如有错误,敬请指正。
二、基本的聚类方法包括:
1、划分方法:该方法通常基于距离使用迭代重定位技术,通过将一个对象移入另外一个簇并更新簇心,典型的算法有K-均值算法和K-中心点算法(二者的主要区别在于计算簇心的方法不同),其中K-均值算法的解对噪声和初始簇心比较敏感,K-中心点算法弥补了前者对噪声敏感的缺点,但二者的可伸缩性都不是太好、并且需要初始化簇的数量。
2、层次方法:该方法立求把数据集划分成不同层次上的组群,形成“树”状结构。典型的方法包括:凝聚层次聚类(自底向上的方法)和分裂层次聚类,一图胜千言:
3、基于密度的聚类方法:划分和层次方法都是通过距离度量确定数据对象间的相似性,通过发现的模式都为球状簇,而对于其他形状簇,都无法识别该簇的凸区域,基于密度的方法正是克服了以上方法的这一缺点。基本方法有基于高密度连通区域的聚类和基于密度分布函数的聚类。该方法首先随机初始化一个簇心p(核心对象),(1)在sigma半径范围内搜索p的临近对象,若其临近对象数大于阀值,则确定该初始化对象作为簇C的簇心并将临近对象加入簇C中,(2)对C中的每个对象重复步骤1,直到所有对象都完成簇的分类。基于高密度连通区域聚类的具体方法如下:
以上都是一些比较常用且较为基本的聚类方法,在进行算法选用时,主要从算法的可伸缩性、离线/在线聚类、精确度要求、约束情况、噪声及数据分布本身的特点等考虑。
本文也是在阅读<数据挖掘概念与技术>一书基础上,结合自身使用情况做的一点总结,如有错误,敬请指正。
相关文章推荐
- 【转载】聚类算法小结
- 聚类算法小结
- spark 机器学习一 聚类算法案例小结
- Session丢失的解决办法小结
- Apache及相关软件使用小结
- 黑马程序员-c#基础知识小结
- 移动端开发小结
- Struts2中的乱码问题小结
- HDFS-上传下载-细节小结
- 小结《malloc与new之区别》
- 聚类算法实现
- 学习笔记第五篇之聚类算法
- 单元测试实践小结
- bgsound 背景音乐 的一些常用方法及特殊用法小结
- RHEL 6.0 +Cluster+oracle11g 实施问题小结
- Unix domain socket 的一些小结
- Spring AOP 学习小结---转载自ITeye
- OC学习小结之protocol
- Linux调试工具strace和gdb常用命令小结-转
- ORACLE的SQL JOIN方式小结