数据挖掘中的聚类算法综述
2016-07-09 16:05
337 查看
1.聚合聚类的策略是先将每个对象各自作为一个原子聚类,然后对这些原子聚类逐层进行聚合,直至满足一定的终止条件;后者则与前者相反,它先将所有的对象都看成一个聚类,然后将其不断分解直至满足终止条件。
2.分割聚类算法是另外一种重要的聚类方法。它先将数据点集分为 ! 个划分,然后从这 ! 个初始划分开始,通过重复的控制策略使某个准则最优化以达到最终的结果。
3.基于网格的聚类可以处理任意类型的数据,但以降低聚类的质量和准确性为代价,。CLIOUE也是一个基于网格的聚类算法,它结合了网格聚类与密度聚类的思想,对于处理大规模高维数据具有较好的效果。
4.基于图论的聚类一个优点在于它不需要进行一些相似度的计算,就能把聚类问题映射为图论中的一个组合优化问题。
5.概率聚类算法具有另外几个重要的特性:①能处理具有复杂结构的记录;②能够连续处理成批的数据;③具有在线处理能力;④产生的聚类结果易于解释。
6.最近邻距离的计算,通过只保留数据点的 " 个最近邻居从而简化了相似矩阵,并且也保留了与每个数据点相连的最近邻居的个数,但是其时间复杂度也提高到了 o($2)($
为数据点个数)。
7.K-medoids 方法具有两个优点:它能处理任意类型的属性;它对异常数据不敏感。
原始K-means 算法:①聚类结果的好坏依赖于对初始聚类中心的选择;②容易陷入局部最优解;③对 " 值的选择没有准则可依循;④对异常数据较为敏感;⑤只能处理数值属性的数据,不能用于类别属性的数据;⑤聚类结果可能不平衡。
8.自组织映射具有两个主要特点:!它是一种递增的方法,即所有的数据点是逐一进行处理的;"它能将聚类中心点映射到一个二维的平面上,从而实现可视化。
9.在基于进化理论的聚类方法中,模拟退火的应用经常使用到微扰因子,其作用等同于把一个点从当前的聚类重新分配到一个随机选择的新类别中。
10.遗传算法也可以用于聚类处理,它主要通过选择、交叉和变异这三种遗传算子的运算以不断优化可选方案从而得到最终的聚类结果。
11.对高维数据聚类的困难主要来源于以下两个因素:!高维属性空间中那些无关属性的出现使得数据失去了聚类趋
势;"高维使数据之间的区分界限变得模糊。除了降维这一最直接的方法之外,对高维数据的聚类处理还包括子空间聚类以及联合聚类技术等。
12.子空间聚类的思想,它基于对原始空间在二维平面上的一个投影处理。
13.联合聚类对数据点和它们的属性同时进行聚类。
2.分割聚类算法是另外一种重要的聚类方法。它先将数据点集分为 ! 个划分,然后从这 ! 个初始划分开始,通过重复的控制策略使某个准则最优化以达到最终的结果。
3.基于网格的聚类可以处理任意类型的数据,但以降低聚类的质量和准确性为代价,。CLIOUE也是一个基于网格的聚类算法,它结合了网格聚类与密度聚类的思想,对于处理大规模高维数据具有较好的效果。
4.基于图论的聚类一个优点在于它不需要进行一些相似度的计算,就能把聚类问题映射为图论中的一个组合优化问题。
5.概率聚类算法具有另外几个重要的特性:①能处理具有复杂结构的记录;②能够连续处理成批的数据;③具有在线处理能力;④产生的聚类结果易于解释。
6.最近邻距离的计算,通过只保留数据点的 " 个最近邻居从而简化了相似矩阵,并且也保留了与每个数据点相连的最近邻居的个数,但是其时间复杂度也提高到了 o($2)($
为数据点个数)。
7.K-medoids 方法具有两个优点:它能处理任意类型的属性;它对异常数据不敏感。
原始K-means 算法:①聚类结果的好坏依赖于对初始聚类中心的选择;②容易陷入局部最优解;③对 " 值的选择没有准则可依循;④对异常数据较为敏感;⑤只能处理数值属性的数据,不能用于类别属性的数据;⑤聚类结果可能不平衡。
8.自组织映射具有两个主要特点:!它是一种递增的方法,即所有的数据点是逐一进行处理的;"它能将聚类中心点映射到一个二维的平面上,从而实现可视化。
9.在基于进化理论的聚类方法中,模拟退火的应用经常使用到微扰因子,其作用等同于把一个点从当前的聚类重新分配到一个随机选择的新类别中。
10.遗传算法也可以用于聚类处理,它主要通过选择、交叉和变异这三种遗传算子的运算以不断优化可选方案从而得到最终的聚类结果。
11.对高维数据聚类的困难主要来源于以下两个因素:!高维属性空间中那些无关属性的出现使得数据失去了聚类趋
势;"高维使数据之间的区分界限变得模糊。除了降维这一最直接的方法之外,对高维数据的聚类处理还包括子空间聚类以及联合聚类技术等。
12.子空间聚类的思想,它基于对原始空间在二维平面上的一个投影处理。
13.联合聚类对数据点和它们的属性同时进行聚类。
相关文章推荐
- 书评:《算法之美( Algorithms to Live By )》
- 动易2006序列号破解算法公布
- C#递归算法之分而治之策略
- Ruby实现的矩阵连乘算法
- C#插入法排序算法实例分析
- C#算法之大牛生小牛的问题高效解决方法
- C#算法函数:获取一个字符串中的最大长度的数字
- 超大数据量存储常用数据库分表分库算法总结
- C#数据结构与算法揭秘二
- C#冒泡法排序算法实例分析
- 算法练习之从String.indexOf的模拟实现开始
- C#算法之关于大牛生小牛的问题
- C#实现的算24点游戏算法实例分析
- 经典排序算法之冒泡排序(Bubble sort)代码
- c语言实现的带通配符匹配算法
- 浅析STL中的常用算法
- 算法之排列算法与组合算法详解
- C++实现一维向量旋转算法
- Ruby实现的合并排序算法
- C#折半插入排序算法实现方法