您的位置：首页 > 其它

MS聚类分析算法

2017-07-08 17:06 239 查看

MS聚类分析算法

它是一种“分段”或“聚类”算法，以将示例分组到包含相似特征的分类中。

它首先标识数据集中的关系，并根据这些关系来生成一系列分类，可以设置MiniMum_Support（分类的最小支持量）和Cluster_Count（大致分类数）来限制分类的数量

它有两种分类算法，通过clustering_method属性来设置

3.1. K-means算法，每个数据点只属于一个分类

3.2. EM算法（默认），每个数据点属于多个分类

决策树与聚类算法的区别

4.1. 决策树：是以目标为导向，分析各属性及其值对目标的影响度来逐步生成决策树的，它最重要的作用是获取输入对输出的想象力的排序。

4.2. 聚类：是根据各属性间的关系来对数据进行分类，它最重要的作用是获取各个群体的共有属性

决策树模型所需数据

5.1. 单键列：数据的主键，不允许复合键

5.2. 输入列：要输入到算法里的数据列，可为离散或连续类型

5.3. 可预测列：输出，要预测的结果（方向）

建立聚类算法挖掘结构

6.1. 参照决策树算法挖掘结构的建立，除了算法不一样，其它的在向导中都一样

6.2. 打开“挖掘模型”-》右键“MicroSoft_Clustering”算法-》设置算法参数-》将“Clustering_Count”设置为8，意思是大致分成8个分类

查看——挖掘模型查看器

7.1. 分类关系图：可以看到算法计算出的分类，和分类间的关系，以及关系的强弱-》上方的“明暗度”就是属性-》“状态”就是属性的值-》网点的颜色越深表示该字段该值的发生概率越高-》可以重命名各分类

7.2. 分类剖面图：可以看到各个分类的各个属性特征-》点击分类下的方框可以通过图例查看特征的详细情况-》上面是该分类下该属性值的分布情况，下面是该分类的总体特征（也就是筛选条件）

7.3. 分类特征：可以看到该分类下，各个属性和属性值的发生概率，以此来观察分类的特征情况

7.4. 分类对比：可以对比两个分类下各属性及属性值的差异

查看——挖掘准确性图表，参考决策树的准确性图表

参考图

9.1. 生成的分类关系图，可以看到，在属性为isBuyer，属性值为1（购买）的情况下，分类5的购买概率为64%

9.2. 分类剖面图，再来看看分类5的详细群体特征，女性，年龄33-53，入会方式巴拉巴拉，就是我们的优秀会员了

以此特征，我们可以观察到，女性，年龄33-53的人群，是我们购物中心的可能的优质客户，所以在推广上，我们是否应该向此类人群倾斜呢？这是聚类算法带给我们的启示

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 算法

相关文章推荐

新的分享

章节导航