MS聚类分析算法
2017-07-08 17:06
239 查看
MS聚类分析算法
它是一种“分段”或“聚类”算法,以将示例分组到包含相似特征的分类中。
它首先标识数据集中的关系,并根据这些关系来生成一系列分类,可以设置MiniMum_Support(分类的最小支持量)和Cluster_Count(大致分类数)来限制分类的数量
它有两种分类算法,通过clustering_method属性来设置
3.1. K-means算法,每个数据点只属于一个分类
3.2. EM算法(默认),每个数据点属于多个分类
决策树与聚类算法的区别
4.1. 决策树:是以目标为导向,分析各属性及其值对目标的影响度来逐步生成决策树的,它最重要的作用是获取输入对输出的想象力的排序。
4.2. 聚类:是根据各属性间的关系来对数据进行分类,它最重要的作用是获取各个群体的共有属性
决策树模型所需数据
5.1. 单键列:数据的主键,不允许复合键
5.2. 输入列:要输入到算法里的数据列,可为离散或连续类型
5.3. 可预测列:输出,要预测的结果(方向)
建立聚类算法挖掘结构
6.1. 参照决策树算法挖掘结构的建立,除了算法不一样,其它的在向导中都一样
6.2. 打开“挖掘模型”-》右键“MicroSoft_Clustering”算法-》设置算法参数-》将“Clustering_Count”设置为8,意思是大致分成8个分类
查看——挖掘模型查看器
7.1. 分类关系图:可以看到算法计算出的分类,和分类间的关系,以及关系的强弱-》上方的“明暗度”就是属性-》“状态”就是属性的值-》网点的颜色越深表示该字段该值的发生概率越高-》可以重命名各分类
7.2. 分类剖面图:可以看到各个分类的各个属性特征-》点击分类下的方框可以通过图例查看特征的详细情况-》上面是该分类下该属性值的分布情况,下面是该分类的总体特征(也就是筛选条件)
7.3. 分类特征:可以看到该分类下,各个属性和属性值的发生概率,以此来观察分类的特征情况
7.4. 分类对比:可以对比两个分类下各属性及属性值的差异
查看——挖掘准确性图表,参考决策树的准确性图表
参考图
9.1. 生成的分类关系图,可以看到,在属性为isBuyer,属性值为1(购买)的情况下,分类5的购买概率为64%
9.2. 分类剖面图,再来看看分类5的详细群体特征,女性,年龄33-53,入会方式巴拉巴拉,就是我们的优秀会员了
以此特征,我们可以观察到,女性,年龄33-53的人群,是我们购物中心的可能的优质客户,所以在推广上,我们是否应该向此类人群倾斜呢?这是聚类算法带给我们的启示
它是一种“分段”或“聚类”算法,以将示例分组到包含相似特征的分类中。
它首先标识数据集中的关系,并根据这些关系来生成一系列分类,可以设置MiniMum_Support(分类的最小支持量)和Cluster_Count(大致分类数)来限制分类的数量
它有两种分类算法,通过clustering_method属性来设置
3.1. K-means算法,每个数据点只属于一个分类
3.2. EM算法(默认),每个数据点属于多个分类
决策树与聚类算法的区别
4.1. 决策树:是以目标为导向,分析各属性及其值对目标的影响度来逐步生成决策树的,它最重要的作用是获取输入对输出的想象力的排序。
4.2. 聚类:是根据各属性间的关系来对数据进行分类,它最重要的作用是获取各个群体的共有属性
决策树模型所需数据
5.1. 单键列:数据的主键,不允许复合键
5.2. 输入列:要输入到算法里的数据列,可为离散或连续类型
5.3. 可预测列:输出,要预测的结果(方向)
建立聚类算法挖掘结构
6.1. 参照决策树算法挖掘结构的建立,除了算法不一样,其它的在向导中都一样
6.2. 打开“挖掘模型”-》右键“MicroSoft_Clustering”算法-》设置算法参数-》将“Clustering_Count”设置为8,意思是大致分成8个分类
查看——挖掘模型查看器
7.1. 分类关系图:可以看到算法计算出的分类,和分类间的关系,以及关系的强弱-》上方的“明暗度”就是属性-》“状态”就是属性的值-》网点的颜色越深表示该字段该值的发生概率越高-》可以重命名各分类
7.2. 分类剖面图:可以看到各个分类的各个属性特征-》点击分类下的方框可以通过图例查看特征的详细情况-》上面是该分类下该属性值的分布情况,下面是该分类的总体特征(也就是筛选条件)
7.3. 分类特征:可以看到该分类下,各个属性和属性值的发生概率,以此来观察分类的特征情况
7.4. 分类对比:可以对比两个分类下各属性及属性值的差异
查看——挖掘准确性图表,参考决策树的准确性图表
参考图
9.1. 生成的分类关系图,可以看到,在属性为isBuyer,属性值为1(购买)的情况下,分类5的购买概率为64%
9.2. 分类剖面图,再来看看分类5的详细群体特征,女性,年龄33-53,入会方式巴拉巴拉,就是我们的优秀会员了
以此特征,我们可以观察到,女性,年龄33-53的人群,是我们购物中心的可能的优质客户,所以在推广上,我们是否应该向此类人群倾斜呢?这是聚类算法带给我们的启示
相关文章推荐
- 聚类分析中几种算法的比较
- 《BI那点儿事》Microsoft 顺序分析和聚类分析算法
- 数据挖掘算法之聚类分析(二)canopy算法
- 模式识别学习笔记[2]——聚类分析之系统聚类法,k-均值算法
- 数据挖掘-聚类分析:k-平均(k-Means)算法实现(C++)
- 聚类分析中几种算法的比较
- 数据挖掘算法之聚类分析(三)朴素贝叶斯算法
- 基于.NET实现数据挖掘--顺序分析与聚类分析算法
- 数据挖掘算法--聚类分析
- mahout运行测试与数据挖掘算法之聚类分析(一)kmeans算法解析
- 大数据学习笔记之三十八 数据挖掘算法之聚类分析
- 《BI那点儿事》Microsoft 聚类分析算法——三国人物身份划分
- 聚类分析算法Python3.6实践K均值聚类(K-means)
- mahout运行测试与数据挖掘算法之聚类分析(一)kmeans算法解析
- [转载] 大数据常用的算法(分类、回归分析、聚类、关联规则)
- 《BI那点儿事》Microsoft 聚类分析算法——三国人物身份划分
- 聚类分析笔记-K均值matlab算法(一)
- 基于微软案例数据挖掘之Microsoft 顺序分析和聚类分析算法
- 图像处理中聚类分析算法---C均值算法实现
- 聚类分析之模糊C均值算法核心思想