您的位置：首页 > 其它

聚类算法评价指标

2016-09-10 17:28 1036 查看

一、Not Given Label:

CP计算每一个类各点到聚类中心的平均距离

CP越低意味着类内聚类距离越近

缺点：没有考虑类间效果

SP计算各聚类中心两两之间平均距离

SP越高意味类间聚类距离越远

缺点：没有考虑类内效果

DB计算任意两类别的类内距离平均距离(CP)之和除以两聚类中心距离求最大值

DB越小意味着类内距离越小同时类间距离越大

缺点：因使用欧式距离所以对于环状分布聚类评测很差

DVI计算任意两个簇元素的最短距离(类间)除以任意簇中的最大距离(类内)

DVI越大意味着类间距离越大同时类内距离越小

缺点：对离散点的聚类测评很高、对环状分布测评效果差

CA计算聚类正确的百分比

CA越大证明聚类效果越好

其中C表示实际类别信息，K表示聚类结果，a表示在C与K中都是同类别的元素对数，b表示在C与K中都是不同类别的元素对数

其中

表示数据集中可以组成的对数，RI取值范围为[0,1]，值越大意味着聚类结果与真实情况越吻合。

RI越大表示聚类效果准确性越高同时每个类内的纯度越高

为了实现“在聚类结果随机产生的情况下，指标应该接近零”，调整兰德系数（Adjusted
rand index）被提出，它具有更高的区分度：

ARI取值范围为[−1,1]，值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲，ARI衡量的是两个数据分布的吻合程度。

标准化互聚类信息都是用熵做分母将MI值调整到0与1之间，一个比较多见的实现是下面所示：

1.Fahad
A, Alshatri N, Tari Z, et al. A survey of clustering algorithms for big data: Taxonomy and empirical analysis[J]. IEEE transactions on emerging topics in computing, 2014, 2(3): 267-279.

2.评价指标-简书

3.DSSP聚类评价指标

4.聚类的一些评价手段

5.聚类评价指标 Rand Index,RI,Recall,Precision,F1

6.Evaluation of clustering

7.wiki

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航