常用聚类算法以及算法评价
2016-07-24 17:02
381 查看
聚类模型是一种非监督的学习方法,聚类的输入是一组未标记的数据,聚类模型根据自身的距离或相似性将其化为若干组,划分的原则是组内距离最小化而组间距离最大化。常见聚类方法见下表:
聚类分析算法评价:
聚类分析目标是实现组内相似性高,组间相似性低。组内相似性越大,组间相似性越大,聚类效果越好。
purity评价法
purity评价法相对简单,只需计算正确聚类数目占总数的比例。
purity(X,Y)=1n∑max|xk⋂yk|
RI评价法
RI=R+WR+M+D+W
R:应该在一起的两个对象被正确分类了
W:不应该被聚在一类的两个对象被正确分开了
M:不该放在一类的对象被错误的放在了一类
D:不应该分开的对象被错误的分开了
F值评价法
RI方法的衍生方法:
Fa =(1+α2)prα2p+r,
其中,p=RR+M,r=RR+D.
实际上,RI方法就是把准确率p和召回率看得同等重要。事实上,有时我们需要某一特性更多一点,这时候就适合使用F值方法。
类别 | 主要算法 |
---|---|
划分方法 | k-Means,k-Medoids(k中心点),CLANRANS(基于选择的算法) |
层次分析方法 | BIRCH(平均迭代规约和聚类),CURE(代表点聚类),CHAMELEON(动态模型) |
基于密度的方法 | DBSCAN(高密度连接区域),DENCLUE(密度分布函数),OPTICS(对象排序识别) |
基于网格的方法 | STING(统计信息网络),SLIOUE(聚类高维空间),WAVE-CLUSTER(小波变化) |
基于模型的方法 | 统计学,神经网络 |
聚类分析目标是实现组内相似性高,组间相似性低。组内相似性越大,组间相似性越大,聚类效果越好。
purity评价法
purity评价法相对简单,只需计算正确聚类数目占总数的比例。
purity(X,Y)=1n∑max|xk⋂yk|
RI评价法
RI=R+WR+M+D+W
R:应该在一起的两个对象被正确分类了
W:不应该被聚在一类的两个对象被正确分开了
M:不该放在一类的对象被错误的放在了一类
D:不应该分开的对象被错误的分开了
F值评价法
RI方法的衍生方法:
Fa =(1+α2)prα2p+r,
其中,p=RR+M,r=RR+D.
实际上,RI方法就是把准确率p和召回率看得同等重要。事实上,有时我们需要某一特性更多一点,这时候就适合使用F值方法。
相关文章推荐
- Sublime Text 默认是没有显示或隐藏行号的快捷键
- 数论基础1011 UVA 11754 剩余定理+枚举
- linux从入门到高手的学习书籍整理
- Android 6.0中添加硬件抽象层(HAL)
- Java的初始化块、静态初始化块、构造函数的执行顺序及用途探究
- 代码审计的艺术系列—第三篇
- 全局获取Context
- WPF报表
- IO流以日志文件记录异常
- hdu 5726 2016 Multi-University Training Contest 1(二分+dp)
- 深入浅出看流媒体前世今生,分分钟二逼变牛逼
- Python 之 pickle/json序列化
- 安全卫士 主界面 适配器ada的优化
- win10安装oracle 11g 时出现INS-13001环境不满足最低要求
- Java异常处理-----运行时异常(RuntimeException)
- Java异常处理-----运行时异常(RuntimeException)
- 【C++ 与 STL】集合:set
- Leetcode 107. Binary Tree Level Order Traversal II (Easy) (cpp)
- 【杭电 1222】Wolf and Rabbit
- [hdu 2896] 病毒侵袭 [ac自动机][病毒特征码匹配]