R语言做聚类分析Kmeans时确定类的个数
2016-07-25 14:23
891 查看
方法一:
K平均算法(k-means)在下面的误差平方和图中,拐点(bend or elbow)的位置对应的x轴即k-means聚类给出的合适的类的个数。
> n = 100 > g=6 > set.seed(g) > d <- data.frame(x = unlist(lapply(1:g, function(i) rnorm(n/g, runif(1)*i^2))), y = unlist(lapply(1:g, function(i) rnorm(n/g, runif(1)*i^2)))) > plot(d) >
> mydata <- d > > wss <- (nrow(mydata)-1)*sum(apply(mydata,2,var)) > for (i in 2:15) + wss[i] <- sum(kmeans(mydata,centers=i)$withinss) > ###这里的wss(within-cluster sum of squares)是组内平方和 > plot(1:15, wss, type="b", xlab="Number of Clusters",ylab="Within groups sum of squares") >
由上图可以看出,该方法给出合理的类别个数是4个。
方法二:
K中心聚类算法(K-mediods)使用fpc包里的pamk函数来估计类的个数:
> library(cluster) Warning message: 程辑包‘cluster’是用R版本3.2.3 来建造的 > library(fpc) > pamk.best <- pamk(d) > cat("number of clusters estimated by optimum average silhouette width:", pamk.best$nc, "\n") number of clusters estimated by optimum average silhouette width: 4 > plot(pam(d, pamk.best$nc))
sihouette值是用来表示某一个对象和它所属类的凝合力强度以及和其他类分离强度的,值范围为-1到1,值越大表示该对象越匹配所属类以及和邻近类有多不匹配。
所以从上图sihouette plot中可以看出,该方法给出的合理类的个数为4个。
方法三:
基于Calinsky Criterion> require(vegan) 载入需要的程辑包:vegan 载入需要的程辑包:permute 载入需要的程辑包:lattice This is vegan 2.4-0 Warning messages: 1: 程辑包‘vegan’是用R版本3.2.5 来建造的 2: 程辑包‘permute’是用R版本3.2.5 来建造的 3: 程辑包‘lattice’是用R版本3.2.3 来建造的 > fit <- cascadeKM(scale(d, center = TRUE, scale = TRUE), 1, 10, iter = 1000) > plot(fit, sortg = TRUE, grpmts.plot = TRUE) > calinski.best <- as.numeric(which.max(fit$results[2,])) > cat("Calinski criterion optimal number of clusters:", calinski.best, "\n") Calinski criterion optimal number of clusters: 5 >
由上图我们可以看到,根据Calinsky标准,得到类的个数是5个。
方法四:
基于模型假设的聚类,利用的是mclust包:> library(mclust) __ ___________ __ _____________ / |/ / ____/ / / / / / ___/_ __/ / /|_/ / / / / / / / /\__ \ / / / / / / /___/ /___/ /_/ /___/ // / /_/ /_/\____/_____/\____//____//_/ version 5.1 Type 'citation("mclust")' for citing this R package in publications. Warning message: 程辑包‘mclust’是用R版本3.2.4 来建造的 > d_clust <- Mclust(as.matrix(d), G=1:20) > m.best <- dim(d_clust$z)[2] > cat("model-based optimal number of clusters:", m.best, "\n") model-based optimal number of clusters: 4 > plot(d_clust) Model-based clustering plots: 1: BIC 2: classification 3: uncertainty 4: density
方法五:
基于AP算法的聚类> library(apcluster) 载入程辑包:‘apcluster’ The following object is masked from ‘package:stats’: heatmap Warning message: 程辑包‘apcluster’是用R版本3.2.5 来建造的 > d.apclus <- apcluster(negDistMat(r=2), d) > cat("affinity propogation optimal number of clusters:", length(d.apclus@clusters), "\n") affinity propogation optimal number of clusters: 4 > #4 得出的分类个数 > heatmap(d.apclus) > plot(d.apclus, d) >
相关文章推荐
- 你真的理解AIDL中的in,out,inout么?
- 你真的理解AIDL中的in,out,inout么?
- 你真的理解AIDL中的in,out,inout么?
- JAVA 下中文乱码的测试与转换
- 你真的理解AIDL中的in,out,inout么?
- iOS 调起地图App进行导航(百度,高德,系统自带高德)URL API方式
- 你真的理解AIDL中的in,out,inout么?
- 你真的理解AIDL中的in,out,inout么?
- 你真的理解AIDL中的in,out,inout么?
- (一)通用工具之同步队列(sync_queue)
- Oracle中的MD5加密
- 微信开发——微信公众平台实现消息接收以及消息的处理(Java版)
- 20160725
- webrower + CEF
- libevent
- HDU 1698 Just a Hook(线段树区间替换)
- LeetCode 326 Power of Three
- hdu2054A==B(水题)
- SSM框架——详细整合教程(Spring+SpringMVC+MyBatis)
- Android广播之发送广播的源码分析