您的位置:首页 > 其它

R语言学习(二)

2018-01-11 01:38 120 查看
Data<-read.table(‘文件名’,header=TRUE,sep=’\t’),header第一行是否用做列名称,sep指定字符的分隔符号

x1<-subset(Data,Class.ID=="1"),找出Data中列标题Class.ID值为1的所有项
x<-seq(-9,9,length.out=20),从-9到9之间岁随机取20个数

mean()求均值 sd()求标准差 order()排序 union(x,y)并集运算 intersect(x,y)交集运算 min()最小值 max()最大值 median()中位数 cut(a[,1],10)将a中第一列数均分成10份,并统计每份个数 quantile(a,na.rm=TRUE)计算a的四分位数

getmode <- function(v) {

uniqv <- unique(v)

uniqv[which.max(tabulate(match(v, uniqv)))]
}求众数

library(futile.logger) 绘制维恩图

lenA<-length(female_set)

lenB<-length(male_set)

lenAB<-length(intersect(female_set,male_set))

draw.pairwise.venn(area1=lenA,area2=lenB,cross.area=lenAB,category=c('A','B'),lwd=rep(1,1),lty=rep(2,2),col=c('red','green'),fill=c('red','green'),cat.col=c('red','green'))

hist(b,freq=F,breaks=100)直方图 

curve(dnorm(x,mean(b,na.rm=TRUE),sd(b,na.rm=TRUE)),xlim=c(x1,x2),col="red",lwd=3,add=TRUE)概率密度图

boxplot()箱型图

两两组合绘制散点图和拟合曲线,从总体上看看不同变量之间的关联:

pairs(data[,4:16],panel=panel.smooth)

barplot(t(freq),beside=T,col=rainbow(5))频数图,besides=T 时,单列数据中的每个值没有堆积起来,相邻排列,众坐标显示的每个数值。

理想中的线性模型各个自变量应该是线性无关的,若自变量间存在共线性,则会降低回归系数的准确性。一般用方差膨胀因子VIF来衡量共线性,《R语言实战》中认为VIF大于4则存在共线性。理想中的线性模型VIF=1,表完全不存在共线性。

library(car)

vif(lm.step)

检查离群点、高杠杆点、强影响点,保存屏幕反馈结果(如果有的话)和统计图:纵坐标超过+2或小于-2的点可被认为是离群点,水平轴超过0.2或0.3的就是高杠杆值(通常为预测值的组合)。圆圈大小与影响成比例,圆圈很大的点可能是对模型参数的估计造成的不成比例影响的强影响点。

library(car)

influencePlot(lm.step,id.method = "identity", main="Influence Plot",sub="Circle size is proportional to Cook's distance")
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: