R语言学习(二)
2018-01-11 01:38
120 查看
Data<-read.table(‘文件名’,header=TRUE,sep=’\t’),header第一行是否用做列名称,sep指定字符的分隔符号
x1<-subset(Data,Class.ID=="1"),找出Data中列标题Class.ID值为1的所有项
x<-seq(-9,9,length.out=20),从-9到9之间岁随机取20个数
mean()求均值 sd()求标准差 order()排序 union(x,y)并集运算 intersect(x,y)交集运算 min()最小值 max()最大值 median()中位数 cut(a[,1],10)将a中第一列数均分成10份,并统计每份个数 quantile(a,na.rm=TRUE)计算a的四分位数
getmode <- function(v) {
uniqv <- unique(v)
uniqv[which.max(tabulate(match(v, uniqv)))]
}求众数
library(futile.logger) 绘制维恩图
lenA<-length(female_set)
lenB<-length(male_set)
lenAB<-length(intersect(female_set,male_set))
draw.pairwise.venn(area1=lenA,area2=lenB,cross.area=lenAB,category=c('A','B'),lwd=rep(1,1),lty=rep(2,2),col=c('red','green'),fill=c('red','green'),cat.col=c('red','green'))
hist(b,freq=F,breaks=100)直方图
curve(dnorm(x,mean(b,na.rm=TRUE),sd(b,na.rm=TRUE)),xlim=c(x1,x2),col="red",lwd=3,add=TRUE)概率密度图
boxplot()箱型图
两两组合绘制散点图和拟合曲线,从总体上看看不同变量之间的关联:
pairs(data[,4:16],panel=panel.smooth)
barplot(t(freq),beside=T,col=rainbow(5))频数图,besides=T 时,单列数据中的每个值没有堆积起来,相邻排列,众坐标显示的每个数值。
理想中的线性模型各个自变量应该是线性无关的,若自变量间存在共线性,则会降低回归系数的准确性。一般用方差膨胀因子VIF来衡量共线性,《R语言实战》中认为VIF大于4则存在共线性。理想中的线性模型VIF=1,表完全不存在共线性。
library(car)
vif(lm.step)
检查离群点、高杠杆点、强影响点,保存屏幕反馈结果(如果有的话)和统计图:纵坐标超过+2或小于-2的点可被认为是离群点,水平轴超过0.2或0.3的就是高杠杆值(通常为预测值的组合)。圆圈大小与影响成比例,圆圈很大的点可能是对模型参数的估计造成的不成比例影响的强影响点。
library(car)
influencePlot(lm.step,id.method = "identity", main="Influence Plot",sub="Circle size is proportional to Cook's distance")
x1<-subset(Data,Class.ID=="1"),找出Data中列标题Class.ID值为1的所有项
x<-seq(-9,9,length.out=20),从-9到9之间岁随机取20个数
mean()求均值 sd()求标准差 order()排序 union(x,y)并集运算 intersect(x,y)交集运算 min()最小值 max()最大值 median()中位数 cut(a[,1],10)将a中第一列数均分成10份,并统计每份个数 quantile(a,na.rm=TRUE)计算a的四分位数
getmode <- function(v) {
uniqv <- unique(v)
uniqv[which.max(tabulate(match(v, uniqv)))]
}求众数
library(futile.logger) 绘制维恩图
lenA<-length(female_set)
lenB<-length(male_set)
lenAB<-length(intersect(female_set,male_set))
draw.pairwise.venn(area1=lenA,area2=lenB,cross.area=lenAB,category=c('A','B'),lwd=rep(1,1),lty=rep(2,2),col=c('red','green'),fill=c('red','green'),cat.col=c('red','green'))
hist(b,freq=F,breaks=100)直方图
curve(dnorm(x,mean(b,na.rm=TRUE),sd(b,na.rm=TRUE)),xlim=c(x1,x2),col="red",lwd=3,add=TRUE)概率密度图
boxplot()箱型图
两两组合绘制散点图和拟合曲线,从总体上看看不同变量之间的关联:
pairs(data[,4:16],panel=panel.smooth)
barplot(t(freq),beside=T,col=rainbow(5))频数图,besides=T 时,单列数据中的每个值没有堆积起来,相邻排列,众坐标显示的每个数值。
理想中的线性模型各个自变量应该是线性无关的,若自变量间存在共线性,则会降低回归系数的准确性。一般用方差膨胀因子VIF来衡量共线性,《R语言实战》中认为VIF大于4则存在共线性。理想中的线性模型VIF=1,表完全不存在共线性。
library(car)
vif(lm.step)
检查离群点、高杠杆点、强影响点,保存屏幕反馈结果(如果有的话)和统计图:纵坐标超过+2或小于-2的点可被认为是离群点,水平轴超过0.2或0.3的就是高杠杆值(通常为预测值的组合)。圆圈大小与影响成比例,圆圈很大的点可能是对模型参数的估计造成的不成比例影响的强影响点。
library(car)
influencePlot(lm.step,id.method = "identity", main="Influence Plot",sub="Circle size is proportional to Cook's distance")
相关文章推荐
- R语言学习1--基本操作及创建数据集
- R语言学习笔记-变量重命名
- R语言学习笔记:简单的回归分析
- R语言学习笔记(二)
- R语言学习-对象处理实用函数
- R语言学习六
- R语言学习-问题解决-reached getOption("max.print")
- R语言学习-交集和并集
- R语言学习:数据结构6-缺失值
- R语言学习路线图
- R语言学习笔记(8)
- R语言学习-set.seed()
- R语言学习七
- 二进制学习差分进化算法(BLDE)的R语言实现
- R语言学习笔记:数据的可视化
- R语言学习笔记-Error in ts(x):对象不是矩阵问题解决
- R语言学习笔记之: 论如何正确把EXCEL文件喂给R处理
- R语言:保存输出图形为pdf文件 备注:学习备忘
- R语言学习笔记
- R语言学习路线和常用数据挖掘包(转)