R语言|数据预处理--5异常值分析及处理
2016-10-04 15:40
381 查看
数据集接《3缺失值离群点处理》中2
1、异常值分析及处理
#获取月收入的异常值
out <-boxplot.stats(traindata$x5)
boxplot(traindata$x5)
# which(traindata$x5%in% out)
# traindata1 <-traindata[-which(traindata$x5 %in% out)]
#boxplot(traindata1$x5)
#首先对于x2变量,即客户的年龄,我们可以定量分析,发现有以下值
unique(traindata$x2)
#可以看到年龄中存在0值,显然是异常值,予以剔除。
traindata <-traindata[-which(traindata$x2==0), ]
#对于x3,x7,x9三个变量,由下面的箱线图可以看出,均存在异常值,且由unique函数可以得知均存在96、98两个异常值,因此予以剔除。同时会发现剔除其中一个变量的96、98值,其他变量的96、98两个值也会相应被剔除
unique(traindata$x3)
traindata <-traindata[-which(traindata$x3 %in% c(96, 98)), ]
unique(traindata$x7)
traindata <-traindata[-which(traindata$x7 %in% c(96, 98)), ]
#当把x3和x7中的异常值删除后,x9中的异常值也被删除了
unique(traindata$x9)
2、离群点
1)、检测方法:boxplot(箱线图)和k-means检测
2)、处理方法:①与该领域专家研究确定,可能属于正常情况,此时应保留这些值;②可能是离群点,在建模时删除这些值;③数据重构不需要删除离群点,使用记录中的均值或中位数进行替换。
1、异常值分析及处理
#获取月收入的异常值
out <-boxplot.stats(traindata$x5)
boxplot(traindata$x5)
# which(traindata$x5%in% out)
# traindata1 <-traindata[-which(traindata$x5 %in% out)]
#boxplot(traindata1$x5)
#首先对于x2变量,即客户的年龄,我们可以定量分析,发现有以下值
unique(traindata$x2)
#可以看到年龄中存在0值,显然是异常值,予以剔除。
traindata <-traindata[-which(traindata$x2==0), ]
#对于x3,x7,x9三个变量,由下面的箱线图可以看出,均存在异常值,且由unique函数可以得知均存在96、98两个异常值,因此予以剔除。同时会发现剔除其中一个变量的96、98值,其他变量的96、98两个值也会相应被剔除
unique(traindata$x3)
traindata <-traindata[-which(traindata$x3 %in% c(96, 98)), ]
unique(traindata$x7)
traindata <-traindata[-which(traindata$x7 %in% c(96, 98)), ]
#当把x3和x7中的异常值删除后,x9中的异常值也被删除了
unique(traindata$x9)
2、离群点
1)、检测方法:boxplot(箱线图)和k-means检测
2)、处理方法:①与该领域专家研究确定,可能属于正常情况,此时应保留这些值;②可能是离群点,在建模时删除这些值;③数据重构不需要删除离群点,使用记录中的均值或中位数进行替换。
相关文章推荐
- EEGLAB数据分析:预处理与后续处理
- 第五篇:数据预处理(二) - 异常值处理
- 数据预处理之缺失值、异常值处理
- R语言︱异常值检验、离群点分析、异常值处理
- 《数据挖掘与商务分析R语言》-1-数据预处理-R语言-Lattice包-条形图
- R语言|数据预处理--4变量分析及相关性
- 数据分析中缺失值处理~R语言
- 数据分析预处理的方法——SPSS、Clementine如何处理缺失值、离群值、极值?
- R语言|数据预处理--3缺失值离群点处理
- 数据分析处理库Pandas-数据预处理
- EEGLAB数据分析:预处理与后续处理
- R语言︱异常值检验、离群点分析、异常值处理
- R语言-数据预处理的一些实用(万能)办法:缺失值、数据重复、共线性等等的处理
- R语言︱处理缺失数据&&异常值检验、离群点分析、异常值处理
- 网络数据流接收处理过程分析
- Scott Mitchell 的ASP.NET 2.0数据教程之三十八:: 处理BLL和DAL的异常
- Scott Mitchell 的ASP.NET 2.0数据教程之十八:: 在ASP.NET页面中处理BLL/DAL层的异常
- libnids-1.21 中 IP 分片重组分析 之数据结构与处理流程
- Scott Mitchell 的ASP.NET 2.0数据教程之十八:: 在ASP.NET页面中处理BLL/DAL层的异常
- JAVA编程中异常问题处理方式的区别和分析