第五篇:数据预处理(二) - 异常值处理
2017-05-20 20:32
239 查看
前言
数据中如果有某个值偏离该列其他值比较离谱,那么就有可能是一个异常的值。在数据预处理中,自然需要把这个异常值检测出来,然后剔除掉,或者光滑掉,或者其他各种方法进行处理。需要注意的是,本文仅介绍最为基础的单维度异常检测及处理方法,而在实际应用中更多用到的是多维度异常检测,这部分得到时结合具体项目学习。
异常值处理
1. 安装并导入包outliers并加载。2. 生成一组用于测试的数据集(本例采用随机生成):
![](https://images2015.cnblogs.com/blog/903014/201705/903014-20170520202458338-1367117316.png)
![](https://images2015.cnblogs.com/blog/903014/201705/903014-20170520202618197-452848665.png)
outlier计算偏离最远位置的点,它有两个参数:
- opposite:它值为TRUE或者FALSE时分别表示的是两个距离方向的极值点。
- logical:它的值同样为TRUE或者FALSE,分别表示用布尔值表示结果还是具体距离值表示。
4. 处理:
![](https://images2015.cnblogs.com/blog/903014/201705/903014-20170520202710978-201037811.png)
以上代码以每4个元素为单位进行均值光滑。
小结
实际项目中使用的更多是多维的,更高级的距离检测机制。比如异常点的检测还可以采用聚类的方法,落在簇之外的点就是异常点。而且除了光滑,还有很多种异常值方式处理。一般来说和缺失值处理的方法相似,这里就不详细论述了。
相关文章推荐
- R语言|数据预处理--5异常值分析及处理
- 数据预处理之缺失值、异常值处理
- Scott Mitchell 的ASP.NET 2.0数据教程之十八:: 在ASP.NET页面中处理BLL/DAL层的异常
- oracle数据异常处理--抛出特定异常(转)
- gridview导出数据时常见异常的处理
- SDE数据编辑过程中异常中断后产生错误的处理
- 从GridView中直接导出数据到Excel文件 处理导出乱码 类型“GridView”的控件“XXXX”必须放在具有 runat=server 的窗体标记内。”的异常
- DetailsView中如何进行数据验证,如何处理数据库的异常
- 从GridView中直接导出数据到Excel文件 处理导出乱码 类型“GridView”的控件“XXXX”必须放在具有 runat=server 的窗体标记内。”的异常
- 从GridView中直接导出数据到Excel文件 处理导出乱码 类型“GridView”的控件“XXXX”必须放在具有 runat=server 的窗体标记内。”的异常
- oracle10g- oracle关于数据操作时异常的处理 编写自定义的异常
- Scott Mitchell 的ASP.NET 2.0数据教程之三十八:: 处理BLL和DAL的异常
- Scott Mitchell 的ASP.NET 2.0数据教程之十八:: 在ASP.NET页面中处理BLL/DAL层的异常
- Spring中关于保存数据时重名的处理异常
- JOptionpane.showinputdialog 数据异常 处理
- oracle数据异常处理
- 无法验证数据。执行当前 Web 请求期间,出现未处理的异常。请检查堆栈跟踪信息
- Scott Mitchell 的ASP.NET 2.0数据教程之三十八:: 处理BLL和DAL的异常
- 隐藏DataGridView的数据行时一个异常的处理
- 在使用SSH过程中,在JSP页面中对数据进行处理,出异常!