您的位置：首页 > 运维架构

机器学习：数据清洗及工具OpenRefine

2016-04-11 14:28 615 查看

　　数据分析中，首先要进行数据清洗，才可以继续训练模型，预测等操作。

　　首先介绍一下什么是数据清洗（定义来自百度百科，有删减）

　　数据清洗从名字上也看的出就是把“脏”的“洗掉”，指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。我们要按照一定的规则把“脏数据”“洗掉”，这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据，过滤。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。

　　残缺数据：通过算法KNN,回归，判定树分析，填补上残缺的数据。

　　错误数据：主要是噪声数据。通过聚类，回归，分箱等手段剔除孤立点；还可以通过数据特征分布，剔除脱离分布的噪声数据。

　　重复数据：剔除相似度大于阈值的数据。

　　下面就介绍一款数据清洗的工具OpenRefine

OpenRefine 下载地址：　　https://github.com/OpenRefine/OpenRefine

OpenRefine 教程下载地址：　　 http://download.csdn.net/detail/gattaca2011/6940325
转置请注明出处：http://www.cnblogs.com/rongyux/

后续更新中。。。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航