数据清洗及OpenRefine工具
2017-09-11 17:40
141 查看
数据分析中,首先要进行数据清洗,才可以继续训练模型,预测等操作。
首先介绍一下什么是数据清洗
数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,过滤。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。
残缺数据:通过算法KNN,回归,判定树分析,填补上残缺的数据。
错误数据:主要是噪声数据。通过聚类,回归,分箱等手段剔除孤立点;还可以通过数据特征分布,剔除脱离分布的噪声数据。
重复数据:剔除相似度大于阈值的数据。
OpenRefine是一款非常强大的数据清洗工具,不过LZ还不知道它是怎么用的,哈哈,学习中。
首先介绍一下什么是数据清洗
数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,过滤。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。
残缺数据:通过算法KNN,回归,判定树分析,填补上残缺的数据。
错误数据:主要是噪声数据。通过聚类,回归,分箱等手段剔除孤立点;还可以通过数据特征分布,剔除脱离分布的噪声数据。
重复数据:剔除相似度大于阈值的数据。
OpenRefine是一款非常强大的数据清洗工具,不过LZ还不知道它是怎么用的,哈哈,学习中。
相关文章推荐
- 数据清洗工具OpenRefine
- 机器学习:数据清洗及工具OpenRefine
- 数据清洗工具OpenRefine
- OpenRefine 数据清洗工具
- 数据清洗工具OpenRefine
- 数据清洗工具kettle
- 数据清洗小工具及技巧
- StreamSets数据操作平台(数据移动及数据清洗强大工具)-第一篇
- StreamSets数据操作平台(数据移动及数据清洗强大工具)-第二篇
- cmd命令执行的数据清洗工具
- etlpy: 并行爬虫和数据清洗工具(开源)
- StreamSets数据操作平台(数据移动及数据清洗强大工具)-介绍
- 数据抽取清洗转换加载工具ETL
- Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗
- sas数据读取详解:SAS读取小工具,读取数值类型的注意事项,lrecl选项,四种读取数据方式以及数据指针的位置、读取mess data的、infile语句及其选项(dsd dlm missover truncover obs firstobs)、proc import、自定义缺失值
- 转:数据挖掘流程及主流工具
- Linux上最优秀的数据恢复工具
- js前端数据验证JS工具
- 关于数据仓库 — 总体工具介绍
- Linux下图形接口数据抓包工具——wireshark