《数据挖掘:概念与技术》-第3章:数据预处理
2017-02-21 21:45
253 查看
预处理目的:
数据要得以应用,必须是高质量的。高质量包括以下6点:1. 准确性
2. 完整性
3. 一致性
4. 时效性
5. 可信性
6. 可解释性
数据处理的步骤:
数据清理:消除噪音,纠正不一致。数据集成:不同数据源合并一个,数据仓库。
数据规约:聚集和删除冗余,降低数据规模。
数据变换:数据压缩(映射)较小的区间。
数据清理
造成数据不准确、不完整、不一致的原因:eg.
不准确:比如用户填写数据故意填错。
不完整:比如采集器故障,不能上传数据。
不一致:上传的数据格式不一致。
不完整:缺少属性值
噪音:错误或者偏离期望的值
填充缺失值、光滑噪音、识别离散群、纠正数据一致性。
最优的方法:回归、贝叶斯
相关文章推荐
- 数据挖掘概念与技术 第3章 数据预处理
- 【读书笔记-数据挖掘概念与技术】数据预处理
- 【数据挖掘概念与技术】学习笔记3-数据预处理
- 数据挖掘概念与技术(第一章)
- 数据挖掘概念与技术 第一章
- 【读书笔记-数据挖掘概念与技术】数据预处理
- 数据挖掘:数据立方体技术的基本概念及计算的一般策略
- 数据挖掘:概念与技术 学习笔记 第一章
- 数据挖掘技术(一)预处理
- 数据挖掘技术(一)——预处理
- 【读书笔记-数据挖掘概念与技术】挖掘频繁模式、关联和相关性:基本概念和方法
- 【读书笔记-数据挖掘概念与技术】高级模式挖掘
- 数据挖掘:概念与技术
- 【数据挖掘概念与技术】学习笔记1-引论
- 数据挖掘概念和技术读书笔记2
- 《数据挖掘——概念和技术》笔记之数据预处理
- 数据挖掘概念与技术学习笔记(1)
- 【数据挖掘概念与技术】学习笔记4-数据仓库与联机分析处理
- [在职软件工程]数据挖掘-概念与技术
- 【读书笔记-数据挖掘概念与技术】数据立方体技术