您的位置:首页 > 其它

《数据挖掘:概念与技术》-第3章:数据预处理

2017-02-21 21:45 253 查看

预处理目的:

数据要得以应用,必须是高质量的。高质量包括以下6点:

1. 准确性

2. 完整性

3. 一致性

4. 时效性

5. 可信性

6. 可解释性

数据处理的步骤:

数据清理:消除噪音,纠正不一致。

数据集成:不同数据源合并一个,数据仓库。

数据规约:聚集和删除冗余,降低数据规模。

数据变换:数据压缩(映射)较小的区间。

数据清理

造成数据不准确、不完整、不一致的原因:

eg.

不准确:比如用户填写数据故意填错。

不完整:比如采集器故障,不能上传数据。

不一致:上传的数据格式不一致。

不完整:缺少属性值

噪音:错误或者偏离期望的值

填充缺失值、光滑噪音、识别离散群、纠正数据一致性。

最优的方法:回归、贝叶斯
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: