您的位置：首页 > 其它

读书笔记《数据挖掘概念与技术》第2章数据预处理 2.1 为什么要预处理数据

2008-08-02 19:02 309 查看

《数据挖掘：概念与技术（原书第2版）》

第2章数据预处理

Ø 有大量数据预处理技术。数据清理可以去掉数据中的噪音，纠正不一致。数据集成将数据由多个源合并成一致的数据存储，如数据仓库。数据变换（如规范化）也可以使用。例如，规范化可以改进涉及距离度量的挖掘算法的精度和有效性。数据归约可以通过聚集、删除冗余特征或聚类等方法来压缩数据。这些技术不是互斥的，可以一起使用。这些数据处理技术在数据挖掘之前使用，可以大大提高数据挖掘模式的质量，降低实际挖掘所需要的时间。
2.1 为什么要预处理数据
[align=left]Ø 存在不完整的、含噪音的和不一致的数据是大型的、现实世界数据库或数据仓库的共同特点。[/align]
[align=left]Ø 不完整数据的出现可能有多种原因。有些感兴趣的属性，如销售事务数据中顾客的信息，并非总是可用的。其它数据没有包含在内，可能只是因为输入时认为是不重要的。相关数据没有记录是由于理解错误，或者因为设备故障。此外，记录历史或修改的数据可能被忽略。与其它数据不一致的数据可以删除。遗漏的数据，特别是某些属性上缺少值的元组可能需要推导出来。[/align]
[align=left]Ø 数据含噪音（具有不正确的属性值）可能有多种原因。收集数据的设备可能出故障；人的或计算机的错误可能在数据输入时出现；数据传输中的错误也可能出现。这些可能是由于技术的限制，如用于数据传输同步的缓冲区大小的限制。不正确的数据也可能是由命名或所用的数据代码不一致而导致的。重复元组也需要数据清理。[/align]
[align=left]Ø 数据清理例程通过填写缺失的值、光滑噪音数据、识别或删除离群点，并解决不一致性来“清理”数据[/align]
[align=left]Ø 假定你想在你的分析中包含来自多个数据源的数据。这涉及集成多个数据库、数据方或文件，即数据集成。代表同一概念的属性在不同的数据库中可能具有不同的名字，这又导致不一致性和冗余。[/align]
[align=left]Ø 数据变换操作，如规格化和聚集，是导向挖掘过程成功的预处理过程。[/align]
[align=left]Ø 数据归约得到数据集的压缩表示，它小得多，但能够产生同样的（或几乎同样的）分析结果。有许多数据归约策略，包括数据聚集（例如，建立数据立方体）、属性子集选择（例如，通过相关分析去掉不相关的属性）、维度归约（例如，使用诸如最小长度编码或小波等编码方案）和数值归约（例如，使用聚类或参数模型等较小的表示“ 替换”数据）。使用概念分层泛化也可以“归约”数据。泛化用较高层的概念替换较低层的概念；例如，用地区或省/州替换城市。概念分层将概念组织在不同的抽象层。[/align]

[align=left]Ø 图2-1数据预处理的形式。概言之，现实世界的数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量，从而有助于提高其后的挖掘过程的精度和性能。由于高质量的决策必然依赖于高质量的数据，因此数据预处理是知识发现过程的重要步骤。检测数据异常、尽早地调整数据，并归约待分析的数据，将在决策制定时得到高回报。[/align]

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.1 为什么要预处理数据

读书笔记《数据挖掘概念与技术》第2章数据预处理 2.1 为什么要预处理数据