读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.1 为什么要预处理数据
2008-08-02 19:02
309 查看
《数据挖掘:概念与技术(原书第2版)》
第2章 数据预处理
Ø 有大量数据预处理技术。数据清理可以去掉数据中的噪音,纠正不一致。数据集成将数据由多个源合并成一致的数据存储,如数据仓库。数据变换(如规范化)也可以使用。例如,规范化可以改进涉及距离度量的挖掘算法的精度和有效性。数据归约可以通过聚集、删除冗余特征或聚类等方法来压缩数据。这些技术不是互斥的,可以一起使用。这些数据处理技术在数据挖掘之前使用,可以大大提高数据挖掘模式的质量,降低实际挖掘所需要的时间。
2.1 为什么要预处理数据
[align=left]Ø 存在不完整的、含噪音的和不一致的数据是大型的、现实世界数据库或数据仓库的共同特点。[/align]
[align=left]Ø 不完整数据的出现可能有多种原因。 有些感兴趣的属性,如销售事务数据中顾客的信息,并非总是可用的。其它数据没有包含在内,可能只是因为输入时认为是不重要的。相关数据没有记录是由于理解 错误,或者因为设备故障。此外,记录历史或修改的数据可能被忽略。与其它数据不一致的数据可以删除。遗漏的数据,特别是某些属性上缺少值的元组可能需要推 导出来。[/align]
[align=left]Ø 数据含噪音(具有不正确的属性值)可能有多种原因。收集数据的设备可能出故障;人的或计算机的错误可能在数据输入时出现;数据传输中的错误也可能出现。这些可能是由于技术的限制,如用于数据传输同步的缓冲区大小的限制。不正确的数据也可能是由命名或所用的数据代码不一致而导致的。重复元组也需要数据清理。[/align]
[align=left]Ø 数据清理例程通过填写缺失的值、光滑噪音数据、识别或删除离群点,并解决不一致性来“清理”数据[/align]
[align=left]Ø 假定你想在你的分析中包含来自多个数据源的数据。这涉及集成多个数据库、数据方或文件,即数据集成。代表同一概念的属性在不同的数据库中可能具有不同的名字,这又导致不一致性和冗余。[/align]
[align=left]Ø 数据变换操作,如规格化和聚集,是导向挖掘过程成功的预处理过程。[/align]
[align=left]Ø 数据归约得 到数据集的压缩表示,它小得多,但能够产生同样的(或几乎同样的)分析结果。有许多数据归约策略,包括数据聚集(例如,建立数据立方体)、属性子集选择 (例如,通过相关分析去掉不相关的属性)、维度归约(例如,使用诸如最小长度编码或小波等编码方案)和数值归约(例如,使用聚类或参数模型等较小的表示“ 替换”数据)。使用概念分层泛化也可以“归约”数据。泛化用较高层的概念替换较低层的概念;例如,用地区或省/州替换城市。概念分层将概念组织在不同的抽 象层。[/align]
![](http://node1.foto.ycstatic.com/200807/05/9/26647257.jpg)
[align=left]Ø 图2-1数据预处理的形式。 概言之,现实世界的数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。由于高质量的决 策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。检测数据异常、尽早地调整数据,并归约待分析的数据,将在决策制定时得到高回报。[/align]
第2章 数据预处理
Ø 有大量数据预处理技术。数据清理可以去掉数据中的噪音,纠正不一致。数据集成将数据由多个源合并成一致的数据存储,如数据仓库。数据变换(如规范化)也可以使用。例如,规范化可以改进涉及距离度量的挖掘算法的精度和有效性。数据归约可以通过聚集、删除冗余特征或聚类等方法来压缩数据。这些技术不是互斥的,可以一起使用。这些数据处理技术在数据挖掘之前使用,可以大大提高数据挖掘模式的质量,降低实际挖掘所需要的时间。
2.1 为什么要预处理数据
[align=left]Ø 存在不完整的、含噪音的和不一致的数据是大型的、现实世界数据库或数据仓库的共同特点。[/align]
[align=left]Ø 不完整数据的出现可能有多种原因。 有些感兴趣的属性,如销售事务数据中顾客的信息,并非总是可用的。其它数据没有包含在内,可能只是因为输入时认为是不重要的。相关数据没有记录是由于理解 错误,或者因为设备故障。此外,记录历史或修改的数据可能被忽略。与其它数据不一致的数据可以删除。遗漏的数据,特别是某些属性上缺少值的元组可能需要推 导出来。[/align]
[align=left]Ø 数据含噪音(具有不正确的属性值)可能有多种原因。收集数据的设备可能出故障;人的或计算机的错误可能在数据输入时出现;数据传输中的错误也可能出现。这些可能是由于技术的限制,如用于数据传输同步的缓冲区大小的限制。不正确的数据也可能是由命名或所用的数据代码不一致而导致的。重复元组也需要数据清理。[/align]
[align=left]Ø 数据清理例程通过填写缺失的值、光滑噪音数据、识别或删除离群点,并解决不一致性来“清理”数据[/align]
[align=left]Ø 假定你想在你的分析中包含来自多个数据源的数据。这涉及集成多个数据库、数据方或文件,即数据集成。代表同一概念的属性在不同的数据库中可能具有不同的名字,这又导致不一致性和冗余。[/align]
[align=left]Ø 数据变换操作,如规格化和聚集,是导向挖掘过程成功的预处理过程。[/align]
[align=left]Ø 数据归约得 到数据集的压缩表示,它小得多,但能够产生同样的(或几乎同样的)分析结果。有许多数据归约策略,包括数据聚集(例如,建立数据立方体)、属性子集选择 (例如,通过相关分析去掉不相关的属性)、维度归约(例如,使用诸如最小长度编码或小波等编码方案)和数值归约(例如,使用聚类或参数模型等较小的表示“ 替换”数据)。使用概念分层泛化也可以“归约”数据。泛化用较高层的概念替换较低层的概念;例如,用地区或省/州替换城市。概念分层将概念组织在不同的抽 象层。[/align]
![](http://node1.foto.ycstatic.com/200807/05/9/26647257.jpg)
[align=left]Ø 图2-1数据预处理的形式。 概言之,现实世界的数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。由于高质量的决 策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。检测数据异常、尽早地调整数据,并归约待分析的数据,将在决策制定时得到高回报。[/align]
相关文章推荐
- 读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.4 数据集成和变换
- 读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.7 小结
- 读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.5 数据规约
- 读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.2 描述性数据汇总
- 读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.6 数据离散化和概念分层产生
- 读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.3 数据清理
- 为什么数据都要做一个归一化预处理
- 《ERP从内部集成起步》读书笔记——第2章 从优化业务流程谈信息集成的必要性 2.1从流程优化的需要理解信息化与管理的关系 2.1.1全局观念和全流程
- 《ERP从内部集成起步》读书笔记——第2章 从优化业务流程谈信息集成的必要性 2.1从流程优化的需要理解信息化与管理的关系 2.1.2增值与共赢—优化流程的终级目的
- 《数据挖掘概念与技术》学习笔记第2章(2/10)数据仓库和数据挖掘的OLAP技术
- 读书笔记 -- 002_数据预处理_数据集成
- MySQL技术内幕:SQL编程 第2章 数据类型 读书笔记
- 《.NET4.0 面向对象编程漫谈》读书笔记 ——第2章 数据类型趣谈
- 【读书笔记-数据挖掘概念与技术】数据预处理
- 《大数据时代》读书笔记——知道“是什么”就够了,没必要知道“为什么”。我们不必非得知道现象背后的原因,而是要让数据自己“发声”
- 读书笔记 -- 004_数据预处理_数据规范化
- 读书笔记 -- 001_数据预处理_数据清理
- 读书笔记:数据结构与算法-Python语言描述【第2章:抽象数据类型和Python类】
- 读书笔记 第2章 数据挖掘概述
- 《ERP从内部集成起步》读书笔记——第2章 从优化业务流程谈信息集成的必要性2.1从流程优化的需要理解信息化与管理的关系 2.1.3流程的可视化