数据挖掘 自习笔记 第一章 绪论
2013-04-04 17:59
351 查看
来至教材《数据挖掘导论》
第一章笔记 数据挖掘基本知识
1. 数据挖掘定义
数据挖掘(Data Mining)简单地讲就是从大量数据中挖掘或抽取出知识,数据挖掘定义有若干个版本。以下是普遍采纳的定义描述:
数据挖掘,又称为数据库中知识发现(Knowledge Discovery from Database 简称KDD),它是一个从大量数据中抽取挖掘出未知的,有价值的模式或规律等知识的复杂过程。
![](http://static.oschina.net/uploads/img/201304/04175953_4pzN.jpg)
整个知识挖掘有若干挖掘步骤组成,而数据挖掘仅是其中一个主要步骤
a. 数据清洗(data cleaning) 其作用就是清除数据噪声和挖掘主题明显无关的数据。
b. 数据集成(data integration), 其左右就是将来自多数据源中的相关数据组合在一起。
c. 数据转换(data transformation),其左右就是将数据转换为易于进行数据挖掘的数据存储形式。
d. 数据挖掘(data mining),它是知识挖掘的一个基本步骤,其作用就是利用智能方法挖掘数据模式或规律知识。
e. 模式评估(pattern evaluation),其作用就是根据一定评估标准(interesting measures)从挖掘结果筛选出有意义的模式知识。
f. 知识表示(knowledge presentation),其作用就是利用可视化和知识表达技术,向用户展示所挖掘出的相关知识。
2.典型的数据挖掘系统
基于图-1.4所示的数据挖掘过程,一个典型的数据挖掘系统如下
![](http://static.oschina.net/uploads/img/201304/04175954_5HyP.jpg)
数据库、数据仓库或其他信息库, 它表示数据挖掘对象是由一个(或组)数据库、数据仓库、数据表单或其他信息数据库组成。通常需要使用数据清洗和数据集成操作,对这些数据对象进行初步的处理。
数据库或数据仓库服务器,这类服务器负责根据用户的数据挖掘请求,读取相关的数据。
知识库,此处存放数据挖掘所需要的领域知识,这些知识将用于知道数据挖掘的搜索过程。或者用于帮助对挖掘结果的评估。
模式评估模块,该模块可根据趣味标准(interestingness measures),协助数据挖掘模块聚焦挖掘更有意义的模式知识。
可视化用户界面,该模块帮助用户与数据挖掘系统本身进行沟通交流。
OLAP--在线分析处理。从数据仓库的角度来看,数据瓦局可以被认为是OLAP的高级阶段,但基于多种数据理解先进技术的数据挖掘,其数据分析能力远超过以数据汇总为主的数据仓库在线分析处理功能。
数据挖掘系统应用:如银行、电信、保险、交通、零售等
解决的典型相关商业问题: 数据库营销、客户群体划分、背景分析、交叉销售等市场分析行为。
数据挖掘系统分类:数据库系统可以按照三种标准进行划分,它们是数据库类型、所挖掘的知识和所使用的技术。
相关资源:百度文库 图说数据挖掘:http://wenku.baidu.com/view/e2a6a709ba1aa8114431d97c.html
第一章笔记 数据挖掘基本知识
1. 数据挖掘定义
数据挖掘(Data Mining)简单地讲就是从大量数据中挖掘或抽取出知识,数据挖掘定义有若干个版本。以下是普遍采纳的定义描述:
数据挖掘,又称为数据库中知识发现(Knowledge Discovery from Database 简称KDD),它是一个从大量数据中抽取挖掘出未知的,有价值的模式或规律等知识的复杂过程。
![](http://static.oschina.net/uploads/img/201304/04175953_4pzN.jpg)
整个知识挖掘有若干挖掘步骤组成,而数据挖掘仅是其中一个主要步骤
a. 数据清洗(data cleaning) 其作用就是清除数据噪声和挖掘主题明显无关的数据。
b. 数据集成(data integration), 其左右就是将来自多数据源中的相关数据组合在一起。
c. 数据转换(data transformation),其左右就是将数据转换为易于进行数据挖掘的数据存储形式。
d. 数据挖掘(data mining),它是知识挖掘的一个基本步骤,其作用就是利用智能方法挖掘数据模式或规律知识。
e. 模式评估(pattern evaluation),其作用就是根据一定评估标准(interesting measures)从挖掘结果筛选出有意义的模式知识。
f. 知识表示(knowledge presentation),其作用就是利用可视化和知识表达技术,向用户展示所挖掘出的相关知识。
2.典型的数据挖掘系统
基于图-1.4所示的数据挖掘过程,一个典型的数据挖掘系统如下
![](http://static.oschina.net/uploads/img/201304/04175954_5HyP.jpg)
数据库、数据仓库或其他信息库, 它表示数据挖掘对象是由一个(或组)数据库、数据仓库、数据表单或其他信息数据库组成。通常需要使用数据清洗和数据集成操作,对这些数据对象进行初步的处理。
数据库或数据仓库服务器,这类服务器负责根据用户的数据挖掘请求,读取相关的数据。
知识库,此处存放数据挖掘所需要的领域知识,这些知识将用于知道数据挖掘的搜索过程。或者用于帮助对挖掘结果的评估。
模式评估模块,该模块可根据趣味标准(interestingness measures),协助数据挖掘模块聚焦挖掘更有意义的模式知识。
可视化用户界面,该模块帮助用户与数据挖掘系统本身进行沟通交流。
OLAP--在线分析处理。从数据仓库的角度来看,数据瓦局可以被认为是OLAP的高级阶段,但基于多种数据理解先进技术的数据挖掘,其数据分析能力远超过以数据汇总为主的数据仓库在线分析处理功能。
数据挖掘系统应用:如银行、电信、保险、交通、零售等
解决的典型相关商业问题: 数据库营销、客户群体划分、背景分析、交叉销售等市场分析行为。
数据挖掘系统分类:数据库系统可以按照三种标准进行划分,它们是数据库类型、所挖掘的知识和所使用的技术。
相关资源:百度文库 图说数据挖掘:http://wenku.baidu.com/view/e2a6a709ba1aa8114431d97c.html
相关文章推荐
- 数据挖掘笔记 第一章:引言
- 数据挖掘笔记 第一章:引言
- 数据结构笔记——第一章 绪论
- 数据挖掘 自习笔记 第三章 定性归纳
- 数据挖掘 自习笔记 第二章 数据预处理
- 数据结构(C++版)第一章 绪论 学习笔记
- 数据挖掘学习笔记一:绪论
- 数据挖掘原理学习笔记【1】 绪论
- 数据挖掘 自习笔记 第三章 定性归纳实践(上)
- 数据挖掘笔记 第一章:引言
- 数据挖掘 自习笔记 第三章 定性归纳实践(下)
- 数据挖掘 自习笔记 第二章 数据处理实践(上)
- 数据挖掘笔记 第一章:引言
- 数据挖掘:概念与技术 学习笔记 第一章
- 数据挖掘 自习笔记 第二章 数据处理实践(下)
- 【数据挖掘导论】——绪论
- 机器学习&数据挖掘笔记_12(对Conjugate Gradient 优化的简单理解)
- 数据挖掘笔记-聚类-KMeans-原理与简单实现
- 【数据挖掘笔记二】认识数据
- 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)