数据挖掘笔记1
2011-07-25 17:54
246 查看
概念/类描述:特征和区分
数据可以与类或概念相关联。例如,在AllElectronics 商店,销售的商品类包括计算机和打印机,顾客概念包括bigSpenders 和budgetSpenders。用汇总的、简洁的、精确的方式描述每个类和概念可能是有用的。这种类或概念的描述称为类/概念描述。这种描述可以通过下述方法得到
(1)数据特征化,一般地汇总所研究类(通常称为目标类)的数据,或
(2)数据区分,将目标类与一个或多个比较类(通常称为对比类)进行比较,或
(3)数据特征化和比较。数据特征是目标类数据的一般特征或特性的汇总。
通常,用户指定类的数据通过数据库查询收集。例如,为研究上一年销售增加10%的软件产品的特征,可以通过执行一个SQL 查询收集关于这些产品的数据。有许多有效的方法,将数据特征化和总。例如,基于数据方的 OLAP 上卷操作(1.3.2 小节)可以用来执行用户控制的、沿着指定维的数据汇总。该过程将在第2 章介绍数据仓库时进一步详细讨论。面向属性的归纳技术可以用来进行数据的泛化和特征化,而不必一步步地与用户交互。这一技术将在第5 章讨论。数据特征的输出可以用多种形式提供。包括饼图、条图、曲线、多维数据方和包括交叉表在内的多维表
关联分析
“什么是关联分析?”关联分析发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件。关联分析广泛用于购物篮或事务数据分析。分类和预测
分类是这样的过程,它找描述或识别数据类或概念的模型(或函数),以便能够使用模型预测类标号未知的对象。导出模型是基于对训练数据集(即,其类标号已知的数据对象)的分析。“如何提供导出模型?”导出模式可以用多种形式表示,如分类(IF-THEN)规则、判定树、数学公式、或神经网络。判定树是一个类似于流程图的结构,每个结点代表一个属性值上的测试,每个分枝代表测试的一个输出,树叶代表类或类分布。判定树容易转换成分类规则。当用于分类时,神经网络是一组类似于神经元的处理单元,单元之间加权连接。分类可以用来预测数据对象的类标号。然而,在某些应用中,人们可能希望预测某些遗漏的或不知道的数据值,而不是类标号。当被预测的值是数值数据时,通常称之为预测。尽管预测可以涉及数据值预测和类标号预测,通常预测限于值预测,并因此不同于分类。预测也包含基于可用数据的分布趋势识别。相关分析可能需要在分类和预测之前进行,它试图识别对于分类和预测无用的属性。这些属性应当排除。相关文章推荐
- 斯坦福大学数据挖掘公开课学习笔记____Lesson2
- python数据分析和数据挖掘笔记
- 数据挖掘笔记(三)—数据预处理
- R语言与数据挖掘学习笔记
- 数据挖掘笔记(四)—定义及广义知识
- 数据挖掘:概念与技术 笔记
- 数据挖掘笔记一(Intro)
- 数据挖掘系列笔记(1):概述
- oracle ODM 数据挖掘笔记
- 数据挖掘笔记-聚类-Canopy-并行处理分析
- 学习笔记——数据挖掘过程与方法 Data Mining
- 数据挖掘概念与技术(韩家伟)阅读笔记2
- 数据挖掘笔记(4)——关联规则
- 【学堂在线数据挖掘:理论方法笔记】第二天(3.18)
- 数据挖掘学习笔记1——系统聚类与K-均值聚类
- Python数据分析与挖掘实战学习笔记(二)
- 【学堂在线数据挖掘:理论方法笔记】第七天(4.1)
- 5.数据挖掘概念笔记——数据立方体技术
- 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)
- 数据挖掘笔记(1)-概念、数据准备