您的位置:首页 > 其它

数据挖掘 自习笔记 第三章 定性归纳

2013-04-21 14:02 197 查看
以下内容从《数据挖掘导论》中学习总结。
本章要点:
(1)概念描述
(2)数据泛化方法
(3)属性相关分析
(4)概念对比方法
相关实践在下一章笔记中讨论。

数据挖掘类型

(1) 描述型数据挖掘:以简洁概述的方式表达数据中存在一些有意义的性质。
(2) 预测型数据挖掘:通过对所提供数据集应用特定方法分析所获得一个或一组数据模型,并将该模型用语预测未来新数据的有关性质。
最简单的秒速型数据挖掘就是定性归纳。定性归纳常常也成为概念描述。
3-1  概念描述主要包含:概念描述与对比描述。
概念描述与数据泛化密切相关。
3-2 数据泛化是从一个相对低层概念到更高层概念且对数据库中与任务相关的大量数据进行抽象概述的一个分析过程。对大量数据进行有效灵活的概述方法主要有两种:
(1) 数据立方方法
(2) 基于属性的归纳方法。

数据立方方法(又称为OLAP方法)

被分析的数据存放在一个多维数据库(数据立方)中。通常数据立方的数据需要经过费时复杂的运算操作(如:sum()、count()、average()),这些运算操作与结果就被存放在这些数据立方中,不同的抽象层次均需要进行这类运算,最终所获得浙西数据立方可用于决策支持、知识发现,或其他许多应用。

基于属性归纳方法(Attribute-Oriented Induction, 简称AOI)

基于属性归纳方法的基本思想就是首先利用关系数据库查询来收集与任务相关的数据并通过对任务相关数据集中各属性不同值个数的检查完成数据泛化操作。
基于数据归纳的基本操作就是:数据泛化。其所涉及的操作主要有两种:属性消除和属性泛化。
 

3-3 属性相关分析

属性相关分析意义:当面对复杂的数据对象,可能出现以下的情况:
A. 若选择较少的属性进行分析,可能对挖掘出来的定性描述的知识不完全或不易理解。
B. 若选择较多的属性进行分析,可能会影响挖掘的效率以及挖掘结果的可理解性。
所以要采取属性相关的分析方法,以帮助滤去统计无关的属性,并保留相关属性。
 

属性相关的分析方法

概念描述中的属性相关分析过程如下:
(1) 数据收集:利用数据库查询命令建立目标数据集和对比数据集。且对比数据集与目标数据集互不相交。
(2) 利用保守AOI方法进行属性相关分析:这里可以利用AOI方法进行初步属性分析工作。所生成的数据集为候选数据集。
(3) 利用所确定评估标准评估每个初选后得属性:可以使用相关评估,或是用户提供评估方法对数据集进行加工。
(4) 消除无关或弱相关的属性:根据概念挖掘任务,消除无关或弱相关属性。
(5) 利用AOI方法生成概念描述:更严格地进行基于属性的归纳操作。与第二个步骤的区别是。(1)本步骤是在步骤2的基础上进行的归纳操作。可以是目标数据集。也可以涉及目标数据集与对比数据集。
 

3-4 挖掘概念对比描述

在实际应用中,用户可能会对多个不同类别(class)的数据进行对比归纳,已获得概念对比描述知识。
 

概念对比方法与实现

通常概念对比的操作过程如下:
(1) 数据收集:对获取的挖掘任务的数据集,进行分类操作。分为目标数据集与对比数据集。
(2) 属性相关分析:在数据集所包含属性较多情况下,就需要应用分析概念对比方法。
(3) 同步泛化:对目标数据集属性的泛化操作或专家设置的相关控制,并最终获的主目标数据集。
(4) 卷上卷下操作:依据用户要求,对目标数据集和对比数据集进行同步或异步操作。
(5) 挖掘结果表示:所挖掘出的概念对比描述可以表格、图形以及规则的形式表示出来。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: