您的位置:首页 > 其它

数据挖掘概念与技术 第一章 引论

2016-09-26 19:29 253 查看
 本文讲解数据挖掘中的基本概念:

一、数据挖掘:

  数据挖掘(KDD,knowledge discovery in database):数据库中发现知识。

数据清理:消除噪声和删除不一致数据。
数据集成:多种数据源可以组合在一起。
数据选择:从数据库中提取与分析任务相关的数据。
数据变换:通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式。
数据挖掘:基本步骤,使用智能方法提取数据模式
模式评估:根据某种兴趣度度量,识别代表知识的真正有趣的模式。
知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识。  

    步骤1-4是数据预处理的不同形式,为挖掘准备数据。

二、数据类型:

 数据的最基本形式是数据库数据、数据仓库数据和事务数据。

数据库数据:数据库系统,也称为数据库管理系统(DBMS),由一组内部相关的数据(数据库)和一组管理和存取数据的软件程序组成。软件程序提供如下机制:定义数据库结构和数据存储,说明和管理并发、共享或分布式数据访问,面对系统瘫痪或未授权访问,确保存储的信息的一致性和安全性。关系数据库是表的汇集,每个表都被赋予一个唯一的名字。每个表都包含一组属性(列或字段),并且通常存放大量元组(记录或行)。关系表中的每个元组代表一个对象,被唯一的关键字标识,并被一组属性值描述。通常为关系数据库构建语义数据模型,如实体-联系数据模型。
数据仓库:是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。通常。数据仓库用称做数据立方体的多维数据建模。其中每个维度对应于模式中的一个或者一组属性,而每个单元存放某种聚集度量值。
事务数据:一般来说,事务数据库的每个记录代表一个事务,通常,一个事务包含一个唯一的事务标识号(trans_ID),以及一组事务的项的列表(如,交易中购买的橡商品)。
trans_ID商品的ID列表
T100I1,I3,I8,I16
T200I2,I8
............

三、挖掘的模式类型:

 数据挖掘功能用于指定数据挖掘任务发现的模式。一般而言,这些任务可以划分为两类:描述性(Descriptive)和预测性(Predictive)。描述性挖掘任务刻画目标数据中数据的一般性质。预测性挖掘任务在当前数据上进行归纳总结,以便做出预测。

类/概念描述:特征化与区分。  数据可以与类或者概念相关联,例如在商店中,销售的商品类包括计算机和打印机。使用汇总的、简洁的、精确的表示方式描述每个类是有用的。这种类或概念的描述称为类/概念的描述。这种描述可以通过下述方法得到:(1)、数据特征化,一般地汇总所研究类(目标类)的数据;(2)、数据区分,将目标类与一个或者多个可比较类(通常称为对比类)进行比较。(3)、数据特征化与区分。 数据特征化(data characterization)是目标类数据的一般特性或特征的汇总。通常,通过查询来收集对应于用户指定类的数据。数据区分(data
discrimination)是将目标类数据对象的一般特性与一个或者多个对比类对象的一般特性进行比较。
挖掘频繁模式、关联和相关性:频繁模式frequent pattern是在数据中频繁出现的模式。存在多种类型的频繁模式,包括频繁项集、频繁子序列和频繁子结构。频繁项集一般是指频繁地在事务数据集中一起出现的商品的集合,如小卖部中被顾客频繁一起购买的牛奶和面包。频繁出现的子序列,如顾客倾向于先购买便携机,在购买数码机,然后购买内存卡这样的模式就是一个序列模式。关联分析:一个例子
buys(X,"computer")---》buys(X,"software")[support = 1% , confidence= 50%],其中X是变量代表客户。50%的置信度或确信性意味,如果一位顾客购买计算机,则购买软件的可能性50%。1%的支持度意味,所分析的所有事物的1%显示计算机和软件一起被购买。这个关联规则涉及单个重复的属性或者谓词(即buys)。包含单个谓词的关联规则被称为单维关联规则(single-dimensional association rule)。去掉谓词符号,上面的规则可以简化为"computer→software[1%,50%]"。

               数据挖掘还可以发现如下形式的规则:age(X,"20..29")∧ income(X,"40K..49K")→buys(X,"laptop")[support=2%,confidence=60%]。该规则指出,这涉及多个属性或谓词(即age,income和buys)的关联。采用多维数据库使用的术语,每个属性称做一个维,上面的规则可以称做多维关联规则(multidimensional association rule)。

            通常,一个关联规则被认为是无趣的而被丢弃,如果它不能同时满足最小支持度阈值和最小置信度阈值。

        3.用于预测分析的分类与回归:分类是这样一个过程,它找出描述和区分数据类或概念的模型(或函数),以便能够使用模型预测类标号未知的对象的类标号。导出模型是基于对训练数据集(即,类标号已知的数据对象)的分析。该模型用来预测类标号未知的对象类标号。分类预测类别(离散的、无序的)标号,而回归建立连续值函数模型。也就是说回归预测缺失的或难以获得的数值数据值,而不是(离散的)类标号。回归分析(regression analysis)是一种最常用的数值预测的统计方法。

      4. 聚类分析:聚类分析数据对象,而不考虑类标号。可以使用聚类产生数据组群的类标号。对象根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组。对象的簇(cluster)这样形成,使得相比之下在同一个簇中对象具有很高的相似性,而与其他簇对象很不相似。所形成的每个簇都可以看成一个对象类。

      5. 离群点分析:数据集中可能包含一些数据对象,它们与数据的一般行为或模型不一致。这些数据对象是离群点(outlier)。

  形如X->Y的关联规则,一种客观度量是规则的支持度(support),规则的支持度表示事务数据库中满足规则的事务所占的百分比。支持度可以取概率P(X|Y)。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  数据挖掘