您的位置：首页 > 其它

《Data Mining》学习——可以挖掘什么类型的数据？

2017-04-17 22:37 351 查看

数据挖掘功能

存在大量数据挖掘功能，包括特征化与区分，频繁模式，关联和相关性挖掘，分类与回归，聚类分析，离群点分析。一般而言，这些任务可以分为两类：描述性，预测性。描述性挖掘刻画目标数据中数据的一般性质，预测性挖掘在当前数据上进行归纳以及预测。

用于预测分析的分类与回归

分类是这样的过程，他找出描述和分区数据类或概念模型，以便能够使用模型来预测类标号未知的对象类标号。导出模型是基于对训练数据集的分析。

导出的模型可有多种表示方式，如分类规则（IF-THEN规则）,决策树，数学公式或者神经网络。

相关分析可能需要在分类和回归之前进行，他试图识别与分类和回归过程显著相关的属性。分类预测类别标号，而回归建立连续值函数模型，也就是说，回归用来预测缺失的或者难以获得的数值数据，而不是离散的类标号，术语预测可以说是指 数值预测和类标号预测。

类/概念描述：特征化与区分

数据可以与类或者概念相关。例如商品类包括计算机与打印机，顾客概念则是高消费和有预算消费。这种描述称为类/概念描述。这种描述可以通过下述方法得到：

数据特征化，一般汇总的研究目标类的数据；

数据分区，将目标类与多个比较类进行比较；

数据特征化和区分。

挖掘频繁模式，关联和相关性

频繁模式 是在数据中频繁出现的模式。存在多种类型的频繁模式，包括频繁项集，频繁子序列（序列模式），频繁子结构。频繁项集是指频繁的在事物数据中一起出现的商品集合。序列模式是有序的事物频繁出现。子结构可能涉及到不同的结构形式（树，图，表等），如果一个结构频繁出现，则称他为结构模式。

关联分析

例如：你想知道哪些商品经常被购买，从事务数据中可挖掘出这种规律：

buys(X，"电脑")=>buys(X，"软件")[support(支持度)=1%,confidence（置信度）=50%]

X代表顾客，置信度为50%意味着如果有一位顾客买电脑，那么再购买软件的可能性为50%，支持度则意味着所有事务中电脑和软件一起购买的概率为1%。这个关联规则涉及到单个重复的属性或谓词（buys），这种称为单维关联规则，简写如下：

computer=>sofware[1%,50%]

如果对客户挖掘可以有：

age(X,"20−29")∧income(X,"40K−50K")=>buys(X,"电脑")[support=2%,confidence=60%]

聚类分析

聚类分析数据对象，而不考虑类标号，在许多情况下，开始并存在标记类的数据，可以使用聚类产生数据组群的类标号，对象根据最大化类内相似性，最小化类间相似性的原则进行聚类或者分组。也就是说，对象的簇这样形成，使得相比之下在同一簇中的对象具有很高的相似性，而且与其他簇差异性很大。没形成的簇可以看做一个对象类，它可以导出规则。聚类也便于分类法形成，即将观测组织成类分层结构，把类似的事物组织在一起。

离群点分析

数据集中可能包含了一些数据对象，他们与数据的一般行为或模型不一致，这些数据对象是离群点。大部分方法视其为噪点或异常而丢弃，事实上在某些例子中是有价值的，例如诈骗检测。离群点数据分析叫做离群点分析或异常挖掘。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航