《Data Mining》学习——可以挖掘什么类型的数据?
2017-04-17 22:37
351 查看
数据挖掘功能
存在大量数据挖掘功能,包括特征化与区分,频繁模式,关联和相关性挖掘,分类与回归,聚类分析,离群点分析。一般而言,这些任务可以分为两类:描述性,预测性。描述性挖掘 刻画目标数据中数据的一般性质,预测性挖掘在当前数据上进行归纳以及预测。用于预测分析的分类与回归
分类是这样的过程,他找出描述和分区数据类或概念模型,以便能够使用模型来预测类标号未知的对象类标号。导出模型是基于对训练数据集的分析。导出的模型可有多种表示方式,如分类规则(IF-THEN规则),决策树,数学公式或者神经网络。
相关分析可能需要在分类和回归之前进行,他试图识别与分类和回归过程显著相关的属性。分类预测类别标号,而回归建立连续值函数模型,也就是说,回归用来预测缺失的或者难以获得的数值数据,而不是离散的类标号,术语预测可以说是指 数值预测和类标号预测。
类/概念描述:特征化与区分
数据可以与类或者概念相关。例如商品类包括计算机与打印机,顾客概念则是高消费和有预算消费。这种描述称为类/概念描述。这种描述可以通过下述方法得到:数据特征化,一般汇总的研究目标类的数据;
数据分区,将目标类与多个比较类进行比较;
数据特征化和区分。
挖掘频繁模式,关联和相关性
频繁模式 是在数据中频繁出现的模式。存在多种类型的频繁模式,包括频繁项集,频繁子序列 (序列模式),频繁子结构。频繁项集是指频繁的在事物数据中一起出现的商品集合。序列模式是有序的事物频繁出现。子结构可能涉及到不同的结构形式(树,图,表等),如果一个结构频繁出现,则称他为结构模式。关联分析
例如:你想知道哪些商品经常被购买,从事务数据中可挖掘出这种规律:
buys(X,"电脑")=>buys(X,"软件")[support(支持度)=1%,confidence(置信度)=50%]
X代表顾客,置信度为50%意味着如果有一位顾客买电脑,那么再购买软件的可能性为50%,支持度则意味着所有事务中电脑和软件一起购买的概率为1%。这个关联规则涉及到单个重复的属性或谓词(buys),这种称为单维关联规则,简写如下:
computer=>sofware[1%,50%]
如果对客户挖掘可以有:
age(X,"20−29")∧income(X,"40K−50K")=>buys(X,"电脑")[support=2%,confidence=60%]
聚类分析
聚类分析数据对象,而不考虑类标号,在许多情况下,开始并存在标记类的数据,可以使用聚类产生数据组群的类标号,对象根据最大化类内相似性,最小化类间相似性的原则进行聚类或者分组。也就是说,对象的簇这样形成,使得相比之下在同一簇中的对象具有很高的相似性,而且与其他簇差异性很大。没形成的簇可以看做一个对象类,它可以导出规则。聚类也便于分类法形成,即将观测组织成类分层结构,把类似的事物组织在一起。离群点分析
数据集中可能包含了一些数据对象,他们与数据的一般行为或模型不一致,这些数据对象是离群点。大部分方法视其为噪点或异常而丢弃,事实上在某些例子中是有价值的,例如诈骗检测。离群点数据分析叫做离群点分析或异常挖掘。相关文章推荐
- 函数名function是一个数据类型,可以赋值 分类: python基础学习 2013-09-12 11:01 366人阅读 评论(0) 收藏
- Data Mining 数据挖掘学习清单
- C语言 学习之 —— xxx_t 数据类型uint8_t是什么数据类型
- 数据挖掘面向什么类型的应用?
- 人工智能、机器学习、深度学习、数据挖掘的区别是什么?
- 数据挖掘( Data Mining )和统计学:有什么联系?
- 在ArcGIS中可以存储什么数据类型
- Java学习笔记摘录(标识符/变量是什么/如何命名变量/数据类型/变量的使用规则)
- 大学阶段学习单片机,以后可以有什么用?可以做什么类型的工作?单片机发展前景怎么样? [单片机]
- 学习笔记——数据挖掘过程与方法 Data Mining
- 人工智能机器学习统计学数据挖掘之间有什么区别?
- 什么是人工智能、机器学习、深度学习、数据挖掘以及数据分析?<二>
- 【强烈推荐】:关于系统学习数据挖掘(Data Mining)的一些建议!!
- 什么是人工智能、机器学习、深度学习、数据挖掘以及数据分析?<一>
- 数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics)之间有什么关系?
- 数据挖掘可以做什么不可以做什么?
- JPA学习笔记---JPA实体Bean的建立---链接上一个博文:对实体Bean中属性进行操作:保存日期类型,设置字段的长度,名字,是否为空,可以声明枚举字段;可以存放二进制数据,可以存放
- Java学习总结--字符串String类和基本的数据类型有什么区别
- 大学阶段学习单片机,以后可以有什么用?可以做什么类型的工作?单片机发展前景怎么样?
- mysql中什么数据类型可以存储路径