您的位置:首页 > 其它

数据挖掘有哪些算法

2015-09-04 15:10 246 查看
1、分类(预测离散值输出):首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。——判断肿瘤良性/恶性

      分类算法:决策树、逻辑回归、贝叶斯分类

2、聚类(Clustering)将数据分组成为多个集群(Cluster),在同一个集群内的对象之间具有较高的相似度,不同类之间的对象差别较大。聚类分析要解决的问题是将数据分成内部高内聚,外部低耦合的集合,这样对相似的事物进行分析就会更有针对性。——市场划分;社交网络分析;天文数据分析;

      聚类算法:

l  划分法(K-means算法、K-methods算法、CLARANS算法);

l  层次法(BIRCH算法、CURE算法、CHAMELEON算法等)

3、预测:将已有数据和模型用于对未知变量的预言,目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道语言准确性是多少。

      预测算法:

l  回归分析(预测连续值输出:简单线性回归、多元线性回归、非线性回归)——房价预测;

l  时间序列分析

4、关联:关联规则(Association Rules)反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物能够通过其他事物预测到。关联分析要解决的问题是通过算法找出隐含在数据中的关联,比如买尿布的人大部分也买啤酒,买啤酒的人大部分也买花生米,有了关联就可以做针对性的广告或者商业分析(医生对患者病情分析)

      定义:支持度;关联规则;置信度

!!分类与聚类区别:分类属于监督学习,即基于训练集对数据进行预测,训练集中的每个数据都有正确答案。而聚类属于非监督学习,即只给出数据集,没有其他特征信息,需要我们从数据中找到某种结构或特征。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: