您的位置:首页 > 其它

数据挖掘算法之Apriori和FP-growth

2017-04-25 17:15 302 查看

1、基本概念

      支持度(support):数据集中包含该项集的记录所占比例



  置信度或可信度(confidence):主要是针对莫以具体的关联规则进行定义的,如:{尿布}->{啤酒}的可信度可以被定义为:支持度{尿布、葡萄酒}/支持度{尿布}

2、Apriori算法

    主要思路就是找到数据集合中的频繁项集和关联规则

(1)发现频繁项集

            频繁项集的确定主要是依靠支持度。我们预设一个最小支持度阈值,用以过滤掉不满足条件的项集,将满足最小支持度的项集进行保留;

(2)抽取关联规则

       关联规则的确定主要是依靠置信度。同样的设置一个最小置信度阈值,用于删除掉不满足条件的项集,保留下来的就是具有一定关联规则的项集。

3、FP-growth算法

       该算法是在Apriori算法的基础上,只是针对频繁项集发现算法进行了改进,提高了算法处理速度,同时该算法需要对数据集合进行两次扫描。

    算法思路:

(1)发现频繁项集

        a、构建FP树(需要重点理解)

         b、从FP树中挖掘频繁项集

(2)抽取关联规则

        a、从FP树中获得条件模式基(是以所查找元素项为结尾的路径集合)

           b、利用条件模式基,构建一个条件FP树(需要重点理解)

        c、迭代重复步骤a和b,直到树包含一个元素项为止

4、算法示例

  (1)求出各个项集的支持度



   (2)过滤部分项集后的数据集合



  (3)构建FP树



  (4)条件模式基和条件FP树





(5)得到相应的频繁模式



5、Apriori算法和FP-growth算法特点比较



6、参考文献

    https://wenku.baidu.com/view/c32bbada27d3240c8547ef1b.html
    http://blog.csdn.net/lizhengnanhua/article/details/9061755
    《机器学习实战》Peter Harrington著 李锐 李鹏 曲亚东 王斌 译

有什么错误之处和改进之处请指点!!!

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: