您的位置：首页 > 其它

数据挖掘算法之Apriori和FP-growth

2017-04-25 17:15 302 查看

1、基本概念

支持度（support）：数据集中包含该项集的记录所占比例

置信度或可信度（confidence）:主要是针对莫以具体的关联规则进行定义的，如：{尿布}->{啤酒}的可信度可以被定义为：支持度{尿布、葡萄酒}/支持度{尿布}

主要思路就是找到数据集合中的频繁项集和关联规则

频繁项集的确定主要是依靠支持度。我们预设一个最小支持度阈值，用以过滤掉不满足条件的项集，将满足最小支持度的项集进行保留；

关联规则的确定主要是依靠置信度。同样的设置一个最小置信度阈值，用于删除掉不满足条件的项集，保留下来的就是具有一定关联规则的项集。

该算法是在Apriori算法的基础上，只是针对频繁项集发现算法进行了改进，提高了算法处理速度，同时该算法需要对数据集合进行两次扫描。

算法思路：

a、构建FP树（需要重点理解）

b、从FP树中挖掘频繁项集

     a、从FP树中获得条件模式基（是以所查找元素项为结尾的路径集合）

   b、利用条件模式基，构建一个条件FP树（需要重点理解）

    c、迭代重复步骤a和b,直到树包含一个元素项为止

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航