您的位置：首页 > 其它

FP-growth算法流程

2016-06-28 13:11 351 查看

关于关联分析算法有一个非常有名的故事：”尿布和啤酒”。故事是这样的：美国的妇女们经常会嘱咐她们的丈夫下班后为孩子买尿布，而丈夫在买完尿布后又要顺手买回自己爱喝的啤酒，因此啤酒和尿布在一起被购买的机会很多。这个举措使尿布和啤酒的销量双双增加，并一直为众商家所津津乐道。

起初Apriori算法的提出有效的能发现这种物品间的关联规则，但是Apriori算法频繁的扫描数据集，造成效率低下，在大的数据集上执行的会非常缓慢。后来FP-Growth算法的提出有效的解决了这个缺点。

FP-Growth(Frequent Pattern Tree，频繁模式树)算法是韩家炜老师提出的关联分析算法，巧妙的将树型结构引入算法中，它采取如下分治策略：提供频繁项集的数据库压缩到一棵频繁模式树（FP-Tree），但仍保留项集关联信息；该算法和Apriori算法最大的不同有两点：

第一，不产生候选集。

第二，只需要两次遍历数据库，大大提高了效率。

流程如下：

1：先扫描一遍数据集，得到频繁项为1的项目集，定义最小支持度（项目出现最少次数），删除那些小于最小支持度的项目，然后将原始数据集中的条目按项目集中降序进行排列。

2：第二次扫描，创建项头表（从上往下降序），以及FP树。

3：对于每个项目（可以按照从下往上的顺序）找到其条件模式基（CPB，conditional patten base）,递归调用树结构，删除小于最小支持度的项。如果最终呈现单一路径的树结构，则直接列举所有组合；非单一路径的则继续调用树结构，直到形成单一路径即可。

如果上述不是很明白的话，以下用图进行展示：

如下图所示数据清单（第一列为购买id，第二列为物品项目）：