Apriori算法 (Introduction to data mining)
2015-12-02 12:44
253 查看
前置概念:
Support: 支持度 s(X->Y) =(XUY)/N;
Confidence: 置信度 c(X->Y) =(XUY)/(X);
Frequent ItemSet: 频繁项集 Support >minSup;
Apriori Principle: 如果一个项集是频繁的,那它所有的子项集也都是频繁的。
Frequent Itemset Generation in the AprioriAlgorithm:
Apriori算法是第一个指出使用基于支持度剪枝策略的关联规则挖掘算法,系统地控制候选项集的指数增长。
Ck代表k候选项集, Fk代表频繁k项集
1 算法首先遍历一遍数据集,检测每项的支持度,获取频繁1-项集。Steps (1-2)
2 接下来,循环使用频繁(k-1)-项集派生k-候选项集。Step (5)
3 遍历数据集计算候选项集支持度Steps (6-10)
4 计算支持度后,消除非频繁项集Step (12)
5 当没有新的频繁项集产生的时候,算法结束Step(13)
Frequent itemset generation of the AprioriAlgorithm.
Rule generation:
若果一个规则X->Y-X不满足置信度阀值,那么所有的X’->Y-X’也不满足阀值, 其中X’⊂ X.
Rule generation of the Apriori algorithm.
Procedure ap-genrules(fk, Hm).
总结:
核心思想: 基于两阶段频繁项集,挖掘关联规则
算法优点: 简单、易理解、数据要求低
算法缺点: I/O负载大,产生过多的候选项集
Apriori例题(Introduction to data mining):
(b)16/32=50%
(c)11/32=34.4%
(d)5/32=15.6%
Support: 支持度 s(X->Y) =(XUY)/N;
Confidence: 置信度 c(X->Y) =(XUY)/(X);
Frequent ItemSet: 频繁项集 Support >minSup;
Apriori Principle: 如果一个项集是频繁的,那它所有的子项集也都是频繁的。
Frequent Itemset Generation in the AprioriAlgorithm:
Apriori算法是第一个指出使用基于支持度剪枝策略的关联规则挖掘算法,系统地控制候选项集的指数增长。
Ck代表k候选项集, Fk代表频繁k项集
1 算法首先遍历一遍数据集,检测每项的支持度,获取频繁1-项集。Steps (1-2)
2 接下来,循环使用频繁(k-1)-项集派生k-候选项集。Step (5)
3 遍历数据集计算候选项集支持度Steps (6-10)
4 计算支持度后,消除非频繁项集Step (12)
5 当没有新的频繁项集产生的时候,算法结束Step(13)
Frequent itemset generation of the AprioriAlgorithm.
Rule generation:
若果一个规则X->Y-X不满足置信度阀值,那么所有的X’->Y-X’也不满足阀值, 其中X’⊂ X.
Rule generation of the Apriori algorithm.
Procedure ap-genrules(fk, Hm).
总结:
核心思想: 基于两阶段频繁项集,挖掘关联规则
算法优点: 简单、易理解、数据要求低
算法缺点: I/O负载大,产生过多的候选项集
Apriori例题(Introduction to data mining):
(b)16/32=50%
(c)11/32=34.4%
(d)5/32=15.6%
相关文章推荐
- 数据挖掘之Apriori算法详解和Python实现代码分享
- 详解BI/数据分析/数据挖掘/业务分析概念 7fe0
- Sedgewick之巨著《算法》,与高德纳TAOCP一脉相承
- 普通最小二乘法的推导证明
- #研发解决方案#基于Apriori算法的Nginx+Lua+ELK异常流量拦截方案
- 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用2
- 聚类算法总结
- 一位数据挖掘成功人士给数据挖掘在读研究生的建议
- 数据挖掘网上资料大全
- 数据挖掘技术与用户知识获取
- Data mining 数据挖掘
- 数据挖掘
- 大数据,且行且思( 文/ 占超群)
- HUNTER
- Apriori算法的C/C#实现
- Frequent Pattern mining
- kmeans python版
- 数据挖掘-关联分析-Apriori算法Java实现 支持度+置信度
- oracle三种高级复制技术特点
- 网鱼网咖-利用数加快速搭建大数据平台,极致洞察,为客户带来从所未有的体验。