您的位置:首页 > 其它

【读书笔记-数据挖掘概念与技术】挖掘频繁模式、关联和相关性:基本概念和方法

2014-07-05 20:26 555 查看
频繁模式:频繁出现的模式(可以是项集、子序列或子结构)

基本概念

支持度:support
置信度:confidence
关联规则:association

找出所有的频繁项集:出现次数≥最小支持计数
由频繁项集产生强关联的规则(定义最小支持度和最小置信度)

频度(支持度计数):出现的次数
频繁项集:项集I的相对支持度满足预定义的最小支持度阈值
闭频繁项集:不存在真超项集Y使得Y与X在D中具有相同的支持度计数
X是D中的极大频繁项集:X是D中的极大频繁项集或极大项集,如果X是频繁的,并且不存在超项集Y使得X包含于Y,并且Y在D中是频繁的

频繁项集挖掘方法

priori(先验)算法



发现频繁项集





2.产生关联规则

提高Apriori算法的效率

基于散列的计数
事务压缩
划分
抽样
动态项集计数

挖掘频繁项集的模式增长方法——Frequent-Pattern Growth,FP-growth——频繁模式树(FP树)

使用垂直数据格式挖掘频繁项集

挖掘模式和极大模式

—————————————————————————————————————————————————————————————————————————————

模式评估方法

∵强规则不一定是有趣的
∴关联分析——>相关分析

几个度量:



提升度(与零事务有关)

X²分析(与零事务有关)

全置信度(零不变度量)

最大置信度(零不变度量)

Kulxynaki(零不变度量)

余弦(零不变度量)

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐