您的位置:首页 > 其它

数据挖掘学习笔记3: 关联规则2

2015-05-12 22:29 381 查看

多层关联规则

数据项中经常会形成概念分层

底层的数据项,其支持度往往也较低

在适当的等级挖掘出来的数据项之间的关联规则可能是非常有用的

通常, 事务数据库中的数据也是根据维和概念分层进行储存的

在多个抽象层挖掘关联规则, 并在不同的抽象层进行转化. 是数据挖掘系统应该提供的能力

挖掘多层关联规则的方法



一直支持度vs递减支持度

一直支持度: 对所有层都是用以致最小支持度

优点: 搜索时容易采用优化策略, 即一个项如果不满足最小支持度, 他的所有子项都可以不用搜索

缺点: 最小支持度值设置困难

太高: 将丢带出现在较低抽象层中有意义的关联规则

-太低: 会在叫高层产生太多的无兴趣规则

递减支持度:在较低层使用递减的最小支持度

-抽象层越低, 对应的最小支持度越小



搜索策略

具有递减支持度的多层关联规则的3种搜索策略

逐层独立: 完全的宽度(广度)搜索, 没有频繁项集的背景知识用于剪枝

层交叉单项过滤: 一个第i层的项被考察, 当且仅当它在第(i-1)层的父节点是频繁的

层交叉k项集过滤: 一个第i层的k项集被考察, 当且仅当它在第(i-1)层的对应父节点k-项集是频繁的()

搜索策略比较

逐层独立策略条件松, 可能导致底层考察大量非频繁项

层交叉k项集过滤策略限制太强, 仅允许考察频繁k-项集的子女

层交叉单项过滤策略是上述两者的折中, 但仍可能丢失底层的频繁项

受控的层交叉单项过滤策略

设置一个层传递临界值, 用于向较低层传递相对频繁的项

即如果满足层传递临界值, 则允许考察不满足最小支持度临界值的项的子女

用户对进一步控制多概念层上的挖掘过程有了更多的灵活性, 同时减少无意义关联的考察和产生



检查冗余的多层关联规则

挖掘多层关联规则时, 由于项间的”祖先关系”, 有些发现的规则将是冗余的

ex:



上例中, 第一个规则是第二个规则的祖先.

如果规则(2)中的项用它在概念分层中的祖先代替,

能得到(1), 而且(1)的支持度和置信度都接近”期望值”,则(1)是冗余的.

多维关联规则

单维

– 买牛奶的会买面包

buys(x,”milk”) = buys(x,”bread”)

多维关联规则: 设计两个或多个维或谓词的关联规则

1.维间关联规则: 不包含重复的谓词

age(X,”19-25”) ∧occupation(X,“student”) => buys(X,“coke”)


2.混合维关联规则: 包含某些谓词的多次出现

age(X,”19-25”) ∧buys(X, “popcorn”) => buys(X, “coke”)


分类属性

具有有限个不同值,值之间无序

量化属性

数值类型的值, 并且值之间有一个隐含的序

挖掘多维关联规则的技术

在多维关联规则挖掘中, 我们搜索的不是频繁项集, 而是频繁谓词集. k-谓词集是包含k个合取谓词的集合.

例如:{age, occupation, buys}是一个3-谓词集


挖掘多维关联规则的技术可以根据量化属性的处理分为两种种基本方法:

1. 量化属性的静态离散化

使用预定义的概念分层对量化属性进行静态地离散化

- 量化属性使用预定义的概念分层,在挖掘前进行离散化

- 数值属性的值用区间代替

- 如果任务相关数据存在关系数据库中, 则找出所有频繁的k-谓词集将需要k或k+1次表扫描

- 数据立方体技术非常适合挖掘多维关联规则

n-维方体的单元用于存放对应n-谓词集的计数或支持度, 0-D方用于存放任务相关数据的事务总数

- 如果包含感兴趣的维的数据立方体已经存在并物化, 挖掘将会很快, 同时可以利用Apriori性质: 频繁谓词集的每个子集也必须是频繁的

2. 量化关联规则

根据数据的分布,将量化属性离散化到“箱”

- 量化关联规则中,数值属性将根据某种挖掘标准,进行动态的离散化

例如:最大化挖掘规则的置信度和紧凑性

- 为了简化量化关联规则挖掘的讨论,我们将聚焦于类似以下形式的2-维量化关联规则:



- 找出这类2-维量化关联规则的方法:关联规则聚类系统(ARCS)

一种源于图像处理的技术,该技术将量化属性对映射到满足给定分类属性条件的2-D栅格上,然后通过搜索栅格点的聚类而产生关联规则

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: