【地理空间数据挖掘】关联规则发现
2015-07-27 22:35
267 查看
关联规则是当前数据挖掘研究的主要方法之一,主要用于确定数据中不同领域之间的联系,找出满足给定支持度和可信度阀值的多个域之间的依赖关系。
在时空分析中,除了经典因子之间的关联(简单关联、时序关联和因果关联等)规则的发现,关联规则分析还可用于探索上下不同事件之间的关联性,如某地的气候异常与该地或者其他地方的灾害之间的关联关系,或者一种事件/现象在空间上成对出现(空间同位),都是关联规则的例子。
关联规则在数据挖掘中的基本形式为
A→B
可解释为”满足A的条件也满足B的条件“,每个这种关联性都有一个有效性或支持度的度量,这种有效性称为置信度,
Confidence(A→B)=P(B|A)=Support(A∪B)support(A)
而支持度表达式
Support(A→B)=P(A∪B) 其中support是D中事务包含A∪B的百分比,即概率。
一般用最小的置信度与支持度来提取有效的规则。
Apriori算法中常出现项集的概念,项集简单地说就是项的集合,包含K个项的集合为K -项集。项集的出现频率就是指包含项集的事务数,称为项集的频率。如果项集满足最小支持度,那么称它为频繁项集,频繁项集k-项集的集合记作Lk
Apriori算法可分为5个步骤进行:
1、制定最小支持度和最小置信度
2、产生出物项集,称为候选项集,若候选项集的支持度大于或等于最小支持度,则该和捏人物项集和为频繁项集
3、读取数据库所有的交易,得出候选1-项集C1(candidate 1-item set)的支持度,再找出频繁1-项集合L1(large 1-item set), 并利用这些频繁1-项集的结合,产生候选2-项集合C2(large 2-item set)。
4、扫描数据库,得出候选2-项集合C2的支持度以后,在找出频繁2-项集合L2, 并利用这些频繁2-项集合L2的结合,产生候选3-项集C3
5、重复扫描数据库,与最小支持度比较,产生更高层次的频繁项集合,再结合产生下一级候选项集,直到用户不再结合产生新的候选项集为止。
此算法要不断重复两个步骤—连接和剪枝。连接就是将频繁项集Lk−1与自身连接产生候选项目集合Ck; 剪枝是因为Ck的成员可能是也可能不是频繁的,但所有的频繁项集k都包含在 Ck中,扫描数据库,确定Ck中每个候选集计数,从而确定Lk。
1、焦点是空间谓词而不是空间项目。
空间谓词通常表示拓扑结构的谓词、表示空间方位的谓词,以及表示距离的谓词等。
2、将事务概念泛化以包含领域,将关联规则的概念泛化为同位规则。
与传统Apriori方法不同,空间关联规则分析的优化算法可通过5个步骤实现:
1、根据查询要求查找相关的空间数据
2、运用相邻等原则描述空间属性和特定属性
3、过滤重要的数据,剔除不满足最小支持度的空间谓词
4、运用兴趣度量等其他手段对数据进一步提纯
5、生成空间关联规则
[注] 摘自《地理空间数据挖掘》
在时空分析中,除了经典因子之间的关联(简单关联、时序关联和因果关联等)规则的发现,关联规则分析还可用于探索上下不同事件之间的关联性,如某地的气候异常与该地或者其他地方的灾害之间的关联关系,或者一种事件/现象在空间上成对出现(空间同位),都是关联规则的例子。
普通关联规则
设I=i1,i2,...,im是项的集合,设任务相关的事务数据集合为D,其中每个T是项的集合,满足T⊆I。设A是一个项集,事务A⊆T,B⊆T,并且A∩B=∅,规则A→B在D中成立。关联规则在数据挖掘中的基本形式为
A→B
可解释为”满足A的条件也满足B的条件“,每个这种关联性都有一个有效性或支持度的度量,这种有效性称为置信度,
Confidence(A→B)=P(B|A)=Support(A∪B)support(A)
而支持度表达式
Support(A→B)=P(A∪B) 其中support是D中事务包含A∪B的百分比,即概率。
一般用最小的置信度与支持度来提取有效的规则。
Apriori算法
(Agrawal 1993)是一种以概率为基础、具有影响的挖掘布尔型关联规则频繁项集(item set)的算法,它使用循环渐进的方式找到数据库中项目的关系,以形成规则。Apriori算法包含两个重要的步骤:①连接;②剪枝(去掉那些没必要的中间结果)。Apriori算法中常出现项集的概念,项集简单地说就是项的集合,包含K个项的集合为K -项集。项集的出现频率就是指包含项集的事务数,称为项集的频率。如果项集满足最小支持度,那么称它为频繁项集,频繁项集k-项集的集合记作Lk
Apriori算法可分为5个步骤进行:
1、制定最小支持度和最小置信度
2、产生出物项集,称为候选项集,若候选项集的支持度大于或等于最小支持度,则该和捏人物项集和为频繁项集
3、读取数据库所有的交易,得出候选1-项集C1(candidate 1-item set)的支持度,再找出频繁1-项集合L1(large 1-item set), 并利用这些频繁1-项集的结合,产生候选2-项集合C2(large 2-item set)。
4、扫描数据库,得出候选2-项集合C2的支持度以后,在找出频繁2-项集合L2, 并利用这些频繁2-项集合L2的结合,产生候选3-项集C3
5、重复扫描数据库,与最小支持度比较,产生更高层次的频繁项集合,再结合产生下一级候选项集,直到用户不再结合产生新的候选项集为止。
此算法要不断重复两个步骤—连接和剪枝。连接就是将频繁项集Lk−1与自身连接产生候选项目集合Ck; 剪枝是因为Ck的成员可能是也可能不是频繁的,但所有的频繁项集k都包含在 Ck中,扫描数据库,确定Ck中每个候选集计数,从而确定Lk。
空间关联规则挖掘
两种方法1、焦点是空间谓词而不是空间项目。
空间谓词通常表示拓扑结构的谓词、表示空间方位的谓词,以及表示距离的谓词等。
2、将事务概念泛化以包含领域,将关联规则的概念泛化为同位规则。
与传统Apriori方法不同,空间关联规则分析的优化算法可通过5个步骤实现:
1、根据查询要求查找相关的空间数据
2、运用相邻等原则描述空间属性和特定属性
3、过滤重要的数据,剔除不满足最小支持度的空间谓词
4、运用兴趣度量等其他手段对数据进一步提纯
5、生成空间关联规则
[注] 摘自《地理空间数据挖掘》
相关文章推荐
- 我是运营,我没有假期
- DB2数据库的安装
- C#实现把指定数据写入串口
- “传奇”图象数据存储方式
- 修复mysql数据库
- SQLServer 数据导入导出的几种方法小结
- MySQL数据备份之mysqldump的使用详解
- C#实现窗体间传递数据实例
- 给你的数据库文件减肥
- Oracle数据更改后出错的解决方法
- C#将Sql数据保存到Excel文件中的方法
- 一道关于数据库(经典父子级 ID 关联)更新题
- C#中枚举类型和radiobox关联操作的方法
- 把excel表格里的数据导入sql数据库的两种方法
- 用文本作数据处理
- 桌面中心(一)创建数据库
- 桌面中心(四)数据显示
- PHP+JS实现大规模数据提交的方法
- PHP关联数组的10个操作技巧
- PHP实现更新中间关联表数据的两种方法