数据预处理与关联规则挖掘
2012-07-26 16:47
281 查看
数据挖掘
数据预处理
数据清理
注:数据清理基于当前数据,所以一般无法改善推荐算法效果一般用于研究
1.
遗漏值:最常用为方法6
1)
忽略元组
2)
人工填写遗漏
3)
使用全局常量填充
4)
使用属性平均值填充
5)
使用与给定元组属同一类的所有样本的平均值
6)
使用最可能的值填充
2.
噪音数据
1)
分箱
2)
聚类
3)
计算机和人工检查
4)
回归(多线性回归)
3.
不一致数据
数据集成
1.
检测属性间的冗余()相关性太大(正或负相关)的冗余属性被去除
2.
元组冗余清除
3.
数值冲突检测处理(不同计量单位等)
数据变换
1.
平滑去噪(分箱聚类回归)
2.
聚集(数据汇总)日销售额=》月销售额
3.
数据泛化概念分层
4.
规范化属性数据按比例缩放
5.
属性构造添加新的属性(height*width=>area)
数据规约
1.
数据方聚集
2.
维规约属性子集选择、决策树
3.
数据压缩小波变换、主要成分分析
4.
数值压缩线性回归直方图聚类
5.
离散化与概念分层
关联规则挖掘
mahout好像少这个
概念:
置信度:confidence(A=>B) =
包含A和B的元组数/包含A的元组属
支持度:support(A=>B)=
包含A和B的元组属/元组总数
概念分层:定义一组由底层概念到高层概念集得映射用于去除冗余信息
频繁集:满足最小支持度的项集
强关联规则根据频繁集挖掘
Apriori算法:
连接->剪枝循环(从事务中提取单子项集->选择满足最小支持度得子项集->生成更大的子项集->剪除不满足最小支持度得子项集->生成更大的子项集->……)
改进:
1.
基于散列的技术:生成单项集得时候生成2项集然后直接删除不满足最小支持度得
2.
事务压缩:不包含任何K项集得事务不包含任何K+1项事务集(删除的不是项
是事务!)
3.
划分:划分事务为n部分找出每个部分的频繁项集,在候选项集中查找全局频繁项集
4.
选样:类似于划分但是只有一小部分参与第一步的查找频繁项集其他的只做验证(会丢失有效解)
5.
动态项集计数
FP树:
FP树挖掘
1.
创建树的根节点
2.
对每个单项集支持度排序
3.
每一个事务按照排序好的项集顺序进行处理并创建一个分支
1)
尽量利用共享前缀
2)
修改叶节点的支持度值
4.
对2中生成的单项集逆序处理
5.
生成满足支持度得频繁子集
多维管理规则
1.
递减支持度
2.
逐层独立
3.
层交叉单项过滤
4.
层交叉K-项集过滤(受控的层交叉单项过滤=)基于传递阀值=》常用)
基于时序的关联规则
数据预处理
数据清理
注:数据清理基于当前数据,所以一般无法改善推荐算法效果一般用于研究
1.
遗漏值:最常用为方法6
1)
忽略元组
2)
人工填写遗漏
3)
使用全局常量填充
4)
使用属性平均值填充
5)
使用与给定元组属同一类的所有样本的平均值
6)
使用最可能的值填充
2.
噪音数据
1)
分箱
2)
聚类
3)
计算机和人工检查
4)
回归(多线性回归)
3.
不一致数据
数据集成
1.
检测属性间的冗余()相关性太大(正或负相关)的冗余属性被去除
2.
元组冗余清除
3.
数值冲突检测处理(不同计量单位等)
数据变换
1.
平滑去噪(分箱聚类回归)
2.
聚集(数据汇总)日销售额=》月销售额
3.
数据泛化概念分层
4.
规范化属性数据按比例缩放
5.
属性构造添加新的属性(height*width=>area)
数据规约
1.
数据方聚集
2.
维规约属性子集选择、决策树
3.
数据压缩小波变换、主要成分分析
4.
数值压缩线性回归直方图聚类
5.
离散化与概念分层
关联规则挖掘
mahout好像少这个
概念:
置信度:confidence(A=>B) =
包含A和B的元组数/包含A的元组属
支持度:support(A=>B)=
包含A和B的元组属/元组总数
概念分层:定义一组由底层概念到高层概念集得映射用于去除冗余信息
频繁集:满足最小支持度的项集
强关联规则根据频繁集挖掘
Apriori算法:
连接->剪枝循环(从事务中提取单子项集->选择满足最小支持度得子项集->生成更大的子项集->剪除不满足最小支持度得子项集->生成更大的子项集->……)
改进:
1.
基于散列的技术:生成单项集得时候生成2项集然后直接删除不满足最小支持度得
2.
事务压缩:不包含任何K项集得事务不包含任何K+1项事务集(删除的不是项
是事务!)
3.
划分:划分事务为n部分找出每个部分的频繁项集,在候选项集中查找全局频繁项集
4.
选样:类似于划分但是只有一小部分参与第一步的查找频繁项集其他的只做验证(会丢失有效解)
5.
动态项集计数
FP树:
FP树挖掘
1.
创建树的根节点
2.
对每个单项集支持度排序
3.
每一个事务按照排序好的项集顺序进行处理并创建一个分支
1)
尽量利用共享前缀
2)
修改叶节点的支持度值
4.
对2中生成的单项集逆序处理
5.
生成满足支持度得频繁子集
多维管理规则
1.
递减支持度
2.
逐层独立
3.
层交叉单项过滤
4.
层交叉K-项集过滤(受控的层交叉单项过滤=)基于传递阀值=》常用)
基于时序的关联规则
相关文章推荐
- 数据挖掘中的预处理——以电信客户流失问题为例
- 3.数据挖掘概念笔记——数据预处理
- 使用SQL Server Analysis Services数据挖掘的关联规则实现商品推荐功能(八)
- 数据挖掘系列(3)--关联规则评价
- 关联规则项目[数据挖掘]关联规则挖掘
- 数据挖掘常用技术 关联规则
- 数据预处理和weka.filters的使用--数据挖掘学习和weka使用(三)
- Python数据挖掘入门与实践(二)——scikit-learn数据的预处理转换器以及流水线
- 数据挖掘算法基础-关联规则
- 数据挖掘系列(5)使用mahout做海量数据关联规则挖掘
- 基于.NET实现数据挖掘--关联规则分析算法
- 运维大数据日记:故障根源分析之关联规则挖掘
- 浅谈数据挖掘中的关联规则挖掘
- 数据挖掘 关联规则的FP-growth-tree(FP增长树)的python实现 使用方法
- 数据挖掘算法之关联规则挖掘(二)FPGrowth算法
- 使用SQL Server Analysis Services数据挖掘的关联规则实现商品推荐功能(八)
- 数据挖掘(4):使用weka做关联规则挖掘
- 关联规则-web数据挖掘学习2
- 使用SQL Server Analysis Services数据挖掘的关联规则实现商品推荐功能(六)
- 数据挖掘之文本分类的数据预处理