数据挖掘学习笔记1:引论
2015-05-09 17:27
267 查看
参考自王灿的数据挖掘课程
在线分析处理(OLAP)
数据挖掘(挖掘感兴趣的知识)
查询处理(sql)
事务处理和并发访问的控制
数据访问
挖掘的不仅仅是数据(数据挖掘并非一个精确的用词,知识挖掘,知识提炼更为精确)
#注意 :挖掘的不是数据而是知识和有用的模式!
预测何种因素能够吸引新顾客
统计概要信息(数据集中趋势和变化)
交叉区域分析和时间序列分析
将顾客按等级分组和基于等价的定价过程
将定价策略应用于竞争更激烈的市场中
创建目标数据集: 选择数据
数据清理和预处理(可能占全过程的60%工作)
数据缩减和变换(找到有用特征, 不变量的表示)
数据挖掘的功能
数据总结, 分类模型数据挖掘, 回归分析, 关联规则挖掘等
选择挖掘算法
数据挖掘:寻找感兴趣的模式
模式评估和知识表示(可视化, 转换, 消除冗余模式)
运用发现的知识
- 服务器负责存储查询更新等等.
- 利用数据算法来得到模式
- 模式评估所得的模式,找的感兴趣的模式, (这里需要知识库, 将模式与知识库比较得到有用的模式)
- 将数据图形化展示出来
- 关系型数据库
- 数据仓库
- 事务数据库
- 高级数据库系统和信息库
空间数据库(DBMS), 时间序列数据库,
流数据:与传统的数据库技术相比,六数据在存储,查询访问,实时性要求等方面都有很大区别。
多媒体数据库,对象数据库,对象-关系数据库,异构数据库,文本数据库,www万维网
归结,总结对比数据的特性.
关联分析
发现数据之间的关联规则, 这些规则展示属性一直频繁的在给定的数据中所以其出现的条件,广泛的用于购物蓝分析或事务数据分析.
分类和预测
通过构造模型或函数用来描述和区别类或概念, 用来预测类型标志未知的对象类.
ex: 按气候给国家分类, 按汽油消耗定额将汽车分类.
导出模型的表示: 判定数, 分类规则, 神经网络
用来预报某些未知的或丢失的数字值
最大化类内的相似性和最小化类间的相似性
通常孤立点被作为”噪音”或异常被丢弃, 但是在欺骗检测中却可以通过对罕见的时间进行孤立点分析而得到结论
趋势或偏差: 回归分析
序列模式匹配: 周期性分析
基于类似性的分析
在某种程度上, 对于新的或测试数据是有效的
具有潜在效用
新颖的
符合用户确信的某种假设
主观度量:基于用户对数据的判断, 比如:出乎意料的,新颖的,可行动的等等.
数据挖掘的发展动力
数据爆炸
自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库,数据仓库或其他信息库中以待分析.有丰富的数据但缺乏有用的信息
解决办法
数据仓库(Data Warehouse)在线分析处理(OLAP)
数据挖掘(挖掘感兴趣的知识)
数据库技术的演化
文件系统与数据库系统的区别
数据库系统的特点
数据存储(文件系统有)查询处理(sql)
事务处理和并发访问的控制
文件系统
数据存储数据访问
什么是数据挖掘
数据挖掘
从大量数据中挖掘哪些令人感兴趣的,有用的,隐含的,先前文职的和可能有用的模式或知识挖掘的不仅仅是数据(数据挖掘并非一个精确的用词,知识挖掘,知识提炼更为精确)
#注意 :挖掘的不是数据而是知识和有用的模式!
数据挖掘的替换词
数据库中的知识挖掘(KDDKDD), 知识提炼, 数据/模式分析,数据考古,数据捕捞,信息收货并非所有东西都是”数据挖掘”
数据挖掘的应用
数据分析和决策支持,风险管理等等数据来源
信用卡交易,会员卡,商家的优惠券,投诉电话,公众生活方式研究目标市场
构建一系列的”客户群模型”, 这些顾客具有相同特征: 兴趣爱好,收入水平,消费习惯等等交叉市场分析
联系和相关性分析, 以及基于这种联系上的预测顾客分析
那类顾客购买哪种商品(聚类分析分类)客户需求分析
确定适合不同顾客的最佳商品预测何种因素能够吸引新顾客
提供概要信息
多维度的综合报告统计概要信息(数据集中趋势和变化)
财务计划
现金流转分析和预测交叉区域分析和时间序列分析
资源计划
总结和比较资源和花费竞争
对竞争者和市场趋势的监控将顾客按等级分组和基于等价的定价过程
将定价策略应用于竞争更激烈的市场中
欺诈行为检测
利用聚类和建模并进行孤立点分析知识挖掘的步骤
了解应用领域创建目标数据集: 选择数据
数据清理和预处理(可能占全过程的60%工作)
数据缩减和变换(找到有用特征, 不变量的表示)
数据挖掘的功能
数据总结, 分类模型数据挖掘, 回归分析, 关联规则挖掘等
选择挖掘算法
数据挖掘:寻找感兴趣的模式
模式评估和知识表示(可视化, 转换, 消除冗余模式)
运用发现的知识
典型的数据挖掘系统体系
- 服务器负责存储查询更新等等.
- 利用数据算法来得到模式
- 模式评估所得的模式,找的感兴趣的模式, (这里需要知识库, 将模式与知识库比较得到有用的模式)
- 将数据图形化展示出来
可以在何种数据上进行挖掘
理论上讲任何数据都可以进行挖掘, 但是实际应用中, 有些数据结构不规则不好挖掘.- 关系型数据库
- 数据仓库
- 事务数据库
- 高级数据库系统和信息库
空间数据库(DBMS), 时间序列数据库,
流数据:与传统的数据库技术相比,六数据在存储,查询访问,实时性要求等方面都有很大区别。
多媒体数据库,对象数据库,对象-关系数据库,异构数据库,文本数据库,www万维网
数据挖掘主要方法
概念/类描述: 特征化区分归结,总结对比数据的特性.
关联分析
发现数据之间的关联规则, 这些规则展示属性一直频繁的在给定的数据中所以其出现的条件,广泛的用于购物蓝分析或事务数据分析.
分类和预测
通过构造模型或函数用来描述和区别类或概念, 用来预测类型标志未知的对象类.
ex: 按气候给国家分类, 按汽油消耗定额将汽车分类.
导出模型的表示: 判定数, 分类规则, 神经网络
用来预报某些未知的或丢失的数字值
聚类分析
将类似的数据归类在一起, 形成一个新的类别最大化类内的相似性和最小化类间的相似性
孤立点分析
孤立点: 一些与数据的一般行为或模型不一致的孤立数据通常孤立点被作为”噪音”或异常被丢弃, 但是在欺骗检测中却可以通过对罕见的时间进行孤立点分析而得到结论
趋势和演变的分析
描述行为随时间变化的对象的发展规律或趋势趋势或偏差: 回归分析
序列模式匹配: 周期性分析
基于类似性的分析
其他定向模式或统计分析
所有模式都是有趣的吗
数据挖据可能产生很多模式或规则, 并不是所有的都是令人感兴趣的模式有趣的模式的特征
易于被人理解在某种程度上, 对于新的或测试数据是有效的
具有潜在效用
新颖的
符合用户确信的某种假设
模式兴趣度(有用程度)的客观和主观度量
客观度量: 基于所发现模式的结构和关于他们的统计, ex:支持度,置信度主观度量:基于用户对数据的判断, 比如:出乎意料的,新颖的,可行动的等等.
数据挖掘:多个学科的融合
相关文章推荐
- 数据挖掘学习笔记(一)引论
- 【数据挖掘概念与技术】学习笔记1-引论
- 数据挖掘学习笔记一:引论
- 【数据挖掘概念与技术】学习笔记6-挖掘频繁模式、关联和相关性:基本概念和方法(编缉中)
- Python数据分析与挖掘实战学习笔记(二)
- python数据分析与挖掘学习笔记(6)-电商网站数据分析及商品自动推荐实战与关联规则算法
- SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(五)
- 数据挖掘之Adaboost学习笔记
- 数据挖掘学习笔记:关联规则3
- 数据挖掘笔记(3)-从数据中学习
- 数据挖掘学习笔记--AdaBoost算法(一)
- 数据挖掘学习笔记一
- SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(一)
- R语言与数据挖掘学习笔记
- R语言与数据挖掘学习笔记
- python数据分析与挖掘学习笔记(2)-淘宝商品数据清洗及预处理
- 数据挖掘学习笔记--决策树C4.5
- 数据挖掘学习笔记一:绪论
- SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(一)
- 数据挖掘学习笔记 多维数据模型-数据立方体