数据挖掘笔记(1)——概论、类型
2013-08-26 18:01
176 查看
概论
定义
海量数据 自动或半自动 有用规律应用场景
不能清晰地定义问题数据是否有价值
性价比是否合适
学习方式
监督学习: 有分类和评价机制,如 Classification 、Numeric Prediction;无监督误差:没有明确的分类和评价,如Cluster Analysis;
半监督学习:通过对已有数据学习得出模型,再使用未知数据对该模型进行泛化,提高其覆盖范围。
数据挖掘与以下关系
知识发现:是知识发现的一部分
机器学习:
属于人工智能,借助人的经验提高机器的智能
OLAP:
和数据库结合紧密,偏统计分析; 而数据挖掘发现数据内部之间的关系,可以作为数据挖掘的验证手段;统计是基于假设对数据进行验证, 挖掘不知道自己发现什么。
CRM:
是数据挖掘的应用
数据仓库
可实现数据的预处理,和数据挖掘无必然联系
功能
预测
有明确的类定义Classification
根据类定义判断未知数据属于那个类。类似于方程给出x求y值。类是有清晰定义,而且是离散的
评价:准确度
Numeric Prediction
预测数值而不是类,数据是连续的常用方法:回归分析
某些分类技术也可用于数值预测,如 决策树、神经元网络方法等。
评价:均方根误差
数据集使用方式:
分成三块,一个是训练集(从该数据得出模型);一个是调整集(对模型进行调整);一个是测试集(判断模型是否准确)。其中训练集和调整集来自同一数据集,使用交叉验证、随机取样的方法进行划分,测试集是新数据关联
Frequent Pattern
目标数据中反复出现的联系,如频繁结构模式、频繁序列模式、频繁项集(销售)评价: 支持度: 联系在所有样本出现的比例, P(x Uy); 置信度:联系在有一方出现时的条件概率 P(x | y)
分析
没有明确的类定义Concept Description
从数据中发现一般特征,并根据这些特征定义概念数据特征化:对某一类数据特性的汇总,如什么是优质客户
数据区分 :目标数据的一般特性和非此类数据进行对比
Cluster Analysis
将目标数据分成相似对象,没有类的定义,需要根据数据建立类相似性: 内部相似最大化; 类之间相似最小化
评价:很难
方法: k-mean; 基于密度估计
Outlier(离群点) Analysis
与一般模型不一致的点,有可能是噪声和意外方法: 统计、距离、密度、偏差
如果在NumericPrediction中多半认为是噪声,而如果该点比较重要,认为是意外
评价:代价
数据集:直接在数据集上构造模型
Trend Evolution Analysis
发现规律或趋势,包括数据流挖掘、时间序列挖掘、序列模式挖掘数据流: 对实时的数据流发掘,如摄像头
时间序列:有时间特征,如股票趋势
序列模式:如dna序列
相关文章推荐
- 《数据挖掘——概念和技术》笔记之概论
- [数据挖掘课程笔记]人工神经网络(ANN)
- 数据挖掘笔记:Review_2
- python系列笔记一:基本数据类型
- 数据挖掘笔记
- 数据挖掘笔记
- SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(三)
- Java笔记002---数据类型与运算
- 数据挖掘笔记1
- WebService学习笔记-CXF支持的数据类型
- [Java基础笔记]数据类型和基本运算
- 【数据挖掘笔记六】挖掘频繁模式、关联和相关性:基本概念和方法
- MYSQL学习笔记----MYSQL的数据类型
- 二 redis学习笔记之数据类型
- js学习笔记___基本数据类型与使用
- Objective-C学习笔记(四)-数据类型和循环结构
- Java复习笔记(1)——Java支持数据类型和相关操作
- SQL Server 2005 T-SQL 学习笔记:新数据类型
- [学习笔记]Java基本数据类型包装类
- [javase学习笔记]-6.6 基本数据类型参数与引用数据类型参数的传递过程