您的位置:首页 > 其它

数据挖掘笔记(1)——概论、类型

2013-08-26 18:01 176 查看

概论

定义

海量数据 自动或半自动 有用规律

应用场景

不能清晰地定义问题
数据是否有价值
性价比是否合适

学习方式

监督学习: 有分类和评价机制,如 Classification 、Numeric Prediction;
无监督误差:没有明确的分类和评价,如Cluster Analysis;
半监督学习:通过对已有数据学习得出模型,再使用未知数据对该模型进行泛化,提高其覆盖范围。

数据挖掘与以下关系

知识发现:
是知识发现的一部分
机器学习:
属于人工智能,借助人的经验提高机器的智能
OLAP:
和数据库结合紧密,偏统计分析; 而数据挖掘发现数据内部之间的关系,可以作为数据挖掘的验证手段;统计是基于假设对数据进行验证, 挖掘不知道自己发现什么。
CRM:
是数据挖掘的应用
数据仓库
可实现数据的预处理,和数据挖掘无必然联系

功能

预测

有明确的类定义

Classification

根据类定义判断未知数据属于那个类。类似于方程给出x求y值。
类是有清晰定义,而且是离散的
评价:准确度

Numeric Prediction

预测数值而不是类,数据是连续的
常用方法:回归分析
某些分类技术也可用于数值预测,如 决策树、神经元网络方法等。
评价:均方根误差

数据集使用方式:

分成三块,一个是训练集(从该数据得出模型);一个是调整集(对模型进行调整);一个是测试集(判断模型是否准确)。其中训练集和调整集来自同一数据集,使用交叉验证、随机取样的方法进行划分,测试集是新数据

关联

Frequent Pattern

目标数据中反复出现的联系,如频繁结构模式、频繁序列模式、频繁项集(销售)
评价: 支持度: 联系在所有样本出现的比例, P(x Uy); 置信度:联系在有一方出现时的条件概率 P(x | y)

分析

没有明确的类定义

Concept Description

从数据中发现一般特征,并根据这些特征定义概念
数据特征化:对某一类数据特性的汇总,如什么是优质客户
数据区分 :目标数据的一般特性和非此类数据进行对比

Cluster Analysis

将目标数据分成相似对象,没有类的定义,需要根据数据建立类
相似性: 内部相似最大化; 类之间相似最小化
评价:很难
方法: k-mean; 基于密度估计

Outlier(离群点) Analysis

与一般模型不一致的点,有可能是噪声和意外
方法: 统计、距离、密度、偏差
如果在NumericPrediction中多半认为是噪声,而如果该点比较重要,认为是意外
评价:代价
数据集:直接在数据集上构造模型

Trend Evolution Analysis

发现规律或趋势,包括数据流挖掘、时间序列挖掘、序列模式挖掘
数据流: 对实时的数据流发掘,如摄像头
时间序列:有时间特征,如股票趋势
序列模式:如dna序列
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: