您的位置：首页 > 其它

数据挖掘笔记（1）——概论、类型

2013-08-26 18:01 176 查看

概论

定义

海量数据自动或半自动有用规律

应用场景

不能清晰地定义问题
数据是否有价值
性价比是否合适

学习方式

监督学习：有分类和评价机制，如 Classification 、Numeric Prediction；
无监督误差：没有明确的分类和评价，如Cluster Analysis；
半监督学习：通过对已有数据学习得出模型，再使用未知数据对该模型进行泛化，提高其覆盖范围。

数据挖掘与以下关系

知识发现：
是知识发现的一部分
机器学习:
属于人工智能，借助人的经验提高机器的智能
OLAP：
和数据库结合紧密，偏统计分析；而数据挖掘发现数据内部之间的关系，可以作为数据挖掘的验证手段；统计是基于假设对数据进行验证，挖掘不知道自己发现什么。
CRM:
是数据挖掘的应用
数据仓库
可实现数据的预处理，和数据挖掘无必然联系

功能

预测

有明确的类定义

Classification

根据类定义判断未知数据属于那个类。类似于方程给出x求y值。
类是有清晰定义，而且是离散的
评价：准确度

Numeric Prediction

预测数值而不是类，数据是连续的
常用方法：回归分析
某些分类技术也可用于数值预测，如决策树、神经元网络方法等。
评价：均方根误差

数据集使用方式：

分成三块，一个是训练集（从该数据得出模型）；一个是调整集（对模型进行调整）；一个是测试集（判断模型是否准确）。其中训练集和调整集来自同一数据集，使用交叉验证、随机取样的方法进行划分，测试集是新数据

关联

Frequent Pattern

目标数据中反复出现的联系，如频繁结构模式、频繁序列模式、频繁项集(销售)
评价：支持度：联系在所有样本出现的比例， P(x Uy)；置信度：联系在有一方出现时的条件概率 P(x | y)

分析

没有明确的类定义

Concept Description

从数据中发现一般特征，并根据这些特征定义概念
数据特征化：对某一类数据特性的汇总，如什么是优质客户
数据区分：目标数据的一般特性和非此类数据进行对比

Cluster Analysis

将目标数据分成相似对象，没有类的定义，需要根据数据建立类
相似性：内部相似最大化；类之间相似最小化
评价：很难
方法： k-mean；基于密度估计

Outlier（离群点） Analysis

与一般模型不一致的点，有可能是噪声和意外
方法：统计、距离、密度、偏差
如果在NumericPrediction中多半认为是噪声，而如果该点比较重要，认为是意外
评价：代价
数据集：直接在数据集上构造模型

Trend Evolution Analysis

发现规律或趋势，包括数据流挖掘、时间序列挖掘、序列模式挖掘
数据流：对实时的数据流发掘，如摄像头
时间序列：有时间特征，如股票趋势
序列模式：如dna序列

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航