您的位置:首页 > 其它

数据仓库与数据挖掘的OLAP技术----韩家炜教授的《数据挖掘概念与技术》学习笔记

2015-08-05 12:40 218 查看

数据仓库与数据挖掘的OLAP技术

1.数据仓库

Ø 概念:数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.

Ø 关键特征:

v 面向主题:围绕一些主题;关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理(这是数据库的任务)。排除对于决策无用的数据,提供特定主题的简明视图。

v 数据集成:由异种数据源(关系数据库,一般文件,联机事务处理记录)集成构成的;使用数据清理和数据集成技术。

v 随时间而变化:数据仓库的时间范围比操作数据库要长的多,每一个关键结构都隐式或显式地包含时间元素。

v 数据不易丢失:数据是只读的(除了初始转载),不需要事务处理,恢复,和并发控制。

Ø 建立数据仓库

数据集成,数据清理和数据统一

对于异种数据库的集成,传统的数据库做法:包装程序和集成程序 --》查询驱动

数据仓库做法:异种源的信息预先集成 --》更新驱动

Ø 操作数据库系统(OLTP)与数据数据仓库(OLAP)的区别

特征

OLTP

OLAP

用户和系统的面向性

顾客

市场

数据内容

当前详细的数据

历史汇总的数据

数据库设计

ER模型,面向应用的数据库设计

星型。雪花模型和面向主题的数据库设计

视图

当前的,企业内部的数据

经过演化的集成的数据

访问模式

事务操作

事务查询

任务单位

简短的事务

复杂的查询

数据访问量

数十个

数百万条

用户数

数千个

数百个

DB规模

100M-数GB

100GB-数TB

优先性

高性能,高可用性

高灵活,端点用户自治

度量

事务吞吐量

查询吞吐量,响应时间

Ø 数据仓库的存在价值

v 提高两个系统的性能:操作数据库是为已知的任务和负载设计的,数据仓库涉及大量数据在汇总级的计算,在操作数据库上处理OLAP查询,可能大大降低操作人物的性能。

v 系统中数据的结构,内容和用法都不相同:操作数据库只维护详细的原始数据,而数据仓库将一种源的数据统一,产生高质量的,纯净的和集成的数据用于决策

2.多维数据模型

Ø 基本概念:

v 数据方:允许以多维数据建模和观察,由维和事实定义

v 维:记录的视角或视点,每个维都有一个表与之相关联,称为维表。

v 事实表:包括事实的名称或度量以及每个相关维表的关键字。

Ø 数据库模式:

v 星型模型:一个大的事实表+一组小的维表



v 雪花模型:对星型模型的维表进行规范化,减少冗余



v 事实星座:多个事实表共享维表



Ø 数据集市

数据仓库搜集了关于整个组织的主题信息,是企业范围的,采用事实星座模式

数据集市是数据仓库的一个部门子集,针对选定主题,是部门范围的,采用星型模式

Ø 数据挖掘查询语言(DMQL)

v 原语定义:

立方体定义 (事实表)

define cube <cube_name> [<dimension_list>]:

<measure_list>

维定义 (维表)

define dimension <dimension_name> as (<attribute_or_subdimension_list>)

v 实例(图2.6事实星座模式用DMQL定义)



Ø 度量

v 概念:数据方的度量是一个数值函数,该函数可以对数据方的每一个点求值,通过对给定的各维-值对聚集数据,计算该店的度量值。

v 分类

² 分布的:将函数用于n个聚集值得到的结果,与将函数用于所有数据得到的结果一样,则该函数可以用分布方式计算。如,count(),min(), max(), sum()

² 代数的:能够由一个具有M个参数的代数函数计算,而每个参数都可以用一个分布聚集函数求得。如,avg(),max()

² 整体的:不存在一个具有M个(其中,M是常数)参数的代数函数进行这一计算。如,rank(),median()

Ø 概念分层

定义一个映射序列,将底层概念到更一般的高层概念

v 模式分层



v 集合分组分层



Ø OLAP操作

v 上卷:沿概念分层向上攀升,或维规约

v 下钻:沿概念分层向下,或引入新的维

v 切片和切换:在给定的数据方的一个维进行选择,导致一个子方

v 转轴(旋转):转动数据的视角,提供数据的替代表示



3.数据仓库的系统结构

Ø 三层数据仓库结构:

顶层:客户(查询/报告工具,分析工具,数据挖掘工具)

中间层:OLAP服务器(ROLAP,MOLAP)

底层:数据仓库服务器

Ø 数据仓库模型

v 企业仓库:收集关于主题的所有信息,跨越整个组织

v 数据集市:数据集市包含企业范围数据的一个子集,范围限于选定主题

v 虚拟仓库:操作数据库在视图上的集合

Ø OLAP服务器类型

v ROLAP:中间服务器,介于关系后端服务器和用户前端工具之间,使用关系或拓充关系DBMS存放并管理数据仓库,而OLAP中间件支持其余部分。

v MOLAP:基于数组的多维存储引擎,支持数据的多维视图,将多维视图直接映射到数据方数组结构,

v HOLAP:较大的可规模性的ROLAP+快速运算的MOLAP

v 特殊的SQL服务器

4.数据仓库的实现

Ø 数据方的有效计算

v 一个n维数据方的方体,

若每个维都没有分层,则方体总数为:2^n

若每个维不止一层,则方体总数是



v 部分物化:方体选择计算

v 多路数组聚集(例2.12)

Ø 索引OLAP数据

位图索引,连接索引,复合连接索引

Ø 元数据

v 数据仓库存储的描述:仓库模式,视图,维,层次结构,导出数据的定义等

v 操作元数据

v 数据仓库结构

v 汇总用的算法

v 由操作环境到数据仓库的映射

v 关于系统性能的数据

v 商务元数据

Ø 数据仓库后端工具和实用数据

v 数据提取

v 数据清理

v 数据变换

v 装入

v 刷新

5.数据方技术的进一步发展

Ø 发现驱动的探查

预计算的度量指出数据例外,在所有的聚集级指导用户的数据分析过程,我们称这种度量为例外指示符。例外是一个数据方单元值,基于某种统计模型,它显著地不同于预计值。



6.由数据仓库到数据挖掘

Ø 数据仓库的运用:

v 信息处理:基本查询和基本的统计分析

v 分析处理:支持基本的OLAP操作

v 数据挖掘:找出隐藏的模式和关联,构造分析模型,进行分类和预测

Ø 数据挖掘,信息处理,联机数据分析

v 信息处理基于查询,可以发现有用的信息,直接反映存放在数据库中的信息,或通过聚集函数可计算的信息;

v OLAP是数据汇总,聚集工具,帮助简化数据分析;

v 数据挖掘是自动发现隐藏在大量数据中的隐含模式和有趣只是。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: