数据仓库与数据挖掘的OLAP技术----韩家炜教授的《数据挖掘概念与技术》学习笔记
2015-08-05 12:40
218 查看
数据仓库与数据挖掘的OLAP技术
1.数据仓库
Ø 概念:数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.Ø 关键特征:
v 面向主题:围绕一些主题;关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理(这是数据库的任务)。排除对于决策无用的数据,提供特定主题的简明视图。
v 数据集成:由异种数据源(关系数据库,一般文件,联机事务处理记录)集成构成的;使用数据清理和数据集成技术。
v 随时间而变化:数据仓库的时间范围比操作数据库要长的多,每一个关键结构都隐式或显式地包含时间元素。
v 数据不易丢失:数据是只读的(除了初始转载),不需要事务处理,恢复,和并发控制。
Ø 建立数据仓库
数据集成,数据清理和数据统一
对于异种数据库的集成,传统的数据库做法:包装程序和集成程序 --》查询驱动
数据仓库做法:异种源的信息预先集成 --》更新驱动
Ø 操作数据库系统(OLTP)与数据数据仓库(OLAP)的区别
特征 | OLTP | OLAP |
用户和系统的面向性 | 顾客 | 市场 |
数据内容 | 当前详细的数据 | 历史汇总的数据 |
数据库设计 | ER模型,面向应用的数据库设计 | 星型。雪花模型和面向主题的数据库设计 |
视图 | 当前的,企业内部的数据 | 经过演化的集成的数据 |
访问模式 | 事务操作 | 事务查询 |
任务单位 | 简短的事务 | 复杂的查询 |
数据访问量 | 数十个 | 数百万条 |
用户数 | 数千个 | 数百个 |
DB规模 | 100M-数GB | 100GB-数TB |
优先性 | 高性能,高可用性 | 高灵活,端点用户自治 |
度量 | 事务吞吐量 | 查询吞吐量,响应时间 |
v 提高两个系统的性能:操作数据库是为已知的任务和负载设计的,数据仓库涉及大量数据在汇总级的计算,在操作数据库上处理OLAP查询,可能大大降低操作人物的性能。
v 系统中数据的结构,内容和用法都不相同:操作数据库只维护详细的原始数据,而数据仓库将一种源的数据统一,产生高质量的,纯净的和集成的数据用于决策
2.多维数据模型
Ø 基本概念:v 数据方:允许以多维数据建模和观察,由维和事实定义
v 维:记录的视角或视点,每个维都有一个表与之相关联,称为维表。
v 事实表:包括事实的名称或度量以及每个相关维表的关键字。
Ø 数据库模式:
v 星型模型:一个大的事实表+一组小的维表
v 雪花模型:对星型模型的维表进行规范化,减少冗余
v 事实星座:多个事实表共享维表
Ø 数据集市
数据仓库搜集了关于整个组织的主题信息,是企业范围的,采用事实星座模式
数据集市是数据仓库的一个部门子集,针对选定主题,是部门范围的,采用星型模式
Ø 数据挖掘查询语言(DMQL)
v 原语定义:
立方体定义 (事实表)
define cube <cube_name> [<dimension_list>]:
<measure_list>
维定义 (维表)
define dimension <dimension_name> as (<attribute_or_subdimension_list>)
v 实例(图2.6事实星座模式用DMQL定义)
Ø 度量
v 概念:数据方的度量是一个数值函数,该函数可以对数据方的每一个点求值,通过对给定的各维-值对聚集数据,计算该店的度量值。
v 分类
² 分布的:将函数用于n个聚集值得到的结果,与将函数用于所有数据得到的结果一样,则该函数可以用分布方式计算。如,count(),min(), max(), sum()
² 代数的:能够由一个具有M个参数的代数函数计算,而每个参数都可以用一个分布聚集函数求得。如,avg(),max()
² 整体的:不存在一个具有M个(其中,M是常数)参数的代数函数进行这一计算。如,rank(),median()
Ø 概念分层
定义一个映射序列,将底层概念到更一般的高层概念
v 模式分层
v 集合分组分层
Ø OLAP操作
v 上卷:沿概念分层向上攀升,或维规约
v 下钻:沿概念分层向下,或引入新的维
v 切片和切换:在给定的数据方的一个维进行选择,导致一个子方
v 转轴(旋转):转动数据的视角,提供数据的替代表示
3.数据仓库的系统结构
Ø 三层数据仓库结构:顶层:客户(查询/报告工具,分析工具,数据挖掘工具)
中间层:OLAP服务器(ROLAP,MOLAP)
底层:数据仓库服务器
Ø 数据仓库模型
v 企业仓库:收集关于主题的所有信息,跨越整个组织
v 数据集市:数据集市包含企业范围数据的一个子集,范围限于选定主题
v 虚拟仓库:操作数据库在视图上的集合
Ø OLAP服务器类型
v ROLAP:中间服务器,介于关系后端服务器和用户前端工具之间,使用关系或拓充关系DBMS存放并管理数据仓库,而OLAP中间件支持其余部分。
v MOLAP:基于数组的多维存储引擎,支持数据的多维视图,将多维视图直接映射到数据方数组结构,
v HOLAP:较大的可规模性的ROLAP+快速运算的MOLAP
v 特殊的SQL服务器
4.数据仓库的实现
Ø 数据方的有效计算v 一个n维数据方的方体,
若每个维都没有分层,则方体总数为:2^n
若每个维不止一层,则方体总数是
v 部分物化:方体选择计算
v 多路数组聚集(例2.12)
Ø 索引OLAP数据
位图索引,连接索引,复合连接索引
Ø 元数据
v 数据仓库存储的描述:仓库模式,视图,维,层次结构,导出数据的定义等
v 操作元数据
v 数据仓库结构
v 汇总用的算法
v 由操作环境到数据仓库的映射
v 关于系统性能的数据
v 商务元数据
Ø 数据仓库后端工具和实用数据
v 数据提取
v 数据清理
v 数据变换
v 装入
v 刷新
5.数据方技术的进一步发展
Ø 发现驱动的探查预计算的度量指出数据例外,在所有的聚集级指导用户的数据分析过程,我们称这种度量为例外指示符。例外是一个数据方单元值,基于某种统计模型,它显著地不同于预计值。
6.由数据仓库到数据挖掘
Ø 数据仓库的运用:v 信息处理:基本查询和基本的统计分析
v 分析处理:支持基本的OLAP操作
v 数据挖掘:找出隐藏的模式和关联,构造分析模型,进行分类和预测
Ø 数据挖掘,信息处理,联机数据分析
v 信息处理基于查询,可以发现有用的信息,直接反映存放在数据库中的信息,或通过聚集函数可计算的信息;
v OLAP是数据汇总,聚集工具,帮助简化数据分析;
v 数据挖掘是自动发现隐藏在大量数据中的隐含模式和有趣只是。
相关文章推荐
- SAPUI5 table formatter
- akoj-1291-决战21点(C#)
- 用expect实现自动输入SSH的SCP信息,且不需要另外的文件
- Struts学习之类型转换
- new/delete和malloc/free的区别和联系
- 华为OJ刷题(一)计算字符串最后一个单词的长度
- java实现打印功能并控制打印方向
- 百度地图转型020,当虚拟照进现实
- tomcat堆大小设置
- Java RandomAccessFile用法
- 第一章 Qt入门
- 使用JavaScript原生API替换Jquery
- LeetCode(96) Unique Binary Search Trees
- 详细介绍Linux shell脚本基础学习(八)
- MFC/C++/C中字符类型CString, int, string, char*之间的转换
- Servlet响应的中文字符集问题
- popToViewController用法
- 洛谷1056 排座椅
- JavaScript实现自动消除按钮功能的方法
- Java 重载、重写、多态