模式属性数据仓库(六):概念设计
2013-05-12 23:13
260 查看
PS:今天上午,非常郁闷,有很多简略基础的问题搞得我有些迷茫,哎,代码几天不写就忘。目前又不当COO,还是得用心记代码哦!
在数据集市计划中可以使用3种基本的系统方法:数据驱动的方法、需求驱动的方法和混合方法。它们的区分在于源数据库分析和终端用户需求分析阶段所占的比重。方法的选择将极大地影响观点计划的方法。
数据驱动方法包括:基于实体-关系模式的计划、基于关系模式的计划、基于XML模式的计划。观点型实体-关系模式比关系型逻辑模式更具表达力。因此通常以为前者是更好的计划源。但实际情况是公司经常没法供给精确完整的实体-关系模式(丧失、文档不完整或者其他原因)。那么就只能根据数据库的逻辑模式来做。另一方面,Web数据大部份是XML格式的,基于XML模式的计划可以从XML源的模式派生一个数据集市观点模式。
(1)定义事实。
(2)对于每个事实:
a. 建立一个属性树。
b. 修剪和移植属性树。
c. 定义维度。
d. 定义度量。
e. 创立事实模式。
首先从数据源模式中选择相关事实。然后以半自动模式创立属性树。这是一个过渡结构,可用于肯定事实模式的边界以清除不相关属性及修改链接到这些不相关属性的依赖关系(对应步调(2).b)。属性树链接了数据集市和数据源模式。这个链接是数据准备过程的症结。之后将属性树转换为事实模式(步调(2).e)就相对简略了。其中,步调a基于一种算法;步调cde基于属性的目标特性;步调1和b须要深刻懂得公司的商业模型。
爱心是一片照射在冬日的阳光,使贫病交迫的人感到人间的温暖;爱心是一泓出现在沙漠里的泉水,使濒临绝境的人重新看到生活的希望;爱心是一首飘荡在夜空的歌谣,使孤苦无依的人获得心灵的慰藉。
事实通常对应于公司中动态发生的事件。在实体-关系模式中,事实可能对应着一个实体或者E1,E2,...,En实体间的n元关系R。对于后者,为简便起见,可将R转换为一个实体(实体化过程)。为此,添加一个新实体F,并使用F和Ei间的二元关系(Ri)替换R的每个分支。若使用min(E, A)和max(E, A)分别表示最小基数品级和最大基数品级(基数品级是指实体E在相应品级上介入关系A,通常min(E, A)∈{0, 1},max(E, A)∈{1, n}),则:min(F, Ri) = max(F, Ri) = 1, min(Ei, Ri) = min(Ei, R), max(Ei, Ri) = max(Ei, R)。
注意:有时不同的实体可能是表达集体事实的候选。提议选作事实的实体应该是构建包括尽可能多的属性的属性树的实体。
给定实体-关系数据源模式的一个相关部份,以及它的一个被分类为事实的实体F,属性树是满意以下要求的树:
每个节点对应于一个数据源模式属性(简略或复合属性)。
根对应于F实体的标识符。
对于每个节点v,对应的属性通过函数决议了对应于v的后继的所有属性。
《数据仓库计划:现代道理与方法》Matteo Golfarelli,Stefano Rizzi著
文章结束给大家分享下程序员的一些笑话语录:
开发时间
项目经理: 如果我再给你一个人,那可以什么时候可以完工?程序员: 3个月吧!项目经理: 那给两个呢?程序员: 1个月吧!
项目经理: 那100呢?程序员: 1年吧!
项目经理: 那10000呢?程序员: 那我将永远无法完成任务.
在数据集市计划中可以使用3种基本的系统方法:数据驱动的方法、需求驱动的方法和混合方法。它们的区分在于源数据库分析和终端用户需求分析阶段所占的比重。方法的选择将极大地影响观点计划的方法。
数据驱动方法包括:基于实体-关系模式的计划、基于关系模式的计划、基于XML模式的计划。观点型实体-关系模式比关系型逻辑模式更具表达力。因此通常以为前者是更好的计划源。但实际情况是公司经常没法供给精确完整的实体-关系模式(丧失、文档不完整或者其他原因)。那么就只能根据数据库的逻辑模式来做。另一方面,Web数据大部份是XML格式的,基于XML模式的计划可以从XML源的模式派生一个数据集市观点模式。
1 数据驱动方法计划
1.1 基于实体-关系模式的计划
在数据集市的符合维度事实模型(DFM)的观点计划中使用的基于实体-关系模式的技术包括以下步调:(1)定义事实。
(2)对于每个事实:
a. 建立一个属性树。
b. 修剪和移植属性树。
c. 定义维度。
d. 定义度量。
e. 创立事实模式。
首先从数据源模式中选择相关事实。然后以半自动模式创立属性树。这是一个过渡结构,可用于肯定事实模式的边界以清除不相关属性及修改链接到这些不相关属性的依赖关系(对应步调(2).b)。属性树链接了数据集市和数据源模式。这个链接是数据准备过程的症结。之后将属性树转换为事实模式(步调(2).e)就相对简略了。其中,步调a基于一种算法;步调cde基于属性的目标特性;步调1和b须要深刻懂得公司的商业模型。
1.1.1 定义事实
每日一道理爱心是一片照射在冬日的阳光,使贫病交迫的人感到人间的温暖;爱心是一泓出现在沙漠里的泉水,使濒临绝境的人重新看到生活的希望;爱心是一首飘荡在夜空的歌谣,使孤苦无依的人获得心灵的慰藉。
事实通常对应于公司中动态发生的事件。在实体-关系模式中,事实可能对应着一个实体或者E1,E2,...,En实体间的n元关系R。对于后者,为简便起见,可将R转换为一个实体(实体化过程)。为此,添加一个新实体F,并使用F和Ei间的二元关系(Ri)替换R的每个分支。若使用min(E, A)和max(E, A)分别表示最小基数品级和最大基数品级(基数品级是指实体E在相应品级上介入关系A,通常min(E, A)∈{0, 1},max(E, A)∈{1, n}),则:min(F, Ri) = max(F, Ri) = 1, min(Ei, Ri) = min(Ei, R), max(Ei, Ri) = max(Ei, R)。
注意:有时不同的实体可能是表达集体事实的候选。提议选作事实的实体应该是构建包括尽可能多的属性的属性树的实体。
1.1.2 构建属性树
属性树给定实体-关系数据源模式的一个相关部份,以及它的一个被分类为事实的实体F,属性树是满意以下要求的树:
每个节点对应于一个数据源模式属性(简略或复合属性)。
根对应于F实体的标识符。
对于每个节点v,对应的属性通过函数决议了对应于v的后继的所有属性。
1.1.3 修剪和移植属性树
1.1.4 定义维度
1.1.5 定义度量
1.1.6 生成事实模式
1.2 基于关系模式的计划
1.3 基于XML模式的计划
2 混合方法计划
3 需求驱动方法计划
参考资料:《数据仓库计划:现代道理与方法》Matteo Golfarelli,Stefano Rizzi著
文章结束给大家分享下程序员的一些笑话语录:
开发时间
项目经理: 如果我再给你一个人,那可以什么时候可以完工?程序员: 3个月吧!项目经理: 那给两个呢?程序员: 1个月吧!
项目经理: 那100呢?程序员: 1年吧!
项目经理: 那10000呢?程序员: 那我将永远无法完成任务.
相关文章推荐
- 数据仓库(五):数据仓库的概念建模与概念设计-Golfarelli
- 数据仓库(六):数据仓库的概念设计
- 数据仓库的模型设计 A. 数据建模方法论 数据仓库模型设计遵循“自顶向下、逐步求精”的设计原则。 模型设计分为三个阶段: 1,概念模型 对业务的范围和使用,从高度上进行抽象概括,也就是划分主题域。 一
- 关于Hive数据仓库的那些事儿(一)模式设计
- 数据仓库设计小知识之一个属性的维度设计
- 数据仓库(六):概念设计
- 黑马程序员--读写字节数组,随机读写流,集合IO的思维导图,多线程部分,单例设计模式,线程和进程的概念,Java中的线程的创建方式,线程的随机性,线程的状态图,多线程操作共享数据的安全性,死锁
- 数据仓库概念
- 数据仓库的一些基本概念
- 数据仓库之我见 (设计篇)
- BI开发概念之——数据仓库与联机分析处理,数据挖掘
- 使用Publish/Subscribe 设计模式达到对象间数据同步(二)
- 23中经典设计模式基本概念
- 设计模式的概念
- 数据仓库与数据挖掘的一些基本概念
- 数据仓库的基本概念
- tdd,设计模式,重构在软件开发中的概念和角色辨析
- 设计模式(一)——基础概念
- 黑马程序员--高新技术--静态导入,基本数据类型拆箱与装箱,享元设计模式
- Checking Table 设计模式 - 从概念、建模、设计到实现——兼谈基于业务需求驱动的设计模式创新