漫画:什么是数据仓库?
2018-02-05 00:00
543 查看
点击上方“程序员小灰”,选择“置顶公众号”有趣有内涵的文章第一时间送达!
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGpv501Z8KtUsONRlxJcUlIAV3qhWY260fSyVkV4Ha4bhdwaoMCdxibbF7NqdZv86zYyxPIIJVy1ZjA/640?wx_fmt=jpeg)
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGp0j0tIUKvzGSWI9hgiaLu4zAOEkfRu4A2PGLINm7wsUtCsJMAWehibEojEcWXD2MldsSAZLo8ZoV0w/640?wx_fmt=jpeg)
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGp0j0tIUKvzGSWI9hgiaLu4zgJr3WgkDTlnCGyCQ5uMhMEq1EfBRsD1ka2ibcoJNd8d7fmrtaGYkwDg/640?wx_fmt=jpeg)
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGp0j0tIUKvzGSWI9hgiaLu4zruYJWx6aibHMfeaPs6Gvd1AaKPKr4RMKjjkrE4RlI02IhkgBGzK0yBw/640?wx_fmt=jpeg)
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGp0j0tIUKvzGSWI9hgiaLu4z05pKQa1nx7jsgQJYfOGibmzKJLtUsYkgKsFdTxfeqQmaBsF2MeNljng/640?wx_fmt=jpeg)
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_png/NtO5sialJZGrN8LT9OoTULiapyLBqNlTAYbhDR0dJiaGKKmia441aZvK465mUiaxfPJ7yN4C4tqBseW4UjsNL0ibajBA/640?wx_fmt=png)
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGrN8LT9OoTULiapyLBqNlTAYvY8bbicUvKs67gAOUjdYwYmxibfac5ptqBZxH0jlmm5tc3sDP1AovX9w/640?wx_fmt=jpeg)
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGrN8LT9OoTULiapyLBqNlTAYibtrQuZhP69NX2yeTl1H4zVKD8NQPbicAVBmAvm6hd9uibwuI2VcncdRA/640?wx_fmt=jpeg)
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGrN8LT9OoTULiapyLBqNlTAYWY13icJXG57dRMo4oqz9NjLNQR5BibtY9hkD7NVxiaBDfsic5jJDEy6Gcg/640?wx_fmt=jpeg)
一个故事
在很久很久以前,世界上生活着许多种族,有人类,有矮人,有精灵......他们有着不同的信仰,不同的文化,彼此相安无事。可是,有一个猥琐男却偏偏想要统治整个世界。
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGrN8LT9OoTULiapyLBqNlTAYYYQwaPBqc92T2ibj7IibdKwO8hLibtzPFk59uXBf2r9g6dMTRqTIET7VA/640?wx_fmt=jpeg)
如何统治这么多不同文化信仰的种族呢?猥琐男想出一个馊主意,打造出几枚拥有魔力的戒指,免费送给不同种族的领袖,让他们可以更好地统治各自的族人。
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGrN8LT9OoTULiapyLBqNlTAY6znsktOWejUToErLwjBDjMYPJZgibicvcQ0gbPH75frCaDW6HxzhLehw/640?wx_fmt=jpeg)
当各个种族的领袖美滋滋地戴上各自的魔戒,走上人生巅峰的时候,猥琐男又打造出一枚独一无二的至尊魔戒。他利用至尊魔戒的力量控制了所有的魔戒,从而控制了各个种族的领袖,继而控制了整个世界。
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGrN8LT9OoTULiapyLBqNlTAY5TJltG8IBbzQunxkQJib2QictDLeXIC33bd5JEaFo2GsuEdsfo9wPa2Q/640?wx_fmt=jpeg)
这个故事告诉我们:数据库和数据仓库之间的关系。
如果说,那个世界的每一个生命个体都是一条数据记录,那么普通的魔戒的地位就好比是数据库,而至尊魔戒的地位就好比是数据仓库。
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGrN8LT9OoTULiapyLBqNlTAYehZnQRHrpNiaVfTlrxFib4GIOZ0GqB7pciaUH7W8MtRqtJWOhyRNsAdPQ/640?wx_fmt=jpeg)
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGrN8LT9OoTULiapyLBqNlTAYic4sxPiaN8Nlzib6mT31PdNAm8qkQWPZE1CINNvovAicicQLQvq3QtH8hKQ/640?wx_fmt=jpeg)
什么是数据仓库?数据仓库,英文名称Data Warehouse,简写为DW。数据仓库顾名思义,是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。数据仓库的输入方是各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_png/NtO5sialJZGpmauRibMmMQSqicK4jAcYAxWD9CCOrn34UNQEwTVccyGdwwEc9xsYUWjkrKicwBDeberPQe3WvibGwjg/640?wx_fmt=png)
那么,数据仓库都有什么特点呢?
1.主题性不同于传统数据库对应于某一个或多个项目,数据仓库根据使用者实际需求,将不同数据源的数据在一个较高的抽象层次上做整合,所有数据都围绕某一主题来组织。这里的主题怎么来理解呢?比如对于滴滴出行,“司机行为分析”就是一个主题,对于链家网,“成交分析”就是一个主题。
2.集成性数据仓库中存储的数据是来源于多个数据源的集成,原始数据来自不同的数据源,存储方式各不相同。要整合成为最终的数据集合,需要从数据源经过一系列抽取、清洗、转换的过程。3.稳定性数据仓库中保存的数据是一系列历史快照,不允许被修改。用户只能通过分析工具进行查询和分析。4.时变性数据仓库会定期接收新的集成数据,反应出最新的数据变化。这和特点并不矛盾。
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGrN8LT9OoTULiapyLBqNlTAYcPPnNT2DVibI9P0GuYvSYTFAZ0gkGmic77ico0zVUfcbOibOeWppLsOiaEQ/640?wx_fmt=jpeg)
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGrN8LT9OoTULiapyLBqNlTAY4mDdkicicvlpaZicdwS9Ticiciaf28L4eGCiby7oPP8zAibW1icicrT2WdyuWbmA/640?wx_fmt=jpeg)
什么是ETL?
ETL的英文全称是 Extract-Transform-Load 的缩写,用来描述将数据从来源迁移到目标的几个过程:
1.Extract,数据抽取,也就是把数据从数据源读出来。
2.Transform,数据转换,把原始数据转换成期望的格式和维度。如果用在数据仓库的场景下,Transform也包含数据清洗,清洗掉噪音数据。
3.Load 数据加载,把处理后的数据加载到目标处,比如数据仓库。
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_png/NtO5sialJZGrN8LT9OoTULiapyLBqNlTAYiauN7bbhQrXAZZchgiaIg34Yib6EOadAbBwBwTHDicMxI9ibndCGaoic0ppw/640?wx_fmt=png)
主流的数据仓库有哪些?
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGrN8LT9OoTULiapyLBqNlTAY5s3ALXIvUshPMnKPyCiaP5r06FFWE35H9BQ8xoyD7JRd80ZBolbiblEQ/640?wx_fmt=jpeg)
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGrN8LT9OoTULiapyLBqNlTAYrCHpZymUsbpMsrFPfbZt7YiaKEFlzOibRocpS5SSzRYtljC7DQ9GEJvw/640?wx_fmt=jpeg)
这个Hive又是何方神圣呢?
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_png/NtO5sialJZGrN8LT9OoTULiapyLBqNlTAYjt9j6wHpRNfKKbUiaI3JlibGFYq8ZTykdWetibEicYqicFjPUx27Ozhic5Tw/640?wx_fmt=png)
确切地说,Hive是基于Hadoop的数据仓库工具,可以对存储在HDFS上的文件数据集进行查询和分析处理。Hive对外提供了类似于SQL语言的查询语言 HiveQL,在做查询时将HQL语句转换成MapReduce任务,在Hadoop层进行执行。
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_png/NtO5sialJZGrN8LT9OoTULiapyLBqNlTAYiasDCwbPN9JzYt0KkEVR7nJHL0DuewN2gWZF2XquW98tCh1VyevLsbA/640?wx_fmt=png)
这里有几个名词需要解释:
1.HDFSHadoop的分布式文件系统,在这里作为数据仓库的存储层。图中的Data Node就是HDFS的众多工作节点。2.MapReduce一种针对海量数据的并行计算模型,可以简单理解为对多个数据分片的数据转换和合并。
关于HDFS和MapReduce的具体知识,这一期暂时不做展开,小灰会在后续的漫画中详细介绍。
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGrN8LT9OoTULiapyLBqNlTAY1gMKia7gn6OjckWh2FwYffC7tooAEJ1QdqSudHUmFXObtsXAeEtNaIA/640?wx_fmt=jpeg)
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGrN8LT9OoTULiapyLBqNlTAYqv8DVv7NX3kxSmtztYOzqxRHKAgwlF9CslDzskPd0lXiaXNxSnicPiaYA/640?wx_fmt=jpeg)
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGrN8LT9OoTULiapyLBqNlTAYPZzKIjuOK9HQQbVl3HWsuR2xibCSJ3lCwLFFKCDJ2MlsSxOIicjAUUPA/640?wx_fmt=jpeg)
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGrN8LT9OoTULiapyLBqNlTAYOXw4WsT97geK6KGic3Z8ryTL5P4Yp01ziciaHdebQmYecfeQe4mO9ZhlA/640?wx_fmt=jpeg)
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGrN8LT9OoTULiapyLBqNlTAYc5YsQu5coP7a1FkN7NUC8yAhUSfgxicvW2fRu1kQaHvTESxqKwickvwQ/640?wx_fmt=jpeg)
Teradata数据仓库配备性能最高、最可靠的大规模并行处理 (MPP) 平台,能够高速处理海量数据,其性能远远高于Hive。
它使得企业可以专注于业务,无需花费大量精力管理技术,因而可以更加快速地做出明智的决策,实现 ROI(投资回报率) 最大化。
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGrN8LT9OoTULiapyLBqNlTAYpc8tyQj0jnfB8Pf4bratNLictWewBmgSD6ZrUicsYGH7MrmRuE7L9gug/640?wx_fmt=jpeg)
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGrN8LT9OoTULiapyLBqNlTAYtpBtCd7AUcom5oSAl7AEL8w6PUAbGL8mrxiaibd55YMLlGyice1NvycVg/640?wx_fmt=jpeg)
![](http://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/NtO5sialJZGrN8LT9OoTULiapyLBqNlTAYe1o8xhWtaLLyHbtfsuh5IeC6bgiaoMsJtRCg4N78HyQhicBu1kmIQc1w/640?wx_fmt=jpeg)
几点补充:
1.对于大数据方向,小灰也仅仅了解皮毛,漫画中若存在错误或是描述不全面的地方,还请大家多多指正补充。
2.关于Teradata,小灰曾经有幸在这里工作过,虽然不是从事数据仓库领域。Teradata 的确是一款很强大的商业数据仓库,对此有兴趣的同学,可以百度学习一下具体知识。
—————END—————
![](http://ss.csdn.net/p?http://mmbiz.qpic.cn/mmbiz_png/NtO5sialJZGqw92IAtdbsEkxibGC26BI9YcJQzHF4SS9OEiaMhn4Ya6P0TrX50IoD6z7ZoiblrdddQmhySUYSquhnw/640?wx_fmt=png)
喜欢本文的朋友们,欢迎长按下图关注订阅号程序员小灰,收看更多精彩内容
一个故事
在很久很久以前,世界上生活着许多种族,有人类,有矮人,有精灵......他们有着不同的信仰,不同的文化,彼此相安无事。可是,有一个猥琐男却偏偏想要统治整个世界。
如何统治这么多不同文化信仰的种族呢?猥琐男想出一个馊主意,打造出几枚拥有魔力的戒指,免费送给不同种族的领袖,让他们可以更好地统治各自的族人。
当各个种族的领袖美滋滋地戴上各自的魔戒,走上人生巅峰的时候,猥琐男又打造出一枚独一无二的至尊魔戒。他利用至尊魔戒的力量控制了所有的魔戒,从而控制了各个种族的领袖,继而控制了整个世界。
这个故事告诉我们:数据库和数据仓库之间的关系。
如果说,那个世界的每一个生命个体都是一条数据记录,那么普通的魔戒的地位就好比是数据库,而至尊魔戒的地位就好比是数据仓库。
什么是数据仓库?数据仓库,英文名称Data Warehouse,简写为DW。数据仓库顾名思义,是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。数据仓库的输入方是各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。
那么,数据仓库都有什么特点呢?
1.主题性不同于传统数据库对应于某一个或多个项目,数据仓库根据使用者实际需求,将不同数据源的数据在一个较高的抽象层次上做整合,所有数据都围绕某一主题来组织。这里的主题怎么来理解呢?比如对于滴滴出行,“司机行为分析”就是一个主题,对于链家网,“成交分析”就是一个主题。
2.集成性数据仓库中存储的数据是来源于多个数据源的集成,原始数据来自不同的数据源,存储方式各不相同。要整合成为最终的数据集合,需要从数据源经过一系列抽取、清洗、转换的过程。3.稳定性数据仓库中保存的数据是一系列历史快照,不允许被修改。用户只能通过分析工具进行查询和分析。4.时变性数据仓库会定期接收新的集成数据,反应出最新的数据变化。这和特点并不矛盾。
什么是ETL?
ETL的英文全称是 Extract-Transform-Load 的缩写,用来描述将数据从来源迁移到目标的几个过程:
1.Extract,数据抽取,也就是把数据从数据源读出来。
2.Transform,数据转换,把原始数据转换成期望的格式和维度。如果用在数据仓库的场景下,Transform也包含数据清洗,清洗掉噪音数据。
3.Load 数据加载,把处理后的数据加载到目标处,比如数据仓库。
主流的数据仓库有哪些?
这个Hive又是何方神圣呢?
确切地说,Hive是基于Hadoop的数据仓库工具,可以对存储在HDFS上的文件数据集进行查询和分析处理。Hive对外提供了类似于SQL语言的查询语言 HiveQL,在做查询时将HQL语句转换成MapReduce任务,在Hadoop层进行执行。
这里有几个名词需要解释:
1.HDFSHadoop的分布式文件系统,在这里作为数据仓库的存储层。图中的Data Node就是HDFS的众多工作节点。2.MapReduce一种针对海量数据的并行计算模型,可以简单理解为对多个数据分片的数据转换和合并。
关于HDFS和MapReduce的具体知识,这一期暂时不做展开,小灰会在后续的漫画中详细介绍。
Teradata数据仓库配备性能最高、最可靠的大规模并行处理 (MPP) 平台,能够高速处理海量数据,其性能远远高于Hive。
它使得企业可以专注于业务,无需花费大量精力管理技术,因而可以更加快速地做出明智的决策,实现 ROI(投资回报率) 最大化。
几点补充:
1.对于大数据方向,小灰也仅仅了解皮毛,漫画中若存在错误或是描述不全面的地方,还请大家多多指正补充。
2.关于Teradata,小灰曾经有幸在这里工作过,虽然不是从事数据仓库领域。Teradata 的确是一款很强大的商业数据仓库,对此有兴趣的同学,可以百度学习一下具体知识。
—————END—————
喜欢本文的朋友们,欢迎长按下图关注订阅号程序员小灰,收看更多精彩内容
相关文章推荐
- 漫画:什么是数据仓库?
- 什么是数据仓库-数据仓库的基本概念
- 什么是数据仓库?
- 数据仓库是什么
- 什么是数据仓库-数据仓库的基本概念
- 数据库与数据仓库的区别是什么
- 数据仓库和数据库有什么区别
- 数据仓库和数据库有什么区别
- 【数据仓库】什么是数据仓库?
- 回复网友提问:云计算,大数据,数据库,数据仓库之间是什么关系
- 什么是大数据?漫谈大数据仓库与挖掘系统
- 数据仓库是干什么的,到现在,我终于看到了成果
- 什么是数据仓库总线架构
- 什么是数据仓库及其与传统型关系数据库的区别
- 什么是数据仓库主题
- 什么是数据仓库
- 漫画:什么是大数据?
- 什么是数据仓库,什么是ETL
- 什么是数据仓库的主题
- 数据云计算回复网友提问:云计算,大数据,数据库,数据仓库之间是什么关系