7、数据仓库和Hive、ETL的关系
2016-12-01 00:00
197 查看
ETL:是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
其实就是通过MapReduce或者Spark等技术来进行数据的抽取、清洗、转化成“结构化”数据之后,再通过hive等工具load到已经构建好的数据仓库中。
ETL:负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
Hive:是一个数据仓库构建工具,它可以通过derby或者mysql等关系型数据库来记录数据仓库表的元数据描述信息,借助HDFS来存储真正的数据。
在load data local inpath 到数据仓库前,一般都要做ETL的处理,对数据进行字段抽取、处理转换、最后在load到数据仓库中。
总的过程是:ETL对数据进行预处理
Hive构建数据仓库、然后将ETL处理过的数据加载入库。
其实就是通过MapReduce或者Spark等技术来进行数据的抽取、清洗、转化成“结构化”数据之后,再通过hive等工具load到已经构建好的数据仓库中。
ETL:负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
Hive:是一个数据仓库构建工具,它可以通过derby或者mysql等关系型数据库来记录数据仓库表的元数据描述信息,借助HDFS来存储真正的数据。
在load data local inpath 到数据仓库前,一般都要做ETL的处理,对数据进行字段抽取、处理转换、最后在load到数据仓库中。
总的过程是:ETL对数据进行预处理
Hive构建数据仓库、然后将ETL处理过的数据加载入库。
相关文章推荐
- Hive定义、Hive与HBase关系、Hive与RDBMS的关系、数据库与数据仓库的区别
- 数据库和数据仓库的关系/HDFS、Hive、MR、Sql、HQL、Mysql
- 数据仓库建模与ETL实践技巧
- 数据仓库建模与ETL实践技巧
- 中烟项目日志:IBM产品与技术描述、BI、数据仓库、ETL
- 数据仓库建模与ETL实践技巧
- 数据仓库建模与ETL实践技巧
- 如何从优化SQL入手提高数据仓库的ETL效率(转载)
- 数据仓库建模与ETL实践技巧
- 数据仓库建模与ETL实践技巧
- 如何从优化SQL入手提高数据仓库的ETL效率(转载)
- 数据集市和数据仓库的关系
- 数据仓库建模与ETL实践技巧
- 数据仓库建模与ETL实践技巧
- 数据仓库建模与ETL实践技巧
- 数据仓库建模与ETL实践技巧[from]
- 设计并实现数据仓库ETL过程(IBM讲座)
- 数据仓库建模与ETL实践技巧
- 数据仓库建模与ETL实践技巧
- ETL学习心得:探求数据仓库关键环节ETL的本质