您的位置:首页 > 其它

7、数据仓库和Hive、ETL的关系

2016-12-01 00:00 197 查看
ETL:是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
其实就是通过MapReduce或者Spark等技术来进行数据的抽取、清洗、转化成“结构化”数据之后,再通过hive等工具load到已经构建好的数据仓库中。
ETL:负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

Hive:是一个数据仓库构建工具,它可以通过derby或者mysql等关系型数据库来记录数据仓库表的元数据描述信息,借助HDFS来存储真正的数据。
在load data local inpath 到数据仓库前,一般都要做ETL的处理,对数据进行字段抽取、处理转换、最后在load到数据仓库中。

总的过程是:ETL对数据进行预处理
Hive构建数据仓库、然后将ETL处理过的数据加载入库。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: