您的位置：首页 > 运维架构 > 网站架构

十四、Hive功能架构

2017-02-12 16:19 323 查看

一、Hive 能做什么，与 MapReduce 相比优势在哪里？

使用Hive是基于MapReduce的，在查询统计方面比MapReduce开发起来更简单。

1）Hive 是建立在Hadoop (HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库；

2）一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制；

3）Hive 定义了简单的类SQL 查询语言，称为HQL，它允许熟悉SQL 的用户查询数据；

4）允许用Java开发自定义的函数UDF来处理内置无法完成的复杂的分析工作；

5）Hive没有专门的数据格式（分隔符等可以自己灵活的设定）；
二、为什么说 Hive 是 Hadoop 数据仓库？

Hive是构建在Hadoop之上的数据仓库

1）使用HQL作为查询接口；

2）使用HDFS作为存储；

3）使用MapReduce作为计算；
4）执行程序在Yarn上

三、Hive 架构，分为三个部分来理解

第一部分用户接口Client端

包含CLI（hive shell）、JDBC/ODBC（java访问hive）、WEBUI（浏览器访问hive）
第二部分驱动器（Driver）、元数据（MetaStore）

驱动器（Driver）包含：解析器、编译器、优化器、执行器；

解析器（SQL Parser）：将SQL字符串转换成抽象语法树AST，这一步一般都用第三方工具库完成，比如antlr；对AST进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误(比如select中被判定为聚合的字段在group by中是否有出现)；

编译器（Physical Plan）：将AST编译生成逻辑执行计划；

优化器（Query Optimizer）：对逻辑执行计划进行优化；

执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划。对于Hive来说，就是MR/TEZ/Spark；

元数据: MetaStore

元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；

默认存储在自带的derby数据库中，推荐使用采用MySQL存储。Metastore；
第三部分 Hadoop

使用HDFS进行存储，使用MapReduce进行计算。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： hive 数据仓库 hadoop 大数据

相关文章推荐

新的分享

章节导航