您的位置：首页 > 编程语言

hive代码研究--运行原理（1）- 整体框架

2011-10-30 17:38 295 查看

hive就是一个将sql语句转化为MR工具

hive的工作原理：

1、使用antlr定义sql语法，（详细见hive.g），由antlr工具将hive.g编译为两个java文件：HiveLexer.java HiveParser.java，可以将输入的sql解析为ast树

2、org.apache.hadoop.hive.ql.Driver对ast树进行初步的解析（combile），调用相应的语法分析器进行分析处理（包括DDl，Explain，Load等，其中最重要的是：SemanticAnalyzer）

3、SemanticAnalyzer的主要分析过程：调用analyzeInternal函数

1）doPhase1过程：主要是将sql语句中涉及到的各种信息存储起来，存到QB中去，供后续调用
2）getMetaData：这个过程主要是获取元数据信息，主要是sql中涉及到的表到元数据的关联
3）genPlan：这是最重要的过程之一，主要是生成算子树（operator tree）
4）optimize：优化，对算子树进行一些优化操作，例如列剪枝等
5）genMapRedTasks：这个步骤是最关键的步骤，将算子树通过一定的规则生成若干相互以来的MR任务

4、Driver编译完成以后，开始进入执行阶段（execute），执行过程按照任务树从roottask开始依次执行，直至结束。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航