您的位置:首页 > 运维架构

Catalyst揭秘 Day5 optimizer解析

2016-07-24 14:13 288 查看

Catalyst揭秘 Day5

optimizer解析

Optimizer是目前为止中catalyst中最重要的部分。主要作用是把analyzed logicalPlan变成optimized LogicalPlan。optimizer和analyzer都继承自RuleExecutor。所以表现形式上都差不多。在analyzer基础上理解起来会比较简单。

总体分析

Optimizer类似analyzer,里面有一系列的batches,里面包含了一系列的rules,每个rule都有个迭代次数。为什么有迭代次数呢,因为优化是不断的执行某一过程来改善行为,几乎所有复杂点的程序都会有这样的机制。



Optimizer是怎么进行优化的,有两个级别,分为有算子和表达式级别的优化。因为作用对象是TreeNode,我们可以看到TreeNode有两个子类,QueryPlan和Expression。



而在TreeNode中提供了一系列的树遍历方法,最重要的是transform方法。会把规则运用到所有的子节点,同时,我们从注释可以看到,在操作时不会修改原来的树,只会变成新的树。



规则分析

当然,Optimizer最关键的还是rules的处理。我们简单看下。



四个Push规则,会进行条件下推,更早的过滤掉不需要的元素。

ColumnPrunning,列裁剪,直接选出想要的列,提前消除掉不需要的属性。

CombineFilters、CombineLimits,把多个条件合并为一个条件,减少操作次数。

从总体优化思路看,该合并的合并,该裁剪的裁剪,该简化的进行进化。这块处理是catalyst的精华,现在了解的还比较初步,后面会结合实例,再深入分析下。

欲知后事如何,且听下回分解!

DT大数据每天晚上20:00YY频道现场授课频道68917580
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: