HiveQL查询中JOIN语句
2017-03-16 09:19
162 查看
Hive支持常用到的SQL JOIN语句,但是只支持等值连接。
内连接(INNER JOIN)中,只有进行连接的两个表中都存在与连接标准相匹配的数据才会展示出来。例如: 查询每个部门下的员工列表
查询语句:
查询结果:
t.deptname e.name
bss wangwu1
bss wangwu2
pso wangwu3
pso wangwu4
Hive同时假定查询中的最后一个表示最大的那个表。在对每行记录进行连接操作时候,他们会尝试将其他的表缓存起来,然后扫描最后的那个表进行计算。因此,用户需要保证连接的表的大小从左到有是依次增加的。
假定dept是小表,employees是大表,一般的解决方案:
但是,用户并非总是要讲最大的放置在查询语句的最后面。这是因为Hive还提供了一个“标记”机制来显示地告知查询优化器哪张表是最大的表,使用方式如下:
除上述join的优化外,也可以通过map-site join进行优化。
left join 是left outer join的简写,left join默认是outer属性的。
通过两种方法分别统计 查询每个部门的员工人员列表
l 使用left join:左边关联的表全部显示出来
输出结果:
t.deptname name
bss wangwu1
bss wangwu2
pso wangwu3
pso wangwu4
bdx 该部门暂无人员
l 使用right join: 右边的表数据全部显示出来
输出结果:
t.deptname name
bss wangwu1
bss wangwu2
pso wangwu3
pso wangwu4
bdx 该部门暂无人员
查询所有的员工信息,这些员工的信息所属部门必须在dept中
两种方案可以实现:
方案1:通过INNER JOIN
方案2:通过LEFT SEMI JOIN
注意: SELECT和WHERE语句中不能饮用到右边表中的字段
通过两种实现对比,一般情况下LEFT SEMI JOIN和INNER JOIN要更高效,原因如下:对于左表中的一条记录,在右边表中一旦找到匹配的记录,Hive就立即停止扫描。而不是匹配上要再次全表扫描右边的表。需要注意的: 通过这两个方案还有一个区别,就是若右边的表dept存在重复的记录,查询的结果是不一样的,原因就在于在查找dept记录时候存在是否终止的问题。
笛卡尔积是一种连接,表示左表和行数乘以右表的行数就是笛卡尔积的结果。
select * from dept t join employees e;
一般情况下,这种没有条件的业务很少存在,但是笛卡尔积在一些情况下是很有用的。例如:
假设: 用户偏好表A,新闻文章B,同时有一个算法推测出用户(A)可能会喜欢读哪些文章(B),这个时候就需要使用笛卡尔积生成用户A和文章B所有网页的对应关系的集合。
如果所有表中只有一张表是小表,那么可以在最大的表通过Mapper的时候将小标完全放倒内存中。Hive可以在map端执行连接过程(称为map-site join)。这样做的优点:
l 小表加入内存,省去常规连接操作所需要的reduce过程
l 同时减少map过程的执行步骤
需要注意的是,用户有两种方式使用该功能
(1) 直接通过SQL声明
select /*+mapjoin(t)*/ t.deptname,e1.name
from employees e1 join dept t on t.deptno=e1.deptno
where e1.country='China';
(2) Hive配置来启用,用户也可以配置能够使用这个优化的小表大小
set hive.auto.convert.join=true;
set hive.mapjoin.smalltable.filesize=250000;
select t.deptname,e1.name
from employees e1 join dept t on t.deptno=e1.deptno
where e1.country='China';
4.1 INNER JOIN
内连接(INNER JOIN)中,只有进行连接的两个表中都存在与连接标准相匹配的数据才会展示出来。例如: 查询每个部门下的员工列表查询语句:
select t.deptname,e.name from employees e inner join dept t on e.deptno=t.deptno |
t.deptname e.name
bss wangwu1
bss wangwu2
pso wangwu3
pso wangwu4
4.2 JOIN优化
Hive同时假定查询中的最后一个表示最大的那个表。在对每行记录进行连接操作时候,他们会尝试将其他的表缓存起来,然后扫描最后的那个表进行计算。因此,用户需要保证连接的表的大小从左到有是依次增加的。假定dept是小表,employees是大表,一般的解决方案:
select t.deptname,e.name from dept t join employees e on t.deptno=e.deptno |
select /*+STREAMTABLE(e1)*/ t.deptname,e1.name from employees e1 join dept t on t.deptno=e1.deptno where e1.country='China'; |
4.3 LEFT/RIGHT OUTER JOIN
left join 是left outer join的简写,left join默认是outer属性的。通过两种方法分别统计 查询每个部门的员工人员列表
l 使用left join:左边关联的表全部显示出来
select t.deptname,case when e.name is NULL then '该部门暂无人员' else e.name end as name from dept t left join employees e on t.deptno=e.deptno |
t.deptname name
bss wangwu1
bss wangwu2
pso wangwu3
pso wangwu4
bdx 该部门暂无人员
l 使用right join: 右边的表数据全部显示出来
select t.deptname,case when e.name is NULL then '该部门暂无人员' else e.name end as name from employees e right join dept t on e.deptno=t.deptno; |
t.deptname name
bss wangwu1
bss wangwu2
pso wangwu3
pso wangwu4
bdx 该部门暂无人员
4.5 LEFT SEMI-JOIN
查询所有的员工信息,这些员工的信息所属部门必须在dept中两种方案可以实现:
方案1:通过INNER JOIN
select e.* from dept t inner join employees e on t.deptno=e.deptno |
select e.* from employees e left semi join dept t on ( e.deptno=t.deptno and t.deptno='d001') |
通过两种实现对比,一般情况下LEFT SEMI JOIN和INNER JOIN要更高效,原因如下:对于左表中的一条记录,在右边表中一旦找到匹配的记录,Hive就立即停止扫描。而不是匹配上要再次全表扫描右边的表。需要注意的: 通过这两个方案还有一个区别,就是若右边的表dept存在重复的记录,查询的结果是不一样的,原因就在于在查找dept记录时候存在是否终止的问题。
4.6 笛卡尔积JOIN
笛卡尔积是一种连接,表示左表和行数乘以右表的行数就是笛卡尔积的结果。select * from dept t join employees e;
一般情况下,这种没有条件的业务很少存在,但是笛卡尔积在一些情况下是很有用的。例如:
假设: 用户偏好表A,新闻文章B,同时有一个算法推测出用户(A)可能会喜欢读哪些文章(B),这个时候就需要使用笛卡尔积生成用户A和文章B所有网页的对应关系的集合。
4.6 map-site JOIN
如果所有表中只有一张表是小表,那么可以在最大的表通过Mapper的时候将小标完全放倒内存中。Hive可以在map端执行连接过程(称为map-site join)。这样做的优点:l 小表加入内存,省去常规连接操作所需要的reduce过程
l 同时减少map过程的执行步骤
需要注意的是,用户有两种方式使用该功能
(1) 直接通过SQL声明
select /*+mapjoin(t)*/ t.deptname,e1.name
from employees e1 join dept t on t.deptno=e1.deptno
where e1.country='China';
(2) Hive配置来启用,用户也可以配置能够使用这个优化的小表大小
set hive.auto.convert.join=true;
set hive.mapjoin.smalltable.filesize=250000;
select t.deptname,e1.name
from employees e1 join dept t on t.deptno=e1.deptno
where e1.country='China';
相关文章推荐
- sql语句的联合查询(join 用法)
- thinkphp3.2 join复杂链表查询语句(表重命名/别名)
- SQL高级语句-JOIN 用于根据两个或多个表中的列之间的关系,从这些表中查询数据。
- MySQL5.7性能优化系列(二)——SQL语句优化(2)——使用 Semi-Join半连接变换优化子查询,派生表和视图
- Hive-2.HiveQL查询中JOIN语句
- sql语句联表查询之(join....on)
- sql语句的联合查询(join 用法)
- MySQL查询优化:连接查询排序limit(join、order by、limit语句)
- sql server 各种查询语句详解left jion,right join,full join ,join,inner join ,union all,union等
- MySQL查询优化:连接查询排序limit(join、order by、limit语句)
- 两个sql查询语句之间的左连接left join
- SQL 查询条件放在LEFT OUTER JOIN 的ON语句后与放在WHERE中的区别
- sql语句的联合查询(join 用法)
- MySQL查询优化:连接查询排序limit(join、order by、limit语句)介绍
- SQL 查询条件放在LEFT OUTER JOIN 的ON语句后与放在WHERE中的区别
- 左外连接查询语句(left outer join)
- Mysql 拼接字段查询语句和join查询拼接和时间查询
- LINQ 预编译语句 带JOIN 多表预查询