您的位置:首页 > 其它

Hive中order by、sort by、distribute by、cluster by的区别

2017-12-05 21:44 447 查看
--------Hive的底层是MapReduce--------

order by:对全局数据的一个排序,仅仅只有一个reduce。

sort  by :有多个reduce,对每一个reduce内部数据进行排序,全局结果集没有排序 。

设置reduce的个数:set  mapreduce.job.reduces=[number]

distribute by :类似于MapReduce中partition的功能,对数据进行分区,结合sort by进行使用。但是必须要在sort by之前,因为要先分区,再排序。

cluster by: sort by  和distribute  by的结合,当sort by和distribute by字段相同时使用  cluster  by 。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: