您的位置:首页 > 其它

Hive开发中面临的问题以及解决方案

2014-03-25 11:33 225 查看
Hive在计算海量数据时,经常会因为数据的倾斜导致任务进行的进度会停滞,甚至最终会任务失败。

数据倾斜一般是由于代码中的join或group
by或distinct的key分布不均导致的,大量经验表明数据倾斜的原因是人为的建表疏忽或业务可以规避的。如果确认业务需要这样倾斜的逻辑。

1.对于是join出的错,那么就是用对于mapjoin;

2.对于是group by出的错,使用两次MR优化,即设定参数:
hive.groupby.skewindata=true;
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: