Hive开发中面临的问题以及解决方案
2014-03-25 11:33
225 查看
Hive在计算海量数据时,经常会因为数据的倾斜导致任务进行的进度会停滞,甚至最终会任务失败。
数据倾斜一般是由于代码中的join或group
by或distinct的key分布不均导致的,大量经验表明数据倾斜的原因是人为的建表疏忽或业务可以规避的。如果确认业务需要这样倾斜的逻辑。
1.对于是join出的错,那么就是用对于mapjoin;
2.对于是group by出的错,使用两次MR优化,即设定参数:
hive.groupby.skewindata=true;
数据倾斜一般是由于代码中的join或group
by或distinct的key分布不均导致的,大量经验表明数据倾斜的原因是人为的建表疏忽或业务可以规避的。如果确认业务需要这样倾斜的逻辑。
1.对于是join出的错,那么就是用对于mapjoin;
2.对于是group by出的错,使用两次MR优化,即设定参数:
hive.groupby.skewindata=true;
相关文章推荐
- yii2开发遇到的问题以及解决方案
- hive安装过程中遇到的一些问题以及解决方案
- 基于.net core2.1开发遇到的问题记录以及解决方案
- JAX-RS开发(三):ajax访问REST服务时的跨域问题以及jsonp解决方案
- vs2008开发中的问题。以及解决方案
- Tomcat于Eclipse集成开发问题以及解决方案
- IOS开发中遇到的各种问题以及解决方案集锦
- VS系列+QT5开发遇到的部分问题以及解决方案
- 企业应用开发面临的问题以及思考
- 前段开发过程遇到的问题以及解决方案
- Tomcat于Eclipse集成开发问题以及解决方案
- FLEX:开发中碰到的棘手问题以及解决方案(包括悬而未决的)
- AngularJs 开发遇到的问题,以及解决方案
- IOS开发中遇到的各种问题以及解决方案集锦
- 记开发时遇到的两个问题以及解决方案
- 面临的深度学习技术问题以及基于TensorFlow的开发实践
- win8开发中后台音乐播放问题以及解决方案
- ndk开发教程以及问题解决方案
- 微信支付开发中遇到的问题以及注意事项和解决方案
- 分享 Ionic 开发 Hybrid App 中遇到的问题以及后期发布 iOS/Android 的方方面面