第147课:Spark面试经典系列之Shuffle的性能调优问题
2017-05-05 16:22
561 查看
Spark面试经典系列之Shuffle的性能调优问题
1、Shuffle原理和运行机制回顾2、Shuffle性能调优
上面的流程中:
性能问题1:Mapper端的Cache:如果Cache设置的大小不恰当,可能产生大量磁盘的访问操作,因为要频繁地往本地磁盘写数据。
性能问题2:Reducer端的Business Logic运行的空间,如果说空间分配不够,业务逻辑运行的时候被迫把数据Spill到磁盘上面。一方面造成了业务逻辑处理的时候需要读写磁盘,另一方面也会造成不安全(数据读写故障)
看Log和Web UI上面的信息来判断是否需要调整上面的两个问题所涉及的参数。
针对问题1:Mapper端的性能调优参数是spark.shuffle.file.buffer,默认大小是32k,我们要根据数据量和并发量来适当调整该参数,尽量减少过于频繁的磁盘访问操作,开始是32k,后面可以调整成为64k,128k等等,需观察性能效果。
针对问题2:spark.shuffle.memoryFracton 默认大小是0.2,Reducer端的业务逻辑运行占用Executor内存大小的20%,一个额外的说明:很多公司的Executor中线程的并行度在5个左右,调整的时候可以从0.2调整为0.3,0.4等
相关文章推荐
- 第147课: Spark面试经典系列之Shuffle的性能调优问题
- 第145课: Spark面试经典系列之Yarn生产环境下资源不足问题、JVM和网络的经典问题详解
- 第143课:Spark面试经典系列之Reduce端OOM和shuffle file not found如何解决
- 第144课:Spark面试经典系列之NULL值问题及序列化错误
- 第146课: Spark面试经典系列之Yarn Cluster生产环境下JVM问题及解决方案
- 第143课: Spark面试经典系列之Reduce端OOM和shuffle file not found如何解决?
- 第145课:Spark面试经典系列之Yarn生产环境下资源不足问题和网络的经典问题详解
- 《Spark商业案例与性能调优实战100课》第27课:彻底解密Spark Shuffle令人费解的6大经典问题
- 第146课:Spark面试经典系列之Yarn Cluster生产环境下JVM的OOM和Stack Overflow问题
- 第137课: Spark面试经典系列之数据倾斜解决之Map 端Reduce及问题思考
- 第144课: Spark面试经典系列之NULL值问题及序列化错误
- 第139课: Spark面试经典系列之数据倾斜解决之对于两个RDD数据量都很大且倾斜的Key特别多如何解决?
- Spark技术内幕:Shuffle的性能调优
- 性能测试人员面试经典技术问题
- Spark性能优化:shuffle调优
- Spark性能优化第六季-Shuffle性能调优
- 第140课: Spark面试经典系列之数据倾斜解决之并行度的深度使用
- 136课: Spark面试经典系列之数据倾斜解决原理和方法总论.
- Spark性能优化:shuffle调优
- 性能优化系列总篇--性能问题及性能调优方式