spark性能调优
2017-06-20 20:14
239 查看
Spark的性能优化,主要手段包括:
1、使用高性能序列化类库(kyro序列化,自定义类需注册)
2、优化数据结构(优先使用数组和字符串,而不是集合类,也就是使用array,少使用ArrayList, HashMap, LinkedList;使用原始数据类型int等,避免使用多层嵌套对象,可用json串代替)
3、对多次使用的RDD进行持久化 / Checkpoint
4、使用序列化的持久化级别
5、Java虚拟机垃圾回收调优
6、提高并行度
7、广播共享数据
8、数据本地化
9、reduceByKey和groupByKey的合理使用
10、Shuffle调优(核心中的核心,重中之重)
1、使用高性能序列化类库(kyro序列化,自定义类需注册)
2、优化数据结构(优先使用数组和字符串,而不是集合类,也就是使用array,少使用ArrayList, HashMap, LinkedList;使用原始数据类型int等,避免使用多层嵌套对象,可用json串代替)
3、对多次使用的RDD进行持久化 / Checkpoint
4、使用序列化的持久化级别
5、Java虚拟机垃圾回收调优
6、提高并行度
7、广播共享数据
8、数据本地化
9、reduceByKey和groupByKey的合理使用
10、Shuffle调优(核心中的核心,重中之重)
相关文章推荐
- spark性能调优之提高并行度
- Spark性能优化:数据倾斜调优
- Spark性能调优之合理设置并行度
- Spark性能优化:数据倾斜调优
- Spark---性能调优之广播共享数据
- Spark性能优化-------开发调优
- Spark性能优化:数据倾斜调优
- Spark性能优化:开发调优篇
- Spark---性能调优之资源调优篇
- Spark性能调优
- 《Spark商业案例与性能调优实战100课》第29课:彻底解密Spark 1.6.X以前Shuffle中JVM内存使用内幕及配置最佳实践
- Spark性能优化:shuffle调优
- 第121课:Spark Streaming性能优化:通过摄像头图像处理案例来说明Spark流处理性能评估新方法及性能调优参数调试
- Spark&Spark性能调优实战
- 大数据Spark “蘑菇云”行动第100课:Hive性能调优之企业级Join、MapJoin、GroupBy、Count、数据倾斜彻底解密和最佳实践
- Spark性能调优
- 一、Spark性能优化:开发调优篇
- Spark性能调优之解决数据倾斜
- 三、Spark性能优化:数据倾斜调优
- 四、Spark性能优化:shuffle调优