您的位置:首页 > 其它

spark性能调优

2017-06-20 20:14 239 查看
Spark的性能优化,主要手段包括:

1、使用高性能序列化类库(kyro序列化,自定义类需注册)

2、优化数据结构(优先使用数组和字符串,而不是集合类,也就是使用array,少使用ArrayList, HashMap, LinkedList;使用原始数据类型int等,避免使用多层嵌套对象,可用json串代替)

3、对多次使用的RDD进行持久化 / Checkpoint

4、使用序列化的持久化级别

5、Java虚拟机垃圾回收调优

6、提高并行度

7、广播共享数据

8、数据本地化

9、reduceByKey和groupByKey的合理使用

10、Shuffle调优(核心中的核心,重中之重)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: