运维系列:06、Spark调优
2014-09-12 10:12
302 查看
1、垃圾回收
在conf/spark-env.sh中添加SPARK_JAVA_OPTS=-verberos:gc -XX;+PrintGCDetails -XX:+PrintGCTimeStamps
如果发现集群耗费过多时间在垃圾回收上,可以通过spark.storage.memoryFaction调低RDD缓存的使用,这个值的默认值是0.66。
如果要运行的是耗时很久的Spark作业,可以通过设定spark.cleaner.ttl为一个非零值n,表示每隔n秒清理一次元数据。默认Spark不会清理任何元数据。
2、persist()缓存
默认都以非序列化模式存储,以节省读取数据时的反序列化开销。如:MEMORY_ONLY
MEMORY_AND_DISK
DISK_ONLY
如果存储级别后面添加了_SER后缀,Spark会在存储时对数据进行序列化,以节省存储空间。
MEMORY_ONLY_SER
MEMORY_AND_DISK_SER
DISK_ONLY_SER
3、序列化
默认使用Java内置的序列化算法,建议使用KyroSerialier算法,针对性的做了优化。可以通过spark.serializer改成org.apache.spark.KryoSerializer来切换
// TODO 实验
相关文章推荐
- 运维系列:02、Spark的部署方式
- 运维系列:03、Spark 单机版
- Spark入门实战系列--6.SparkSQL(中)--深入了解SparkSQL运行计划及调优
- 运维系列:10、Spark监控之Metrics
- Spark入门实战系列--6.SparkSQL(中)--深入了解SparkSQL运行计划及调优
- 【Spark】Spark-性能调优-系列文章
- 运维系列:05、Spark on Yarn
- 第147课: Spark面试经典系列之Shuffle的性能调优问题
- Spark入门实战系列--6.SparkSQL(中)--深入了解运行计划及调优
- hadoop+hbase+hive+Spark环境性能调优---安装系列九
- 第147课:Spark面试经典系列之Shuffle的性能调优问题
- Spark2.0机器学习系列之2:基于Pipeline、交叉验证、ParamMap的模型选择和超参数调优
- 06大数据内存计算spark系列贴-mllib 机器学习
- Spark入门实战系列--6.SparkSQL(中)--深入了解运行计划及调优
- 运维系列:07、spark-submit
- 20170830L08-06老男孩linux实战运维培训-Lamp系列之-Apache服务生产实战应用指南03
- Spark入门实战系列--6.SparkSQL(中)--深入了解SparkSQL运行计划及调优
- Spark入门实战系列--6.SparkSQL(中)--深入了解SparkSQL运行计划及调优
- Spark入门实战系列--6.SparkSQL(中)--深入了解SparkSQL运行计划及调优
- Spark SQL概念学习系列之性能调优