Spark配置参数调优
2018-01-30 16:48
274 查看
CPU各核负载量很不均匀,内存也没有用满,系统的资源没有得到充分利用,该如何利用?
(1)Spark的RDD的partition个数创建task的个数是对应的;
(2)Partition的个数在hadoop的RDD中由block的个数决定的。
内存:系统总内存数 = work内存大小 * work数 = SPARK_WORKER_MEMORY * SPARK_WORKER_INSTANCES
CPU: 系统总的task数 = work数 * work所占的cores数 = SPARK_WORKER_INSTANCES * SPARK_WORKER_CORES
例子:Cpu(12core) mem(48G)计算task并行度,内存分配情况,调优参数:
SPARK_WORKER_INSTANCES=12
SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=4G
如果没有在spark-env.sh配置文件中配置以上参数,那么Spark运行默认是系统所有的资源,如下图:
如果在spark-env.sh文件中配置了以上参数,则:
export SPARK_WORKER_MEMORY=4g
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=12
(1)Spark的RDD的partition个数创建task的个数是对应的;
(2)Partition的个数在hadoop的RDD中由block的个数决定的。
内存:系统总内存数 = work内存大小 * work数 = SPARK_WORKER_MEMORY * SPARK_WORKER_INSTANCES
CPU: 系统总的task数 = work数 * work所占的cores数 = SPARK_WORKER_INSTANCES * SPARK_WORKER_CORES
例子:Cpu(12core) mem(48G)计算task并行度,内存分配情况,调优参数:
SPARK_WORKER_INSTANCES=12
SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=4G
如果没有在spark-env.sh配置文件中配置以上参数,那么Spark运行默认是系统所有的资源,如下图:
如果在spark-env.sh文件中配置了以上参数,则:
export SPARK_WORKER_MEMORY=4g
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=12
相关文章推荐
- Spark配置参数调优
- spark参数配置调优
- Spark调优-参数及配置
- 大数据Spark “蘑菇云”行动第99课:Hive性能调优之企业级Mapper和Reducer调优深度细节解密 参数配置
- Spark 性能相关参数配置详解-Storage篇
- 说说我对spark-sql的job的参数调优
- Redis配置文件各项参数说明及性能调优
- JVM参数配置与性能调优
- Spark配置参数
- Spark参数配置
- spark-submit参数优化配置
- Spark性能优化:JVM参数调优
- jvm调优具体参数配置
- Hive参数配置调优
- Spark on Yarn:任务提交参数配置
- Hadoop 与 Spark 和 HBase 常用配置参数总结
- 【Spark篇】---Spark中内存管理和Shuffle参数调优
- 第121课: Spark Streaming性能优化:通过摄像头图像处理案例来说明Spark流处理性能评估新方法及性能调优参数测试
- Hadoop、Spark、Hbase常用配置参数总结
- hadoop-2.5.0-cdh5.2.1 + spark-1.2.0-bin-hadoop2.4 配置调优心得