spark-shell运行spark任务参数设置
2016-09-23 11:02
549 查看
之前初学spark用spark-shell执行小程序的时候, 每次执行action操作(比如count,collect或者println),都会报错:
WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources
同时如果去spark ui上(公司默认为ip:18080)会看到spark-shell为核数core为0:
原因是启动spark-shell的时候没有给他分配资源, 所以我们应该在启动spark-shell的时候这么写:
其中 :
对于spark-shell还可以在yarn上执行:
这里必须是
以上参数就限制了总cpu核数为10, executor数目为10
但是, 每次执行都要写这么多参数显然很麻烦, 我们也可以通过修改spark-shell的方法将以上参数改成默认, 方法如下:
spark-shell之前代码:
修改为:
之后, 直接运行spark-shell即可
参考: http://www.2cto.com/kf/201511/450843.html
WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources
同时如果去spark ui上(公司默认为ip:18080)会看到spark-shell为核数core为0:
原因是启动spark-shell的时候没有给他分配资源, 所以我们应该在启动spark-shell的时候这么写:
/home/mr/spark/bin/spark-shell --executor-memory 4G \ --total-executor-cores 10 \ --executor-cores 1
其中 :
--executor-memory是指定每个executor(执行器)占用的内存
--total-executor-cores是所有executor总共使用的cpu核数
--executor-cores是每个executor使用的cpu核数
对于spark-shell还可以在yarn上执行:
--master yarn-client
这里必须是
client,不同于spark-submit的
yarn-cluster, 因为spark-shell作为一个与用户交互的命令行,必须将Driver运行在本地,而不是yarn上, 其他的参数与submit一样.
以上参数就限制了总cpu核数为10, executor数目为10
但是, 每次执行都要写这么多参数显然很麻烦, 我们也可以通过修改spark-shell的方法将以上参数改成默认, 方法如下:
spark-shell之前代码:
... ... function main() { ... else export SPARK_SUBMIT_OPTS "$FWDIR"/bin/spark-submit --class org.apache.spark.repl.Main "$@" fi
修改为:
... ... function main() { ... else export SPARK_SUBMIT_OPTS # CUN RESOURCE_OPTIONS="--executor-memory 1G --total-executor-cores 10 --executor-cores 1 " CMD_OPTIONS=$RESOURCE_OPTIONS$@ echo "CMD_OPTIONS: " $CMD_OPTIONS "$FWDIR"/bin/spark-submit --class org.apache.spark.repl.Main --name "Spark shell" $CMD_OPTIONS fi
之后, 直接运行spark-shell即可
参考: http://www.2cto.com/kf/201511/450843.html
相关文章推荐
- Spark提交作业运行原理及其参数设置
- spark-submit 参数设置说明
- spark-2.1.0提交任务的配置参数说明
- -jar参数运行应用时classpath的设置方法
- spark 任务运行原理
- spark:在spark-shell上运行一些sparkSQL简单语句--12
- oracle 任务计划运行带参数的procedure
- 设置Jcreator 3.5,在运行程序时提示输入main函数的参数 (2007-05-22 11:39:50)
- spark-submit 和 spark-shell 后面可跟的参数
- -jar参数运行应用时classpath的设置方法
- hadoop-yarn集群中,通过shell脚本自动化提交spark任务
- eclipse里设置运行参数
- spark 运行内存异常及参数调整
- spark-submit 参数设置说明
- -jar参数运行应用时classpath的设置方法
- nutch运行时参数设置
- 运行sklearn-theano的一个例子:benchmark (卷积的各种参数设置)
- -jar参数运行应用时classpath的设置方法
- maven项目在eclipse开发环境中运行的部分参数设置
- Dynamics AX 2012 R2 为运行失败的批处理任务设置预警