您的位置：首页 > 其它

spark on yarn

2016-11-30 14:22 323 查看

启动

确保HADOOP_CONF_DIR 或YARN_CONF_DIR 指向相应的目录。

有两种启动方式：cluster mode 和 client mode。

cluster mode：

./bin/spark-submit --class path.to.your.Class --master yarn --deploy-mode cluster [options] <app jar> [app options]

./bin/spark-submit --class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \ //集群模式
--driver-memory 4g \
--executor-memory 2g \
--executor-cores 1 \
--queue thequeue \
lib/spark-examples*.jar \
10

client mode :

./bin/spark-shell --master yarn --deploy-mode client

从广义上讲,，yarn-cluster适用于生产环境；而yarn-client适用于交互和调试，也就是希望快速地看到application的输出。在我们介绍yarn-cluster和yarn-client的深层次的区别之前，我们先明白一个概念：Application Master。在YARN中，每个Application实例都有一个Application Master进程，它是Application启动的第一个容器。它负责和ResourceManager打交道，并请求资源。获取资源之后告诉NodeManager为其启动container。

从深层次的含义讲,，yarn-cluster和yarn-client模式的区别其实就是Application Master进程的区别，yarn-cluster模式下，driver运行在AM(Application Master)中，它负责向YARN申请资源，并监督作业的运行状况。当用户提交了作业之后，就可以关掉Client，作业会继续在YARN上运行。然而yarn-cluster模式不适合运行交互类型的作业。而yarn-client模式下，Application Master仅仅向YARN请求executor，client会和请求的container通信来调度他们工作，也就是说Client不能离开。

Adding Other JARs

./bin/spark-submit --class my.main.Class \
--master yarn \
--deploy-mode cluster \
--jars my-other-jar.jar,my-other-other-jar.jar \
my-main-jar.jar \
app_arg1 app_arg2

调式程序

在yarn里，spark程序都运行在containers里。yarn有两种模式来处理container的log,如果 log aggregation被打开了的话（yarn.log-aggregation-enable配置），那么它的日志会被拷贝到hdfs且本地日志会被删除，我们能够用以下命令来查看日志。

yarn logs -applicationId <app ID>

hdfs的日志目录通过yarn.nodemanager.remote-app-log-dir 和yarn.nodemanager.remote-app-log-dir-suffix来配置。当然也可以在sparkui上看到，不过必须配置 yarn-site.xml中的yarn.log.server.url属性。如果 log aggregation没有被打开，那么日志可以在YARN_APP_LOGS_DIR中可以看到，它通常指向/tmp/logs 或$HADOOP_HOME/logs/userlogs

Spark属性

Kerberos 认证

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航