您的位置：首页 > 其它

【转载】Spark On YARN 集群安装部署

2017-05-18 11:34 555 查看

原贴地址：http://wuchong.me/blog/2015/04/04/spark-on-yarn-cluster-deploy/

Spark On YARN 集群安装部署

发表于 2015-04-04   |   分类于分布式系统
|   12
条评论   |   阅读次数 15345

最近毕设需要用到 Spark 集群，所以就记录下了部署的过程。我们知道 Spark 官方提供了三种集群部署方案： Standalone, Mesos, YARN。其中 Standalone 最为方便，本文主要讲述结合 YARN 的部署方案。
软件环境：

Ubuntu 14.04.1 LTS (GNU/Linux 3.13.0-32-generic x86_64)

Hadoop: 2.6.0

Spark: 1.3.0

0
写在前面

本例中的演示均为非 root 权限，所以有些命令行需要加 sudo，如果你是 root 身份运行，请忽略 sudo。下载安装的软件建议都放在 home 目录之上，比如

~/workspace

中，这样比较方便，以免权限问题带来不必要的麻烦。

1.
环境准备

修改主机名

我们将搭建1个master，2个slave的集群方案。首先修改主机名

vi /etc/hostname

，在master上修改为

master

，其中一个slave上修改为

slave1

，另一个同理。

配置hosts

在每台主机上修改host文件

vi /etc/hosts10.1.1.107 master10.1.1.108 slave110.1.1.109 slave2

配置之后ping一下用户名看是否生效

ping slave1ping slave2

SSH
免密码登录

安装Openssh server

sudo apt-get install openssh-server

在所有机器上都生成私钥和公钥

ssh-keygen -t rsa #一路回车

需要让机器间都能相互访问，就把每个机子上的

id_rsa.pub

发给master节点，传输公钥可以用scp来传输。

scp ~/.ssh/id_rsa.pub spark@master:~/.ssh/id_rsa.pub.slave1

在master上，将所有公钥加到用于认证的公钥文件

authorized_keys

中

cat ~/.ssh/id_rsa.pub* >> ~/.ssh/authorized_keys

将公钥文件

authorized_keys

分发给每台slave

scp ~/.ssh/authorized_keys spark@slave1:~/.ssh/

在每台机子上验证SSH无密码通信

ssh masterssh slave1ssh slave2

如果登陆测试不成功，则可能需要修改文件authorized_keys的权限（权限的设置非常重要，因为不安全的设置安全设置,会让你不能使用RSA功能）

chmod 600 ~/.ssh/authorized_keys

安装
Java

从官网下载最新版
Java 就可以，Spark官方说明 Java 只要是6以上的版本都可以，我下的是 jdk-7u75-linux-x64.gz

在

~/workspace

目录下直接解压

tar -zxvf jdk-7u75-linux-x64.gz

修改环境变量

sudo vi /etc/profile

，添加下列内容，注意将home路径替换成你的：

export WORK_SPACE=/home/spark/workspace/export JAVA_HOME=$WORK_SPACE/jdk1.7.0_75export JRE_HOME=/home/spark/work/jdk1.7.0_75/jreexport PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATHexport CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

然后使环境变量生效，并验证 Java 是否安装成功

$ source /etc/profile #生效环境变量$ java -version #如果打印出如下版本信息，则说明安装成功java version "1.7.0_75"Java(TM) SE Runtime Environment (build 1.7.0_75-b13)Java HotSpot(TM) 64-Bit Server VM (build 24.75-b04, mixed mode)

安装
Scala

Spark官方要求 Scala 版本为 2.10.x，注意不要下错版本，我这里下了 2.10.4，官方下载地址（可恶的天朝大局域网下载
Scala 龟速一般）。
同样我们在

~/workspace

中解压

tar -zxvf scala-2.10.4.tgz

再次修改环境变量

sudo vi /etc/profile

，添加以下内容：

export SCALA_HOME=$WORK_SPACE/scala-2.10.4export PATH=$PATH:$SCALA_HOME/bin

同样的方法使环境变量生效，并验证 scala 是否安装成功

安装配置
Hadoop YARN

下载解压

从官网下载
hadoop2.6.0 版本，这里给个我们学校的镜像下载地址。
同样我们在

~/workspace

中解压

tar -zxvf hadoop-2.6.0.tar.gz

配置
Hadoop

cd ~/workspace/hadoop-2.6.0/etc/hadoop

进入hadoop配置目录，需要配置有以下7个文件：

hadoop-env.sh

，

yarn-env.sh

，

slaves

，

core-site.xml

，

hdfs-site.xml

，

maprd-site.xml

，

yarn-site.xml

在

hadoop-env.sh

中配置JAVA_HOME

# The java implementation to use.export JAVA_HOME=/home/spark/workspace/jdk1.7.0_75

在

yarn-env.sh

中配置JAVA_HOME

# some Java parametersexport JAVA_HOME=/home/spark/workspace/jdk1.7.0_75

在

slaves

中配置slave节点的ip或者host，

slave1slave2

修改

core-site.xml

<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000/</value> </property> <property> <name>hadoop.tmp.dir</name> <value>file:/home/spark/workspace/hadoop-2.6.0/tmp</value> </property></configuration>

修改

hdfs-site.xml

<configuration> <property> <name>dfs.namenode.secondary.http-address</name> <value>master:9001</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/home/spark/workspace/hadoop-2.6.0/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/home/spark/workspace/hadoop-2.6.0/dfs/data</value> </property> <property> <name>dfs.replication</name> <value>3</value> </property></configuration>

修改

mapred-site.xml

<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property></configuration>

修改

yarn-site.xml

<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <property> <name>yarn.resourcemanager.address</name> <value>master:8032</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>master:8030</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>master:8035</value> </property> <property> <name>yarn.resourcemanager.admin.address</name> <value>master:8033</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value>master:8088</value> </property></configuration>

将配置好的

hadoop-2.6.0

文件夹分发给所有slaves吧

scp -r ~/workspace/hadoop-2.6.0 spark@slave1:~/workspace/

启动
Hadoop

在 master 上执行以下操作，就可以启动 hadoop 了。

cd ~/workspace/hadoop-2.6.0 #进入hadoop目录bin/hadoop namenode -format #格式化namenodesbin/start-dfs.sh #启动dfs sbin/start-yarn.sh #启动yarn

验证
Hadoop 是否安装成功

可以通过

jps

命令查看各个节点启动的进程是否正常。在 master 上应该有以下几个进程：

$ jps #run on master3407 SecondaryNameNode3218 NameNode3552 ResourceManager3910 Jps

在每个slave上应该有以下几个进程：

$ jps #run on slaves2072 NodeManager2213 Jps1962 DataNode

或者在浏览器中输入 http://master:8088 ，应该有
hadoop 的管理界面出来了，并能看到 slave1 和 slave2 节点。

Spark安装

下载解压

进入官方下载地址下载最新版
Spark。我下载的是 spark-1.3.0-bin-hadoop2.4.tgz。
在

~/workspace

目录下解压

tar -zxvf spark-1.3.0-bin-hadoop2.4.tgzmv spark-1.3.0-bin-hadoop2.4 spark-1.3.0 #原来的文件名太长了，修改下

配置
Spark

cd ~/workspace/spark-1.3.0/conf #进入spark配置目录cp spark-env.sh.template spark-env.sh #从配置模板复制vi spark-env.sh #添加配置内容

在

spark-env.sh

末尾添加以下内容（这是我的配置，你可以自行修改）：

export SCALA_HOME=/home/spark/workspace/scala-2.10.4export JAVA_HOME=/home/spark/workspace/jdk1.7.0_75export HADOOP_HOME=/home/spark/workspace/hadoop-2.6.0export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopSPARK_MASTER_IP=masterSPARK_LOCAL_DIRS=/home/spark/workspace/spark-1.3.0SPARK_DRIVER_MEMORY=1G

注：在设置Worker进程的CPU个数和内存大小，要注意机器的实际硬件条件，如果配置的超过当前Worker节点的硬件条件，Worker进程会启动失败。

vi slaves

在slaves文件下填上slave主机名：

slave1slave2

将配置好的

spark-1.3.0

文件夹分发给所有slaves吧

scp -r ~/workspace/spark-1.3.0 spark@slave1:~/workspace/

启动Spark

sbin/start-all.sh

验证
Spark 是否安装成功

用

jps

检查，在 master 上应该有以下几个进程：

$ jps7949 Jps7328 SecondaryNameNode7805 Master7137 NameNode7475 ResourceManager

在 slave 上应该有以下几个进程：

$jps3132 DataNode3759 Worker3858 Jps3231 NodeManager

进入Spark的Web管理页面： http://master:8080

运行示例

#本地模式两线程运行./bin/run-example SparkPi 10 --master local[2]#Spark Standalone 集群模式运行./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://master:7077 \ lib/spark-examples-1.3.0-hadoop2.4.0.jar \ 100#Spark on YARN 集群上 yarn-cluster 模式运行./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn-cluster \ # can also be `yarn-client` lib/spark-examples*.jar \ 10

注意 Spark on YARN 支持两种运行模式，分别为

yarn-cluster

和

yarn-client

，具体的区别可以看这篇博文，从广义上讲，yarn-cluster适用于生产环境；而yarn-client适用于交互和调试，也就是希望快速地看到application的输出。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

【转载】Spark On YARN 集群安装部署

Spark On YARN 集群安装部署

0写在前面

1.环境准备

修改主机名

配置hosts

SSH免密码登录

安装Java

安装Scala

安装配置Hadoop YARN

下载解压

配置Hadoop

启动Hadoop

验证Hadoop 是否安装成功

Spark安装

下载解压

配置Spark

启动Spark

验证Spark 是否安装成功

运行示例

0
写在前面

1.
环境准备

SSH
免密码登录

安装
Java

安装
Scala

安装配置
Hadoop YARN

配置
Hadoop

启动
Hadoop

验证
Hadoop 是否安装成功

配置
Spark

验证
Spark 是否安装成功