您的位置:首页 > 大数据 > Hadoop

Hadoop之Spark2.0.2的安装部署

2018-07-01 14:39 477 查看

Spark-2.1.X及以上的必须安装JDK8及以上的版本,还有各版本与scala、python、R的版本是否兼容需要注意。

我这里的对应环境版本:

名称 版本
JDK 1.7.0_80
Hadoop 2.5.1
Scala 2.11.6
Spark 2.0.2

ps:在linux上安装spark ,前提要部署了Hadoop,并且安装了Scala.

一、下载

1)官网下载(下载速度慢):http://spark.apache.org/downloads.html

2)CSDN下载(推荐):https://download.csdn.net/download/vpqtxzmzezeqjj9977/10511764

二、解压

[root@master Desktop]# tar -zxvf spark-2.0.2-bin-hadoop2.4.tgz
[root@master Desktop]# mv ./spark-2.0.2-bin-hadoop2.4/ /home/hadoop/
[root@master Desktop]# cd /home/hadoop/
[root@master hadoop]# ls
hadoop-2.5.1  mydata      scala-2.11.6               zookeeper-3.4.6
hive          pig-0.13.0  spark-2.0.2-bin-hadoop2.4
[root@master hadoop]#

三、配置环境

1)配置系统环境变量

[root@master hadoop]# vim /etc/profile

# 添加如下内容:
export SPARK_HOME=/home/hadoop/spark-2.0.2-bin-hadoop2.4
export PATH=$SPARK_HOME/bin:$PATH

# :wq 保存退出后别忘了 source
[root@master hadoop]# source /etc/profile

2)配置

spark-env.sh

[root@master Desktop]# cd /home/hadoop/spark-2.0.2-bin-hadoop2.4/conf/
[root@master conf]# cp spark-env.sh.template ./spark-env.sh
[root@master conf]# vim spark-env.sh

# 在末尾添加如下内容:
export JAVA_HOME=/usr/java/jdk1.7.0_80  #Java安装目录

export SCALA_HOME=/home/hadoop/scala-2.11.6 #Scala安装目录

export HADOOP_HOME=/home/hadoop/hadoop-2.5.1    #hadoop安装目录

export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.5.1/etc/hadoop #hadoop集群的配置文件的目录

export SPARK_MASTER_IP=master   #spark集群的Master节点的ip地址

export SPARK_WORKER_MEMORY=2g   #每个worker节点能够最大分配给exectors的内存大小

export SPARK_WORKER_CORES=2     #每个worker节点所占有的CPU核数目

export SPARK_WORKER_INSTANCES=1 #每台机器上开启的worker节点的数目

效果如图:

2)配置

slaves

[root@master Desktop]# cd /home/hadoop/spark-2.0.2-bin-hadoop2.4/conf/
[root@master conf]# vim slaves

#添加如下内容:
slave01
slave02

slave01 和 slave02 分别是spark从节点的ip地址

四、同步slave01和slave02的配置

1)我们使用SCP进行spark同步:

[root@master Desktop]# cd /home/hadoop/
[root@master hadoop]# scp -r ./spark-2.0.2-bin-hadoop2.4/ slave01:/home/hadoop/

#完成后再传slave02
[root@master hadoop]# scp -r ./spark-2.0.2-bin-hadoop2.4/ slave02:/home/hadoop/

2)系统环境变量同步:

[root@master Desktop]# scp /etc/profile slave01:/etc/
[root@master Desktop]# scp /etc/profile slave02:/etc/

#再使用ssh分别进入slave01 和 slave02 去 source
[root@master Desktop]# ssh slave01
Last login: Sun Jul  1 13:15:10 2018 from master
[root@slave01 ~]# source /etc/profile
[root@slave01 ~]# exit
logout
Connection to slave01 closed.

#slave02
[root@master Desktop]# ssh slave02
Last login: Sun Jul  1 13:18:10 2018 from master
[root@slave02 ~]# source /etc/profile
[root@slave02 ~]# exit
logout
Connection to slave02 closed.

五、启动Spark集群

1)先启动hadoop:

start-all.sh

[root@master Desktop]# start-all.sh

2)打开Spark-shell

[root@master Desktop]# cd /home/hadoop/spark-2.0.2-bin-hadoop2.4/bin/
[root@master bin]# ./spark-shell


这样则代表启动成功了。

同时,因为shell在运行,我们也可以通过浏览器访问

master:4040

访问WebUI查看当前执行的任务。(

master
为IP地址)

阅读更多
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: