【分布式编程】三——基于VirtualBox的Spark完全分布式环境
2018-02-07 11:13
337 查看
前言
Spark的搭建依赖于Hadoop,因此本文基于之前分布式Hadoop环境,JDK、Hadoop等已安装好,系统环境
虚拟机:VirtualBoxLinux:Ubuntu 16.04 LTS
HAdoop 2.7.5
IDE:Intellij IDEA
JDK 1.8.0_151
Scala-2.12.4
Spark-2.2.1
操作步骤
安装Scala
下载Scala-2.12.4解压到当前目录
tar -zxvf scala-2.12.4.tgz
将解压后的文件夹移动到
/usr下
sudo mv scala-2.12.4/ /usr/
配置环境变量
sudo vim /etc/profile
添加如下代码,路径根据情况自己修改
export SCALA_HOME=/usr/scala-2.12.4 export PATH=$SCALA_HOME/bin:$PATH
更新环境变量配置
source /etc/profile
验证是否安装成功
scala -version
安装Spark
下载Spark,由于Spark基于Hadoop,且之前已经安装好Hadoop,所以下载没有绑定Hadoop的版本,所以选择spark-2.2.1-bin-without-hadoop.tgz解压到当前目录
tar -zxvf spark-2.2.1-bin-without-hadoop.tgz
将解压后的文件夹移动到
/usr/local/
sudo mv spark-2.2.1-bin-without-hadoop/ /usr/
配置环境变量
sudo vim /etc/profile
添加以下代码
export SPARK_HOME=/usr/spark-2.2.1-bin-without-hadoop export PATH=$PATH:$SPARK_HOME/bin export PATH=$PATH:$SPARK_HOME/sbin
更新环境变量配置
source /etc/profile
Spark配置
【注】此处以master主机为例,其他从机作相应更改
配置spark-env.sh
cd /usr/spark-2.2.1-bin-without-hadoop/conf/ sudo cp spark-env.sh.template spark-env.sh sudo vim spark-env.sh
添加以下代码
export SPARK_HOME=/usr/spark-2.2.1-bin-without-hadoop export SPARK_DIST_CLASSPATH=$(/usr/hadoop-2.7.5/bin/hadoop classpath) export JAVA_HOME=/usr/jdk1.8.0_151 export SCALA_HOME=/usr/scala-2.12.4 export HADOOP_HOME=/usr/hadoop-2.7.5 export HADOOP_CONF_DIR=/usr/hadoop-2.7.5/etc/hadoop export SPARK_MASTER_IP=master export SPARK_MASTER_HOST=master export SPARK_LOCAL_IP=master export SPARK_WORKER_MEMEORY=1g export SPARK_EXECUTOR_MEMEORY=1g export SPARK_DRIVER_ME 4000 MORY=1g export SPARK_WORKER_CORES=1
【注】
SPARK_LOCAL_IP为本地地址,从机需要更改为自己的IP
配置slaves
sudo cp slaves.template slaves sudo vim slaves
添加所有从机的主机名
node1 node2
启动集群
因为Spark基于Hadoop,所以需要先启动Hadoop。start-all.sh
再启动Spark,进入到Spark安装目录下的
sbin文件夹
cd /usr/spark-2.2.1-bin-without-hadoop/sbin
执行
sbin文件夹下的
start-all.sh,若直接执行
start-all.sh,启动的是Hadoop
./start-all.sh
查看集群
查看进程
jps
主机上显示以下进程
从机显示以下进程
通过Web查看状态
在主机master上打开浏览器,访问
http://localhost:8080
运行pyspark
进入到spark安装目录下的bin文件夹
cd /usr/spark-2.2.1-bin-without-hadoop/bin/
运行
pyspark
./pyspark
运行spark-shell
进入到spark安装目录下的bin文件夹
cd /usr/spark-2.2.1-bin-without-hadoop/bin/
运行
spark-shell
./sparkshell
以上,证明spark配置成功。
关闭集群
同样进入到Spark安装目录下的sbin文件夹
cd /usr/spark-2.2.1-bin-without-hadoop/sbin ./stop-all.sh
相关文章推荐
- 【分布式编程】一——基于VirtualBox的Hadoop完全分布式环境搭建
- 基于docker的spark-hadoop分布式集群之二: 环境测试
- Spark2.1.0完全分布式环境搭建
- Hadoop2.8.2+Spark2.1.2 完全分布式环境 搭建全过程
- Hadoop2.7.3+Spark2.1.0 完全分布式环境 搭建全过程
- Hadoop2.7.3+Spark2.1.0 完全分布式环境 搭建全过程
- Hadoop2.7.3+Spark2.1.0 完全分布式环境
- hadoop2.6.5+spark2.1.0+hbase1.2.6完全分布式环境部署
- 基于vmware workstations 10 、centos6.4和hadoop-2.7.1的hadoop完全分布式集群的开发环境搭建
- 基于hadoop2.7集群的Spark2.0,Sqoop1.4.6,Mahout0.12.2完全分布式安装
- Hadoop2.7.3+Spark2.1.0 完全分布式环境 搭建全过程
- Hadoop2.7.3+Spark2.1.0 完全分布式环境 搭建全过程
- 基于docker的spark-hadoop分布式集群之一: 环境搭建
- 基于WindowsXP环境的Hadoop完全分布式环境的搭建
- Spark2.1.0完全分布式环境搭建
- Hadoop2.7.3+Spark2.1.0 完全分布式环境 搭建全过程
- 基于hadoop+nutch+solr的搜索引擎环境搭载<一>hadoop完全分布式环境搭建
- Hadoop2.7.3+Spark2.1.0 完全分布式环境 搭建全过程
- 基于hadoop2.7集群的Spark2.0,Sqoop1.4.6,Mahout0.12.2完全分布式安装
- hadoop完全分布式环境搭建,整合zookeeper,hbase,spark,hive,hue