您的位置：首页 > 运维架构

<Hadoop>Spark On Hadoop集群安装

2016-06-10 15:22 295 查看

#需要调用hadoop client，在hadoop已经安装好的基础上

1.卸载其他版本的scala
sudo apt-get purge scala
sudo apt-get remove scala-library scala

#在主节点上
2.安装scala
sudo cp scala-2.10.5.tgz /usr/local
cd /usr/local
sudo tar xzf scala-2.10.5.tgz
sudo mv scala-2.10.5 scala210
sudo chown -R h:hadoop_group scala210/
sudo rm scala-2.10.5.tgz
sudo gedit ~/.bashrc
##########################add
export SCALA_HOME=/usr/local/scala210
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$HIVE_HOME/bin:$ANT_HOME/bin:$PIG_HOME/bin/:$SCALA_HOME/bin
##########################
source ~/.bashrc
scala -version ###看到scala版本

3.解压授权
sudo cp spark-1.6.1-bin-without-hadoop.tgz /usr/local
cd /usr/local
sudo mv spark-1.6.1-bin-without-hadoop spark
sudo chown -R h:hadoop_group spark
sudo rm spark-1.6.1-bin-without-hadoop.tgz

4.配置环境变量
sudo gedit ~/.bashrc
####################################add
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$HIVE_HOME/bin:$ANT_HOME/bin:$PIG_HOME/bin/:$SCALA_HOME/bin:$SPARK_HOME/bin
####################################
source ~/.bashrc

4.配置spark-env.sh
参考：https://spark.apache.org/docs/latest/hadoop-provided.html
http://www.cnblogs.com/canyangfeixue/p/4198288.html

cd spark/conf/
cp spark-env.sh.template spark-env.sh
gedit spark-env.sh
#######################add ##注意：MasterIp不能写成localhost，不然集群的时候slaves识别localhost是127.0.0.1就出错了
export SCALA_HOME=/usr/local/scala210
export SPARK_MASTER_IP=master
export SPARK_WORKER_MEMORY=1000m
export SPARK_DIST_CLASSPATH=$(hadoop classpath)
##############################

5:测试单节点
cd /usr/local/spark
sbin/start-all.sh
jps

bin/run-example SparkPi

查看8080端口

停止spark进程 sbin/stop-all.sh

6.配置slaves
参考 http://blog.csdn.net/powersaven/article/details/16827621
gedit /usr/local/spark/conf/slaves
##############
master
slave1
slave2
#############注：master本身也是可以作为Worker的

6.将sprak安装目录同步到其他节点
@master
cd /usr/local
sudo scp -r spark h@slave1:/home/h
sudo scp -r spark h@slave2:/home/h
@slaves
sudo cp -r ~/spark/ /usr/local ; sudo chown -R h:hadoop_group /usr/local/spark

7.启动spark集群 #主节点上操作

8.在主节点测试

bin/run-example org.apache.spark.examples.SparkPi 100 #100是指定运行次数
./bin/spark-submit --master spark://master:7077 --class org.apache.spark.examples.SparkPi --executor-memory 999m ./lib/spark-examples-1.6.1-hadoop2.2.0.jar 1 #提交job可以在浏览器中看到

9.为了不与hadoop的start混淆，将spark重命名
mv sbin/start-all.sh sbin/start-spark.sh
mv sbin/start-all.sh sbin/stop-spark.sh
sbin添加在环境变量Path中方便使用

问题一：
Hadoop Mapreduce 和Spark是兼容的，可以同时使用，各种start，stop即可。Spark只是调用了Hadoop Client。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： hadoop spark scala 集群

相关文章推荐

新的分享

章节导航