您的位置:首页 > 运维架构

<Hadoop>Spark On Hadoop集群安装

2016-06-10 15:22 295 查看
#需要调用hadoop client,在hadoop已经安装好的基础上

1.卸载其他版本的scala
sudo apt-get purge scala
sudo apt-get remove scala-library scala

#在主节点上
2.安装scala
sudo cp scala-2.10.5.tgz /usr/local
cd /usr/local
sudo tar xzf scala-2.10.5.tgz
sudo mv scala-2.10.5 scala210
sudo chown -R h:hadoop_group scala210/
sudo rm scala-2.10.5.tgz
sudo gedit ~/.bashrc
##########################add
export SCALA_HOME=/usr/local/scala210
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$HIVE_HOME/bin:$ANT_HOME/bin:$PIG_HOME/bin/:$SCALA_HOME/bin
##########################
source ~/.bashrc
scala -version                ###看到scala版本

3.解压授权
sudo cp spark-1.6.1-bin-without-hadoop.tgz /usr/local
cd /usr/local
sudo mv spark-1.6.1-bin-without-hadoop spark
sudo chown -R h:hadoop_group spark
sudo rm spark-1.6.1-bin-without-hadoop.tgz

4.配置环境变量
sudo gedit ~/.bashrc
####################################add
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$HIVE_HOME/bin:$ANT_HOME/bin:$PIG_HOME/bin/:$SCALA_HOME/bin:$SPARK_HOME/bin
####################################
source ~/.bashrc

4.配置spark-env.sh
参考 :https://spark.apache.org/docs/latest/hadoop-provided.html
http://www.cnblogs.com/canyangfeixue/p/4198288.html

cd spark/conf/
cp spark-env.sh.template spark-env.sh
gedit spark-env.sh
#######################add   ##注意:MasterIp不能写成localhost,不然集群的时候slaves识别localhost是127.0.0.1就出错了
export SCALA_HOME=/usr/local/scala210
export SPARK_MASTER_IP=master
export SPARK_WORKER_MEMORY=1000m
export SPARK_DIST_CLASSPATH=$(hadoop classpath)
##############################

5:测试单节点
cd /usr/local/spark
sbin/start-all.sh
jps



bin/run-example SparkPi



查看8080端口



停止spark进程 sbin/stop-all.sh

6.配置slaves
参考  http://blog.csdn.net/powersaven/article/details/16827621
gedit /usr/local/spark/conf/slaves
##############
master
slave1
slave2
#############注:master本身也是可以作为Worker的

6.将sprak安装目录同步到其他节点
@master
cd /usr/local
sudo scp -r spark h@slave1:/home/h
sudo scp -r spark h@slave2:/home/h
@slaves
sudo cp -r  ~/spark/ /usr/local ; sudo chown -R h:hadoop_group /usr/local/spark

7.启动spark集群   #主节点上操作





8.在主节点测试 

bin/run-example org.apache.spark.examples.SparkPi 100      #100是指定运行次数
./bin/spark-submit --master spark://master:7077 --class org.apache.spark.examples.SparkPi --executor-memory 999m  ./lib/spark-examples-1.6.1-hadoop2.2.0.jar 1   #提交job可以在浏览器中看到

9.为了不与hadoop的start混淆,将spark重命名
mv sbin/start-all.sh sbin/start-spark.sh
mv sbin/start-all.sh sbin/stop-spark.sh
sbin添加在环境变量Path中方便使用

问题一:
Hadoop Mapreduce 和Spark是兼容的,可以同时使用,各种start,stop即可。Spark只是调用了Hadoop Client。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  hadoop spark scala 集群