<Hadoop>Spark On Hadoop集群安装
2016-06-10 15:22
295 查看
#需要调用hadoop client,在hadoop已经安装好的基础上
1.卸载其他版本的scala
sudo apt-get purge scala
sudo apt-get remove scala-library scala
#在主节点上
2.安装scala
sudo cp scala-2.10.5.tgz /usr/local
cd /usr/local
sudo tar xzf scala-2.10.5.tgz
sudo mv scala-2.10.5 scala210
sudo chown -R h:hadoop_group scala210/
sudo rm scala-2.10.5.tgz
sudo gedit ~/.bashrc
##########################add
export SCALA_HOME=/usr/local/scala210
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$HIVE_HOME/bin:$ANT_HOME/bin:$PIG_HOME/bin/:$SCALA_HOME/bin
##########################
source ~/.bashrc
scala -version ###看到scala版本
3.解压授权
sudo cp spark-1.6.1-bin-without-hadoop.tgz /usr/local
cd /usr/local
sudo mv spark-1.6.1-bin-without-hadoop spark
sudo chown -R h:hadoop_group spark
sudo rm spark-1.6.1-bin-without-hadoop.tgz
4.配置环境变量
sudo gedit ~/.bashrc
####################################add
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$HIVE_HOME/bin:$ANT_HOME/bin:$PIG_HOME/bin/:$SCALA_HOME/bin:$SPARK_HOME/bin
####################################
source ~/.bashrc
4.配置spark-env.sh
参考 :https://spark.apache.org/docs/latest/hadoop-provided.html
http://www.cnblogs.com/canyangfeixue/p/4198288.html
cd spark/conf/
cp spark-env.sh.template spark-env.sh
gedit spark-env.sh
#######################add ##注意:MasterIp不能写成localhost,不然集群的时候slaves识别localhost是127.0.0.1就出错了
export SCALA_HOME=/usr/local/scala210
export SPARK_MASTER_IP=master
export SPARK_WORKER_MEMORY=1000m
export SPARK_DIST_CLASSPATH=$(hadoop classpath)
##############################
5:测试单节点
cd /usr/local/spark
sbin/start-all.sh
jps
bin/run-example SparkPi
查看8080端口
停止spark进程 sbin/stop-all.sh
6.配置slaves
参考 http://blog.csdn.net/powersaven/article/details/16827621
gedit /usr/local/spark/conf/slaves
##############
master
slave1
slave2
#############注:master本身也是可以作为Worker的
6.将sprak安装目录同步到其他节点
@master
cd /usr/local
sudo scp -r spark h@slave1:/home/h
sudo scp -r spark h@slave2:/home/h
@slaves
sudo cp -r ~/spark/ /usr/local ; sudo chown -R h:hadoop_group /usr/local/spark
7.启动spark集群 #主节点上操作
8.在主节点测试
bin/run-example org.apache.spark.examples.SparkPi 100 #100是指定运行次数
./bin/spark-submit --master spark://master:7077 --class org.apache.spark.examples.SparkPi --executor-memory 999m ./lib/spark-examples-1.6.1-hadoop2.2.0.jar 1 #提交job可以在浏览器中看到
9.为了不与hadoop的start混淆,将spark重命名
mv sbin/start-all.sh sbin/start-spark.sh
mv sbin/start-all.sh sbin/stop-spark.sh
sbin添加在环境变量Path中方便使用
问题一:
Hadoop Mapreduce 和Spark是兼容的,可以同时使用,各种start,stop即可。Spark只是调用了Hadoop Client。
1.卸载其他版本的scala
sudo apt-get purge scala
sudo apt-get remove scala-library scala
#在主节点上
2.安装scala
sudo cp scala-2.10.5.tgz /usr/local
cd /usr/local
sudo tar xzf scala-2.10.5.tgz
sudo mv scala-2.10.5 scala210
sudo chown -R h:hadoop_group scala210/
sudo rm scala-2.10.5.tgz
sudo gedit ~/.bashrc
##########################add
export SCALA_HOME=/usr/local/scala210
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$HIVE_HOME/bin:$ANT_HOME/bin:$PIG_HOME/bin/:$SCALA_HOME/bin
##########################
source ~/.bashrc
scala -version ###看到scala版本
3.解压授权
sudo cp spark-1.6.1-bin-without-hadoop.tgz /usr/local
cd /usr/local
sudo mv spark-1.6.1-bin-without-hadoop spark
sudo chown -R h:hadoop_group spark
sudo rm spark-1.6.1-bin-without-hadoop.tgz
4.配置环境变量
sudo gedit ~/.bashrc
####################################add
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$HIVE_HOME/bin:$ANT_HOME/bin:$PIG_HOME/bin/:$SCALA_HOME/bin:$SPARK_HOME/bin
####################################
source ~/.bashrc
4.配置spark-env.sh
参考 :https://spark.apache.org/docs/latest/hadoop-provided.html
http://www.cnblogs.com/canyangfeixue/p/4198288.html
cd spark/conf/
cp spark-env.sh.template spark-env.sh
gedit spark-env.sh
#######################add ##注意:MasterIp不能写成localhost,不然集群的时候slaves识别localhost是127.0.0.1就出错了
export SCALA_HOME=/usr/local/scala210
export SPARK_MASTER_IP=master
export SPARK_WORKER_MEMORY=1000m
export SPARK_DIST_CLASSPATH=$(hadoop classpath)
##############################
5:测试单节点
cd /usr/local/spark
sbin/start-all.sh
jps
bin/run-example SparkPi
查看8080端口
停止spark进程 sbin/stop-all.sh
6.配置slaves
参考 http://blog.csdn.net/powersaven/article/details/16827621
gedit /usr/local/spark/conf/slaves
##############
master
slave1
slave2
#############注:master本身也是可以作为Worker的
6.将sprak安装目录同步到其他节点
@master
cd /usr/local
sudo scp -r spark h@slave1:/home/h
sudo scp -r spark h@slave2:/home/h
@slaves
sudo cp -r ~/spark/ /usr/local ; sudo chown -R h:hadoop_group /usr/local/spark
7.启动spark集群 #主节点上操作
8.在主节点测试
bin/run-example org.apache.spark.examples.SparkPi 100 #100是指定运行次数
./bin/spark-submit --master spark://master:7077 --class org.apache.spark.examples.SparkPi --executor-memory 999m ./lib/spark-examples-1.6.1-hadoop2.2.0.jar 1 #提交job可以在浏览器中看到
9.为了不与hadoop的start混淆,将spark重命名
mv sbin/start-all.sh sbin/start-spark.sh
mv sbin/start-all.sh sbin/stop-spark.sh
sbin添加在环境变量Path中方便使用
问题一:
Hadoop Mapreduce 和Spark是兼容的,可以同时使用,各种start,stop即可。Spark只是调用了Hadoop Client。
相关文章推荐
- 详解HDFS Short Circuit Local Reads
- Spark RDD API详解(一) Map和Reduce
- 使用spark和spark mllib进行股票预测
- Hadoop_2.1.0 MapReduce序列图
- 使用Hadoop搭建现代电信企业架构
- Windows下Scala环境搭建
- Spark随谈——开发指南(译)
- RedHat 5.8 安装Oracle 11gR2_Grid集群
- 单机版搭建Hadoop环境图文教程详解
- Spark,一种快速数据分析替代方案
- mysql集群之MMM简单搭建
- MySQL的集群配置的基本命令使用及一次操作过程实录
- MySQL slave_net_timeout参数解决的一个集群问题案例
- hadoop常见错误以及处理方法详解
- Redis 集群搭建和简单使用教程
- Windows7下安装Scala 2.9.2教程
- hadoop 单机安装配置教程
- hadoop的hdfs文件操作实现上传文件到hdfs
- hadoop实现grep示例分享