您的位置：首页 > 大数据

从零开始学习Spark--第4章 Spark的各种运行方式

2013-12-05 12:03 369 查看

1. 启动Hadoop

cd /home/brian/usr/hadoop/hadoop-1.1.2

#格式化NameNode

./bin/hadoop namenode -format

#启动集群

./bin/start-all

#将README.txt文件复制到HDFS以供测试

./bin/hadoop fs -put README.txt readme.txt

2. Spark在本地运行，单线程

2.1 启动：

cd /home/brian/setup/spark-new/spark-0.8.0

MASTER=local ./spark-shell

2.2 测试，执行如下命令：

#从HDFS上读取文件

val textFile = sc.textFile("readme.txt")

#计算readme.txt的行数

textFile.count()

#取textFile的第一行

textFile.first()

3. Spark在本地运行，4线程

启动时候，执行的是

MASTER=local[4] ./spark-shell

其他所有流程都不变。

4. Spark运行在Standalone Mode

4.1 关闭Hadoop

4.2 启动节点：

#更改目录

cd/home/brian/setup/spark-new/spark-0.8.0
#启动master
./bin/start-master.sh

4.3 启动时候，回提示输出的log文件，tail一下，可以看到Ui Web的地址，是http://brian-i3.local:8080/，在这里能看到spark的URL:spark://brian-i3:7077。

4.4 启动一个worker：

./spark-class org.apache.spark.deploy.worker.Worker spark://brian-i3:7077

启动之后，在http://brian-i3.local:8080/会看到这个worker的数据。

4.5 在集群上执行spark-shell
MASTER=spark://brian-i3:7077 ./spark-shell

这时候，在http://brian-i3.local:8080/的Running Application栏看到spark-shell。

4.5 执行一个简单命令：

val bcv = sc.broadcast(Array(1,2,3))

bcv.value

4.6 关闭spark-shell：执行^+c即可。

4.7 关闭Spark集群：./bin/stop-master.sh

5. 以脚本的方式启动Spark集群

5.1 在spark安装目录的conf/spark-env.sh里添加如下一行:
JAVA_HOME=/usr/local/lib/jdk1.7.0_45

5.2 启动Spark集群：

./bin/start-all.sh

5.3 在http://localhost:8080可以看到集群的启动状况。

6. Spark运行在YARN和Mesos。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 大数据 scala spark

相关文章推荐

新的分享

章节导航