您的位置:首页 > 大数据

从零开始学习Spark--第4章 Spark的各种运行方式

2013-12-05 12:03 369 查看
1. 启动Hadoop

    cd /home/brian/usr/hadoop/hadoop-1.1.2

    #格式化NameNode

    ./bin/hadoop namenode -format

    #启动集群

    ./bin/start-all

    #将README.txt文件复制到HDFS以供测试

    ./bin/hadoop fs -put README.txt readme.txt

2. Spark在本地运行,单线程

2.1 启动:

    cd /home/brian/setup/spark-new/spark-0.8.0

    MASTER=local ./spark-shell

2.2 测试,执行如下命令:

    #从HDFS上读取文件

    val textFile = sc.textFile("readme.txt")

    #计算readme.txt的行数

    textFile.count()

    #取textFile的第一行

    textFile.first()

3. Spark在本地运行,4线程

    启动时候,执行的是

    MASTER=local[4] ./spark-shell

    其他所有流程都不变。

4. Spark运行在Standalone Mode

    4.1 关闭Hadoop

    4.2 启动节点:

        #更改目录

        cd/home/brian/setup/spark-new/spark-0.8.0
#启动master
./bin/start-master.sh

    4.3 启动时候,回提示输出的log文件,tail一下,可以看到Ui Web的地址,是http://brian-i3.local:8080/,在这里能看到spark的URL:spark://brian-i3:7077。

    4.4 启动一个worker:

        ./spark-class org.apache.spark.deploy.worker.Worker spark://brian-i3:7077

        启动之后,在http://brian-i3.local:8080/会看到这个worker的数据。

    4.5 在集群上执行spark-shell
MASTER=spark://brian-i3:7077 ./spark-shell

        这时候,在http://brian-i3.local:8080/的Running Application栏看到spark-shell。

    4.5 执行一个简单命令:

        val bcv = sc.broadcast(Array(1,2,3))

        bcv.value

    4.6 关闭spark-shell:执行^+c即可。

    4.7 关闭Spark集群:./bin/stop-master.sh

5. 以脚本的方式启动Spark集群

    5.1 在spark安装目录的conf/spark-env.sh里添加如下一行:
    JAVA_HOME=/usr/local/lib/jdk1.7.0_45   

    5.2 启动Spark集群:

        ./bin/start-all.sh

    5.3 在http://localhost:8080可以看到集群的启动状况。

6. Spark运行在YARN和Mesos。  
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  大数据 scala spark