spark配置(5)-独立应用程序
2016-06-25 07:42
537 查看
独立应用程序(Self-ContainedApplications)
现在基于一个简单的APP,通过SparkAPI编写一个独立应用程序。
使用Scala编写的程序需要使用sbt进行编译打包,相应的,Java程序使用Maven编译打包,而Python程序通过spark-submit直接提交。
PS:好像spark2.0支持RDD以外的一种数据集(DataSets),对python处理的性能有很大提升,几乎与scala性能旗鼓相当。
[/code]
./sparkapp/src/main/scala下建立一个名为SimpleApp.scala的文件:
[/code]
该程序计算/usr/local/spark/README文件中包含“a”的行数和包含“b”的行数。
程序依赖SparkAPI,因此我们需要通过sbt进行编译打包。
[/code]添加:
[/code]
文件simple.sbt需要指明Spark和Scala的版本。
启动Sparkshell的过程中可以看到
安装sbt
[/code]
[/code]
[/code]
参考/转载:http://www.powerxing.com/spark-quick-start-guide/
来自为知笔记(Wiz)
现在基于一个简单的APP,通过SparkAPI编写一个独立应用程序。
使用Scala编写的程序需要使用sbt进行编译打包,相应的,Java程序使用Maven编译打包,而Python程序通过spark-submit直接提交。
PS:好像spark2.0支持RDD以外的一种数据集(DataSets),对python处理的性能有很大提升,几乎与scala性能旗鼓相当。
cd~#进入用户主文件夹
mkdir./sparkapp#创建应用程序根目录
mkdir-p./sparkapp/src/main/scala#创建所需的文件夹结构
[/code]
./sparkapp/src/main/scala下建立一个名为SimpleApp.scala的文件:
/*SimpleApp.scala*/
importorg.apache.spark.SparkContext
importorg.apache.spark.SparkContext._
importorg.apache.spark.SparkConf
objectSimpleApp{
defmain(args:Array[String]){
vallogFile="file:///usr/local/spark/README.md"//Shouldbesomefileonyoursystem
valconf=newSparkConf().setAppName("SimpleApplication")
valsc=newSparkContext(conf)
vallogData=sc.textFile(logFile,2).cache()
valnumAs=logData.filter(line=>line.contains("a")).count()
valnumBs=logData.filter(line=>line.contains("b")).count()
println("Lineswitha:%s,Lineswithb:%s".format(numAs,numBs))
}
}
[/code]
该程序计算/usr/local/spark/README文件中包含“a”的行数和包含“b”的行数。
程序依赖SparkAPI,因此我们需要通过sbt进行编译打包。
vim./sparkapp/simple.sbt
[/code]添加:
name:="SimpleProject"
version:="1.0"
scalaVersion:="2.10.5"
libraryDependencies+="org.apache.spark"%%"spark-core"%"1.6.1"
[/code]
文件simple.sbt需要指明Spark和Scala的版本。
启动Sparkshell的过程中可以看到
安装sbt
sudomkdir/usr/local/sbt
sudochown-Rhadoop/usr/local/sbt
cd/usr/local/sbt
[/code]
cp/home/yuan/Downloads/sbt-launch\\(1\).jar/usr/local/sbt/sbt-launch.jar
chmodu+x./sbt
[/code]
./sbtsbt-version
[/code]
参考/转载:
相关文章推荐
- spark配置(3)
- spark配置(2)
- hadoop配置(5) --启动YARN
- hadoop配置(4) --在每次运行时自动删除输出目录
- Hadoop 配置(3)---使用 HDFS
- git oschina
- Hadoop 配置(1)
- Hadoop 配置(2)-Hadoop伪分布式配置
- 基于Hadoop生态圈的数据仓库实践 —— 目录
- ubuntu 12.04安装OpenGL
- 2016年6月22日--6月26日(共15小时,剩下2940小时)
- webpack 前端构建
- 简析 .NET Core 构成体系
- erdaicms旅游网站程序模板免费下载(PC站自带手机站,自带3套模板可切换,对接支付宝和微信支付)
- 1006. Sign In and Sign Out (25)解题思路
- php实现var_dump函数
- csdn待改进点之27------>作为用户, 我不懂什么叫参数错误!
- [Leetcode刷题]Summary Ranges
- SQL复习笔记一(mysql)
- csdn待改进点之26------>为什么这里有两个“周磊”?