maven构建Scala程序,实现spark的wordcount
2017-10-09 23:27
796 查看
环境
jdk1.8scala2.11.8
spark2.11
maven4.0
新建工程
ide:idea新建一个maven工程,添加jdk和scala支持
然后添加maven依赖
编写wordcount代码
右键运行scala类
maven依赖:
<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>test</groupId> <artifactId>test</artifactId> <version>1.0</version> <dependencies> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> <version>2.11.8</version> </dependency> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-compiler</artifactId> <version>2.11.8</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.3.0-SNAPSHOT</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.3.0-SNAPSHOT</version> </dependency> </dependencies> </project>
wordcout代码(忘了参考的哪位兄弟的,注释很详细):
package com.spark.app import org.apache.spark.{SparkContext, SparkConf} object WordCount { def main(args: Array[String]) { /** * 第1步;创建Spark的配置对象SparkConf,设置Spark程序运行时的配置信息 * 例如 setAppName用来设置应用程序的名称,在程序运行的监控界面可以看到该名称, * setMaster设置程序运行在本地还是运行在集群中,运行在本地可是使用local参数,也可以使用local[K]/local[*], * 可以去spark官网查看它们不同的意义。 如果要运行在集群中,以Standalone模式运行的话,需要使用spark://HOST:PORT * 的形式指定master的IP和端口号,默认是7077 */ val conf = new SparkConf().setAppName("WordCount").setMaster("local") // val conf = new SparkConf().setAppName("WordCount").setMaster("spark://master:7077") // 运行在集群中 /** * 第2步:创建SparkContext 对象 * SparkContext是Spark程序所有功能的唯一入口 * SparkContext核心作用: 初始化Spark应用程序运行所需要的核心组件,包括DAGScheduler、TaskScheduler、SchedulerBackend * 同时还会负责Spark程序往Master注册程序 * * 通过传入SparkConf实例来定制Spark运行的具体参数和配置信息 */ val sc = new SparkContext(conf) /** * 第3步: 根据具体的数据来源(HDFS、 HBase、Local FS、DB、 S3等)通过SparkContext来创建RDD * RDD 的创建基本有三种方式: 根据外部的数据来源(例如HDFS)、根据Scala集合使用SparkContext的parallelize方法、 * 由其他的RDD操作产生 * 数据会被RDD划分成为一系列的Partitions,分配到每个Partition的数据属于一个Task的处理范畴 */ val lines = sc.textFile("D:/resources/README.md") // 读取本地文件 // val lines = sc.textFile("/library/wordcount/input") // 读取HDFS文件,并切分成不同的Partition // val lines = sc.textFile("hdfs://master:9000/libarary/wordcount/input") // 或者明确指明是从HDFS上获取数据 /** * 第4步: 对初始的RDD进行Transformation级别的处理,例如 map、filter等高阶函数来进行具体的数据计算 */ val words = lines.flatMap(_.split(" ")).filter(word => word != " ") // 拆分单词,并过滤掉空格,当然还可以继续进行过滤,如去掉标点符号 val pairs = words.map(word => (word, 1)) // 在单词拆分的基础上对每个单词实例计数为1, 也就是 word => (word, 1) val wordscount = pairs.reduceByKey(_ + _) // 在每个单词实例计数为1的基础之上统计每个单词在文件中出现的总次数, 即key相同的value相加 // val wordscount = pairs.reduceByKey((v1, v2) => v1 + v2) // 等同于 wordscount.collect.foreach(println) // 打印结果,使用collect会将集群中的数据收集到当前运行drive的机器上,需要保证单台机器能放得下所有数据 sc.stop() // 释放资源 } }
result
17/10/09 16:25:59 INFO SparkUI: Stopped Spark web UI at http://WINDOWS-0EQCJPQ.hs.handsome.com.cn:4040 (hello,14) (h1,14) 17/10/09 16:25:59 INFO MapOutputTrackerMasterEndpoint: MapOutputTrackerMasterEndpoint stopped! 17/10/09 16:25:59 INFO MemoryStore: MemoryStore cleared 17/10/09 16:25:59 INFO BlockManager: BlockManager stopped 17/10/09 16:25:59 INFO BlockManagerMaster: BlockManagerMaster stopped 17/10/09 16:25:59 INFO OutputCommitCoordinator$OutputCommitCoordinatorEndpoint: OutputCommitCoordinator stopped! 17/10/09 16:25:59 INFO SparkContext: Successfully stopped SparkContext 17/10/09 16:25:59 INFO ShutdownHookManager: Shutdown hook called 17/10/09 16:25:59 INFO ShutdownHookManager: Deleting directory C:\Users\hanqian18790\AppData\Local\Temp\spark-14748c73-2d1d-46b1-82de-5c1328f7fabe
相关文章推荐
- Eclipse+Maven+Scala Project+Spark | 编译并打包wordcount程序
- Spark 程序 WordCount实现 Scala、Python
- Spark:用Scala和Java实现WordCount
- 第一个spark scala程序——wordcount
- 分别用Java、Scala、spark-shell开发wordcount程序及测试代码
- idea+maven+scala创建wordcount,打包jar并在spark on yarn上运行
- Spark:用Java和Scala实现WordCount
- JDK8+Scala2.11+spark-2.0.0+Intellij2017.3.4开发wordcount程序并在集群中运行
- Spark:用Scala和Java实现WordCount
- python、scala、java分别实现在spark上实现WordCount
- hadoop+intellij+maven实现wordcount程序
- Spark:用Scala和Java实现WordCount
- Spark实战----(1)使用Scala开发本地测试的Spark WordCount程序
- Spark中的wordCount程序实现
- idea+maven+scala创建wordcount,打包jar并在spark on yarn上运行
- 启动Spark Shell,在Spark Shell中编写WordCount程序,在IDEA中编写WordCount的Maven程序,spark-submit使用spark的jar来做单词统计
- scala-eclipse 编写spark简单程序 WordCount
- Spark:用Scala和Java实现WordCount
- Spark on Yarn上实现WordCount程序
- Spark:用Scala和Java实现WordCount