spark:学习杂记+wordcount(单词统计)--22
2015-04-07 23:46
579 查看
1.RDD中.filter函数过滤带“ERROR”的行
-----------------------------------------------------------------
2.Spark追求的目标:像编写单机程序一样编写分布式程序
3.分布式数据架构,弹性分布式数据集RDD的两种创建方式
----------------------------------------------------------------
a:从Hadoop文件系统创建
b:从父RDD转换新RDD
4.DSM:传统的共享内存系统(区别于RDD)
5.AKKA:基于Scala的Spark通信框架
6.容错机制:Spark选择记录更新方式(另一种是数据检查点)
Lineage机制,Checkpoint机制,Shuffle机制
-----------------------------------------------------------------------------------------------
-----------------------------------------------------------------------------------------------
WordCount:统计文件中的词频
-----------------------------------------------------------------
val errors = file.filter(line => line.contains("ERROR")) errors.count()
2.Spark追求的目标:像编写单机程序一样编写分布式程序
3.分布式数据架构,弹性分布式数据集RDD的两种创建方式
----------------------------------------------------------------
a:从Hadoop文件系统创建
b:从父RDD转换新RDD
4.DSM:传统的共享内存系统(区别于RDD)
5.AKKA:基于Scala的Spark通信框架
6.容错机制:Spark选择记录更新方式(另一种是数据检查点)
Lineage机制,Checkpoint机制,Shuffle机制
-----------------------------------------------------------------------------------------------
-----------------------------------------------------------------------------------------------
WordCount:统计文件中的词频
package ymhd import org.apache.log4j.{Level, Logger} import org.apache.spark._ import SparkContext._ import scala.collection.mutable.ListBuffer /** * Created by sendoh on 2015/4/6. */ object WordCount { def main(args: Array[String]): Unit ={ // Logger.getLogger("org.apache.spark").setLevel(Level.WARN) Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF) // if (args.length != 3){ println("Usage: java -jar code.jar dependency_jars file_locaion save_location") System.exit(0) } // val jars = ListBuffer[String]() args(0).split(',').map(jars += _) // val conf = new SparkConf().setAppName("WordCount").setSparkHome("/usr/local/spark-1.2.0-bin-hadoop2.4").setJars(jars)setMaster("spark://192.168.30.129:7077") val sc = new SparkContext(conf) // val textRDD = sc.textFile("hdfs://localhost:9000/datatnt/textworda.txt") //val result = textRDD.flatMap(_.split("\t").toString()).map(word => (word, 1)).reduceByKey(_ + _).saveAsSequenceFile("hdfs://localhost:9000/outputtnt/wordcount") val result = textRDD.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _).saveAsSequenceFile("hdfs://localhost:9000/outputtnt/wordcount") } }
相关文章推荐
- hive学习之WordCount单词统计
- 《征服c指针》学习笔记-----统计文本单词数目的程序word_count
- 启动Spark Shell,在Spark Shell中编写WordCount程序,在IDEA中编写WordCount的Maven程序,spark-submit使用spark的jar来做单词统计
- spark-streaming 编程(二) word count单词计数统计
- spark学习03之wordCount统计并排序(java)
- spark【例子】单词计算(wordcount) 词频排序(TopK)
- hadoop的统计单词程序WordCount
- hadoop基础----hadoop实战(三)-----hadoop运行MapReduce---对单词进行统计--经典的自带例子wordcount
- spark wordCount单词计数及原理解析
- hadoop的统计单词程序WordCount提示找不到WordCount类
- Spark组件之Spark Streaming学习5--WindowsWordCount学习
- hadoop实例分析之WordCount单词统计分析
- Spark组件之Spark Streaming学习3--结合SparkSQL的使用(wordCount)
- Hadoop 之 Wordcount 单词计数 (学习笔记)
- kafka+sparkstreaming实现每批次的wordcount统计模版
- pig分析日志脚本(1) 统计行数和单词个数wordcount
- Spark学习1-wordcount
- spark学习1——配置hadoop 单机模式并运行WordCount实例(ubuntu14.04 & hadoop 2.6.0)
- spark学习1——配置hadoop 单机模式并运行WordCount实例(ubuntu14.04 & hadoop 2.6.0)
- Hadoop入门实例——WordCount统计单词