Spark groupbykey和cogroup使用示例
2017-06-27 13:08
417 查看
groupByKey
groupByKey([numTasks])是数据分组操作,在一个由(K,V)对组成的数据集上调用,返回一个(K,Seq[V])对的数据集。
val rdd0 = sc.parallelize(Array((1,1), (1,2) , (1,3) , (2,1) , (2,2) , (2,3)), 3)
val rdd1 = rdd0.groupByKey()
rdd1.collect
res0: Array[(Int, Iterable[Int])] = Array((1,ArrayBuffer(1, 2, 3)), (2,ArrayBuffer(1, 2, 3)))
cogroup
cogroup(otherDataset, [numTasks])是将输入数据集(K, V)和另外一个数据集(K, W)进行cogroup,得到一个格式为(K, Seq[V], Seq[W])的数据集。
val rdd2 = rdd0.cogroup(rdd0)
rdd2.collect
res1: Array[(Int, (Iterable[Int], Iterable[Int]))] = Array((1,(ArrayBuffer(1, 2, 3),ArrayBuffer(1, 2, 3))), (2,(ArrayBuffer(1, 2, 3),ArrayBuffer(1, 2, 3))))
groupByKey([numTasks])是数据分组操作,在一个由(K,V)对组成的数据集上调用,返回一个(K,Seq[V])对的数据集。
val rdd0 = sc.parallelize(Array((1,1), (1,2) , (1,3) , (2,1) , (2,2) , (2,3)), 3)
val rdd1 = rdd0.groupByKey()
rdd1.collect
res0: Array[(Int, Iterable[Int])] = Array((1,ArrayBuffer(1, 2, 3)), (2,ArrayBuffer(1, 2, 3)))
cogroup
cogroup(otherDataset, [numTasks])是将输入数据集(K, V)和另外一个数据集(K, W)进行cogroup,得到一个格式为(K, Seq[V], Seq[W])的数据集。
val rdd2 = rdd0.cogroup(rdd0)
rdd2.collect
res1: Array[(Int, (Iterable[Int], Iterable[Int]))] = Array((1,(ArrayBuffer(1, 2, 3),ArrayBuffer(1, 2, 3))), (2,(ArrayBuffer(1, 2, 3),ArrayBuffer(1, 2, 3))))
相关文章推荐
- Spark使用小结:Java版的GroupByKey示例
- 在Spark中尽量少使用GroupByKey函数
- Spark编程之基本的RDD算子之cogroup,groupBy,groupByKey
- spark【例子】同类合并、计算(主要使用groupByKey)
- spark【例子】同类合并、计算(主要使用groupByKey)
- spark【例子】count(distinct 字段) 简易版 使用groupByKey和zip
- Spark算子[12]:groupByKey、cogroup、join、lookup 源码实例详解
- Spark combinebykey使用示例
- spark【例子】同类合并、计算(主要使用groupByKey)
- spark新能优化之reduceBykey和groupBykey的使用
- Spark RDD/Core 编程 API入门系列 之rdd案例(map、filter、flatMap、groupByKey、reduceByKey、join、cogroupy等)(四)
- Spark RDD/Core 编程 API入门系列 之rdd案例(map、filter、flatMap、groupByKey、reduceByKey、join、cogroupy等)(四)
- spark【例子】count(distinct 字段) 简易版 使用groupByKey和zip
- spark【例子】同类合并、计算(主要使用groupByKey)
- spark【例子】count(distinct 字段) 简易版 使用groupByKey和zip
- Spark程序使用groupByKey后数据存入HBase出现重复的现象
- day17:RDD案例(join、cogroup、reduceByKey、groupByKey, join cogroup
- 大数据Spark “蘑菇云”行动第40课:Spark编程实战之aggregateByKey、reduceByKey、groupByKey、sortByKey深度解密
- Spark API 详解/大白话解释 之 groupBy、groupByKey
- 避免使用GroupByKey