Spark Transformation —— intersection
2016-07-22 19:52
162 查看
def intersection(other: RDD[T]): RDD[T] def intersection(other: RDD[T], numPartitions: Int): RDD[T] def intersection(other: RDD[T], partitioner: Partitioner)(implicit ord: Ordering[T] = null): RDD[T]
该函数返回两个RDD的交集,并且去重。
参数numPartitions指定返回的RDD的分区数。
参数partitioner用于指定分区函数
scala> var rdd1 = sc.makeRDD(1 to 2,1) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[45] at makeRDD at :21 scala> rdd1.collect res42: Array[Int] = Array(1, 2) scala> var rdd2 = sc.makeRDD(2 to 3,1) rdd2: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[46] at makeRDD at :21 scala> rdd2.collect res43: Array[Int] = Array(2, 3) scala> rdd1.intersection(rdd2).collect res45: Array[Int] = Array(2) scala> var rdd3 = rdd1.intersection(rdd2) rdd3: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[59] at intersection at :25 scala> rdd3.partitions.size res46: Int = 1 scala> var rdd3 = rdd1.intersection(rdd2,2) rdd3: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[65] at intersection at :25 scala> rdd3.partitions.size res47: Int = 2
相关文章推荐
- Spark RDD API详解(一) Map和Reduce
- 使用spark和spark mllib进行股票预测
- Spark随谈——开发指南(译)
- Spark,一种快速数据分析替代方案
- 浅谈sql数据库去重
- php去除二维数组的重复项方法
- 两种php去除二维数组的重复项方法
- 详解JavaScript数组和字符串中去除重复值的方法
- JavaScript学习笔记之数组去重
- JavaScript数组去重的3种方法和代码实例
- JavaScript数组去重的两种方法推荐
- js数组去重的5种算法实现
- java list去重操作实现方式
- Python对list列表结构中的值进行去重的方法总结
- python读取TXT到数组及列表去重后按原来顺序排序的方法
- eclipse 开发 spark Streaming wordCount
- Understanding Spark Caching
- ClassNotFoundException:scala.PreDef$
- Windows 下Spark 快速搭建Spark源码阅读环境
- Spark中将对象序列化存储到hdfs