您的位置：首页 > 其它

Spark 常用算子

2017-10-19 14:40 183 查看

常用的执行算子action：

1.reduce:将我们传入的值进行一个一个的加和然后返回最终一条语句

2.collect:将RDD中所有元素获取到本地客户端

3.count :统计有几个元素，获取RDD元素总素

4.first 获取第一元素

5.take:可以获取前几个元素

6.top:可以获取前几个元素

take 与top的区别:take不会对元素进行排序而获取前几个元素，而top会对元素进行排序(降序),然后获取前几个元素

7.saveAsTextFile:将RDD元素保存到文件中，对每个元素调用toString方法

8.countByKey:对每个key对应的值进行count计算,统计相同key出现的次数

9.foreach：便利RDD中的每个元素

常用的转换算子transformation：

1.map:一对一，返回一个新的集合,将RDD中的每个元素传入自定义函数，获取一个新的元素，然后用新的元素组成新的RDD。。

2.flatmap:一对多,返回一个新的集合，以map类似，但是对每个元素都可以返回一个或多个新元素。

3.filter:对RDD中每个元素进行判断，如果返回true则保留，返回flase则去除。

4.mapToPair:获取指定key -vlaue

5.groupbykey:对key值去重，对value值相加，根据key进行分组，每个key对应一个Iterable<value>

6.reducebykey:对key值去重，对value值相加对每个对应的value进行reduce操作

7.groupby:对指定的内容进行分组

8.sortBy:对指定内容进行排序，默认升序,点reverse降序

9.sortbykey: 对指定的key值进行排序

10.values:求取key-value对的value

11.mapValues:求取key-value的的value并可以进行map操作

12.join:对两个包含<key,value>对的RDD进行join操作，每个key join上的pair，都会传入自定义函数进行处理

13，cogroup同join，但是是每个key对应的Iterable<value>都会传入自定义函数进行处理,先进行每个分区的keyvalue聚合，在进行匹配

14.leftOuterJoin：对相同key进行匹配，value相同的都显示，否则显示一个

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： spark

相关文章推荐

新的分享

章节导航