您的位置:首页 > 其它

Spark 常用算子

2017-10-19 14:40 183 查看
常用的执行算子action:

1.reduce:将我们传入的值进行一个一个的加和然后返回最终一条语句

2.collect:将RDD中所有元素获取到本地客户端

3.count :统计有几个元素,获取RDD元素总素

4.first 获取第一元素

5.take:可以获取前几个元素

6.top:可以获取前几个元素

    take 与top的区别:take不会对元素进行排序而获取前几个元素,而top会对元素进行排序(降序),然后获取前几个元素

7.saveAsTextFile:将RDD元素保存到文件中,对每个元素调用toString方法

8.countByKey:对每个key对应的值进行count计算,统计相同key出现的次数

9.foreach:便利RDD中的每个元素

常用的转换算子transformation:

1.map:一对一,返回一个新的集合,将RDD中的每个元素传入自定义函数,获取一个新的元素,然后用新的元素组成新的RDD。。

2.flatmap:一对多,返回一个新的集合,以map类似,但是对每个元素都可以返回一个或多个新元素。

3.filter:对RDD中每个元素进行判断,如果返回true则保留,返回flase则去除。

4.mapToPair:获取指定key -vlaue

5.groupbykey:对key值去重,对value值相加,根据key进行分组,每个key对应一个Iterable<value>

6.reducebykey:对key值去重,对value值相加 对每个对应的value进行reduce操作

7.groupby:对指定的内容进行分组

8.sortBy:对指定内容进行排序,默认升序,点reverse降序

9.sortbykey: 对指定的key值进行排序

10.values:求取key-value对的value

11.mapValues:求取key-value的的value并可以进行map操作

12.join:对两个包含<key,value>对的RDD进行join操作,每个key join上的pair,都会传入自定义函数进行处理

13,cogroup同join,但是是每个key对应的Iterable<value>都会传入自定义函数进行处理,先进行每个分区的keyvalue聚合,在进行匹配

14.leftOuterJoin:对相同key进行匹配,value相同的都显示,否则显示一个
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  spark