Spark 中算子功能与分类介绍
2017-12-11 09:15
344 查看
1. value型算子
从输入到输出可分为一对一(包括cache)、多对一、多对多、输出分区为输入分区自激
1)一对一,
map,简单的一对一映射,集合不变;
flatMap,一对一映射,并将最后映射结果整合;
mappartitions,对分区内元素进行迭代操作,例如过滤等,然后分区不变
glom,将分区内容转换成数据
2)多对一,
union,相同数据类型RDD进行合并,并不去重
cartesian,对RDD内的所有元素进行笛卡尔积操作
3)多对多,
groupBy,将元素通过函数生成相应的Key,然后转化为Key-value格式
4)输出分区为出入分区子集,
filter,对RDD进行过滤操作,结果分区不调整
distinct,对RDD进行去重操作,
subtract,RDD间进行减操作,去除相同数据元素
sample/takeSample 对RDD进行采样操作
5)cache,
cache,将RDD数据原样存入内存
persist,对RDD数据进行缓存操作
2. Key-Value算子
Key-Value算子大致可分为一对一,聚集,连接三类操作
1)一对一,
mapValues,针对数值对中的Value进行上面提到的map操作
2)聚集操作
combineByKey、reduceByKey、partitionBy、cogroup
3)连接
join、leftOutJoin、rightOutJoin
3. Actions算子
该算子通过SparkContext执行提交作业操作,出发RDD DAG的执行
1)foreach, 对RDD中每个元素进行操作,但是不返回RDD或者Array,只返回Unit
2)存入HDFS,saveAsTextFile,saveAsObjectFile
3)scala数据格式,collect,collectAsMap,reduceByKeyLocally, lookup, count, top, reduce, fold, aggregate
从输入到输出可分为一对一(包括cache)、多对一、多对多、输出分区为输入分区自激
1)一对一,
map,简单的一对一映射,集合不变;
flatMap,一对一映射,并将最后映射结果整合;
mappartitions,对分区内元素进行迭代操作,例如过滤等,然后分区不变
glom,将分区内容转换成数据
2)多对一,
union,相同数据类型RDD进行合并,并不去重
cartesian,对RDD内的所有元素进行笛卡尔积操作
3)多对多,
groupBy,将元素通过函数生成相应的Key,然后转化为Key-value格式
4)输出分区为出入分区子集,
filter,对RDD进行过滤操作,结果分区不调整
distinct,对RDD进行去重操作,
subtract,RDD间进行减操作,去除相同数据元素
sample/takeSample 对RDD进行采样操作
5)cache,
cache,将RDD数据原样存入内存
persist,对RDD数据进行缓存操作
2. Key-Value算子
Key-Value算子大致可分为一对一,聚集,连接三类操作
1)一对一,
mapValues,针对数值对中的Value进行上面提到的map操作
2)聚集操作
combineByKey、reduceByKey、partitionBy、cogroup
3)连接
join、leftOutJoin、rightOutJoin
3. Actions算子
该算子通过SparkContext执行提交作业操作,出发RDD DAG的执行
1)foreach, 对RDD中每个元素进行操作,但是不返回RDD或者Array,只返回Unit
2)存入HDFS,saveAsTextFile,saveAsObjectFile
3)scala数据格式,collect,collectAsMap,reduceByKeyLocally, lookup, count, top, reduce, fold, aggregate
相关文章推荐
- Spark 中算子功能与分类介绍
- Spark的算子分类及功能
- Spark算子分类及功能描述
- Spark的算子的分类
- Spark计算平台算子介绍与学习
- 3.1 Spark-RDD算子分类
- Spark的算子的分类
- Spark的算子的分类
- Spark的算子的分类
- spark算子介绍
- 操作系统定义、功能、特征、分类介绍
- spark RDD 算子运行过程及分类
- 跟天齐老师学Spark(6)--Spark的常用算子介绍
- [转载]spark算子介绍
- Python模块功能在实际应用方案中的相关功能的介绍 分类: database 2014-01-29 16:37 261人阅读 评论(0) 收藏
- Spark RDD概念学习系列之Spark的算子的分类(十一)
- Spark RDD概念学习系列之Spark的算子的分类(十一)
- Spark的算子的分类
- Spark算子及功能
- Spark的算子的分类