Spark RDD概念学习系列之transformation操作
2017-06-04 17:43
477 查看
不多说,直接上干货!
(1)RDD 的转化操作都是惰性求值的。这意味着在被调用行动操作之前Spark不会开始计算。
(2)读取数据到RDD的操作也是惰性的。
(3)惰性求值的好处:
a. Spark 使用惰性求值可以把一些操作合并到一起来减少计算数据的步骤。在类似 Hadoop MapReduce 的系统中,开发者常常花费大量时间考虑如何把操作组合到一起,以减少MapReduce 的周期数。
b. 而在Spark 中,写出一个非常复杂的映射并不见得能比使用很多简单的连续操作获得好很多的性能。因此,用户可以用更小的操作来组织他们的程序,这样也使这些操作更容易管理。
转换操作
RDD 的转化操作是返回新RDD 的操作。
我们不应该把RDD 看作存放着特定数据的数据集,而最好把每个RDD 当作我们通过转化操作构建出来的、记录如何计算数据的指令列表。
[b]基本转换操作1[/b]
基本转换操作2
transformation操作
惰性求值(1)RDD 的转化操作都是惰性求值的。这意味着在被调用行动操作之前Spark不会开始计算。
(2)读取数据到RDD的操作也是惰性的。
(3)惰性求值的好处:
a. Spark 使用惰性求值可以把一些操作合并到一起来减少计算数据的步骤。在类似 Hadoop MapReduce 的系统中,开发者常常花费大量时间考虑如何把操作组合到一起,以减少MapReduce 的周期数。
b. 而在Spark 中,写出一个非常复杂的映射并不见得能比使用很多简单的连续操作获得好很多的性能。因此,用户可以用更小的操作来组织他们的程序,这样也使这些操作更容易管理。
转换操作
RDD 的转化操作是返回新RDD 的操作。
我们不应该把RDD 看作存放着特定数据的数据集,而最好把每个RDD 当作我们通过转化操作构建出来的、记录如何计算数据的指令列表。
[b]基本转换操作1[/b]
基本转换操作2
相关文章推荐
- Spark RDD概念学习系列之Pair RDD的transformation操作
- Spark RDD/Core 编程 API入门系列 之rdd实战(rdd基本操作实战及transformation和action流程图)(源码)(三)
- Spark RDD概念学习系列之RDD的操作(七)
- Spark总结(二)——RDD的Transformation操作
- scala fold系列函数及 sparkRDD fold 操作解析
- Spark RDD概念学习系列之如何创建Pair RDD
- Spark RDD概念学习系列之RDD的容错机制(十七)
- Spark RDD概念学习系列之Spark Hash Shuffle内幕彻底解密(二十)
- 【Spark】RDD操作详解2——值型Transformation算子
- 【Spark】RDD操作具体解释2——值型Transformation算子
- Spark RDD概念学习系列之RDD的本质特征
- Spark RDD概念学习系列之如何创建RDD
- Spark RDD概念学习系列之RDD的5大特点
- Spark RDD概念学习系列之Spark的算子的作用(十四)
- Spark RDD概念学习系列之Pair RDD的action操作
- spark RDD transformation操作
- Spark RDD概念学习系列之不同角度看RDD
- Spark RDD概念学习系列之细谈RDD的弹性(十六)
- Spark RDD概念学习系列之rdd的依赖关系彻底解密(十九)
- Spark核心编程:操作RDD(transformation和action案例实战)