Spark Rdd map和mapPartitions效率问题
2018-02-24 10:29
239 查看
当map和mapPartitions参数中的方法并没有额外开销时,比如创建数据库连接,申请其他资源时,使用map比mapPartitions的效率要高,但如果有比较耗时但又可以在整个Partition中的元素中复用的对象或操作时,那么使用mapPartitions并且只创建一次可复用资源的效率更高。
map中只是简单的通过Gson将字符串转换为HashMap对象:
// 16 9 6 2 4 7 3 4
var sourceMidRowPairRdd = sc.textFile(filePath).mapPartitions(logLineToMap)
// 6 5 3 2 2 3 2 3
map中只是简单的通过Gson将字符串转换为HashMap对象:
// 16 9 6 2 4 7 3 4
var sourceMidRowPairRdd = sc.textFile(filePath).mapPartitions(logLineToMap)
// 6 5 3 2 2 3 2 3
var sourceMidRowPairRdd = sc.textFile(filePath).map(logLineToMap)
由于操作比较简单,map方法的执行时间普遍要比 mapPartitions 方法快一些,此时使用map更合适。
相关文章推荐
- 关于Spark里面的RDD.mappartitions的问题
- Spark编程之基本的RDD算子之map,mapPartitions, mapPartitionsWithIndex.
- Spark算子:RDD基本转换操作(5)–mapPartitions、mapPartitionsWithIndex
- Spark RDD API详解(一) Map和Reduce
- Spark RDD API详解(一) Map和Reduce
- 【spark】Spark算子:RDD基本转换操作–map、flagMap、distinct
- Spark算子:RDD基本转换操作(5)–mapPartitions/mapPartitionsWithIndex
- spark:map mapPartitions flatmap
- Spark RDD API详解(一) Map和Reduce
- Spark RDD/Core 编程 API入门系列之map、filter、textFile、cache、对Job输出结果进行升和降序、union、groupByKey、join、reduce、look
- Spark算子:RDD基本转换操作(5)–mapPartitions、
- Spark RDD API详解(一) Map和Reduce
- Spark RDD API详解(一) Map和Reduce
- Spark算子:RDD基本转换操作(mapPartitions、mapPartitionsWithIndex)
- spark java.utils.List 没有map方法的问题
- Spark算子:RDD基本转换操作(1)–map、flagMap、distinct
- Spark RDD 之 map和reduce
- Spark算子:RDD基本转换操作map、flatMap
- Spark RDD API详解(一) Map和Reduce (zhuan)
- Spark算子:RDD键值转换操作(1)–partitionBy、mapValues、flatMapValues