您的位置：首页 > 移动开发

Spark Rdd map和mapPartitions效率问题

2018-02-24 10:29 239 查看

当map和mapPartitions参数中的方法并没有额外开销时，比如创建数据库连接，申请其他资源时，使用map比mapPartitions的效率要高，但如果有比较耗时但又可以在整个Partition中的元素中复用的对象或操作时，那么使用mapPartitions并且只创建一次可复用资源的效率更高。
map中只是简单的通过Gson将字符串转换为HashMap对象：
// 16 9 6 2 4 7 3 4
var sourceMidRowPairRdd = sc.textFile(filePath).mapPartitions(logLineToMap)
// 6 5 3 2 2 3 2 3

  var sourceMidRowPairRdd = sc.textFile(filePath).map(logLineToMap)

由于操作比较简单，map方法的执行时间普遍要比 mapPartitions 方法快一些，此时使用map更合适。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航