您的位置：首页 > 其它

Spark开发-RDD分区重新划分

2017-10-09 23:36 211 查看

repartition(numPartitions: Int):RDD[T]

coalesce(numPartitions: Int, shuffle: Boolean = false):RDD[T]

repartition和coalesce是对RDD的分区进行重新划分，repartition只是coalesce接口中shuffle为true的简易实现，所以这里主要讨论coalesce合并函数该如何设置shuffle参数，这里分三种情况，假设RDD为N个分区，需要重新划分M个分区

1、如果N< M,一般情况下N个分区有数据分布不均的状况，利用HashPartitioner函数将数据重新分区为M个，这时需要将shuffle设置为true

2、如果N>M并且N和M相差不多，比如N是1000，M是100,那么就可以将N个分区中的若干个分区合并成一个新的分区，最终合并成M个分区，这时可以将shuffle的参数设置为false（在shuffle为false的情况下，设置M>N,coalesce是不起作用的），不进行shuffle过程，父RDD和子RDD之间是窄依赖关系

3、如果N>M并且N和M差距悬殊大,比如N是1000，M是1，这个时候如果把shuffle设置成false，由于父子RDD是窄依赖，它们同处在一个stage中，就可能会造成spark程序运行的并行度不够，从而影响性能，比如在M为1时，由于只有一个分区，所以只会有一个任务在运行，为了是coalesce之前的操作有更好的并行度，可以将shuffle参数设置为true。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： spark 合并

相关文章推荐

新的分享

章节导航