您的位置：首页 > 其它

SparkContext的parallelize的参数

2017-08-22 15:24 561 查看

1.解释

- 并行集合的创建（RDD）
使用已经存在的迭代器或者集合通过调用spark驱动程序提供的parallelize函数来创建并行集合
- 并行集合被创建用来在分布式集群上并行计算的。

2.例子
data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)
一旦创建RDD，RDD，就可以在集群上并行的去被操作。我们可以调用distData.reduce(lambda a, b:a + b)添加元素到list。之后在RDD上进行一些操作或者行动.

3.parallelize的一个重要的参数
就是分区数量。就是将RDD切分多少个分区。这个分区数目每个CPU一般是2-4个在你的集群上。通常，spark会自动设置这个数量在你的集群上。你也可以手动去传参，这个函数的第二个参数，比如`sc.parallelize(data,
5)。

4.persist()
缓存rdd第一次计算之后的结果到内存中,方便以后使用

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： spark parallelize

相关文章推荐

新的分享

章节导航