SparkContext的parallelize的参数
2017-08-22 15:24
561 查看
1.解释
- 并行集合的创建(RDD)
使用已经存在的迭代器或者集合通过调用spark驱动程序提供的parallelize函数来创建并行集合
- 并行集合被创建用来在分布式集群上并行计算的。
2.例子
data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)
一旦创建RDD,RDD,就可以在集群上并行的去被操作。我们可以调用distData.reduce(lambda a, b:a + b)添加元素到list。之后在RDD上进行一些操作或者行动.
3.parallelize的一个重要的参数
就是分区数量。就是将RDD切分多少个分区。这个分区数目每个CPU一般是2-4个在你的集群上。通常,spark会自动设置这个数量在你的集群上。你也可以手动去传参,这个函数的第二个参数,比如`sc.parallelize(data,
5)。
4.persist()
缓存rdd第一次计算之后的结果到内存中,方便以后使用
- 并行集合的创建(RDD)
使用已经存在的迭代器或者集合通过调用spark驱动程序提供的parallelize函数来创建并行集合
- 并行集合被创建用来在分布式集群上并行计算的。
2.例子
data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)
一旦创建RDD,RDD,就可以在集群上并行的去被操作。我们可以调用distData.reduce(lambda a, b:a + b)添加元素到list。之后在RDD上进行一些操作或者行动.
3.parallelize的一个重要的参数
就是分区数量。就是将RDD切分多少个分区。这个分区数目每个CPU一般是2-4个在你的集群上。通常,spark会自动设置这个数量在你的集群上。你也可以手动去传参,这个函数的第二个参数,比如`sc.parallelize(data,
5)。
4.persist()
缓存rdd第一次计算之后的结果到内存中,方便以后使用
相关文章推荐
- SparkContext的parallelize的参数作用以及MapValues
- SparkContext的parallelize的参数
- SparkContext的parallelize的参数
- SparkContext的parallelize的参数
- oracle日志文件、参数文件和控制文件的备份恢复
- PHP编译参数中文版
- Nginx主配置文件参数详解
- Flume 中Sink批量参数设置调优
- ASP.NET MVC 页面调整并传递参数
- SWFTools pdf2swf 参数详解 及中文乱码问题
- ORA-22828 输入样式或替换参数超过了32k大小限制
- C#调用命令行返回参数方法
- PHP 连接打开新网页带参数
- SpringMVC 过滤参数的非法字符
- QT的QWS参数
- tcp 网络参数
- C#WinForm 往线程里传参数的方法总结
- JS中this和对象作为函数参数的区别
- 定义平面中的一个Circle类, 1编写一个无参数构造函数, 2编写一个有参的构造函数 3在主函数中调用无参构造函数生成圆的实例c1,调用有参构造函数生成圆的实例c2,调用实例方法判断c1和c2是否重
- Java虚拟机-JVM各种参数配置大全详细