SparkContext的parallelize的参数
2014-12-06 17:32
169 查看
在一个Spark程序的开始部分,有好多是用sparkContext的parallelize制作RDD的,是ParallelCollectionRDD,创建一个并行集合。
例如sc.parallelize(0 until numMappers, numMappers)
创建并行集合的一个重要参数,是slices的数目(例子中是numMappers),它指定了将数据集切分为几份。
在集群模式中,Spark将会在一份slice上起一个Task。典型的,你可以在集群中的每个cpu上,起2-4个Slice (也就是每个cpu分配2-4个Task)。
一般来说,Spark会尝试根据集群的状况,来自动设定slices的数目。当让,也可以手动的设置它,通过parallelize方法的第二个参数。
例如sc.parallelize(0 until numMappers, numMappers)
创建并行集合的一个重要参数,是slices的数目(例子中是numMappers),它指定了将数据集切分为几份。
在集群模式中,Spark将会在一份slice上起一个Task。典型的,你可以在集群中的每个cpu上,起2-4个Slice (也就是每个cpu分配2-4个Task)。
一般来说,Spark会尝试根据集群的状况,来自动设定slices的数目。当让,也可以手动的设置它,通过parallelize方法的第二个参数。
相关文章推荐
- SparkContext的parallelize的参数
- SparkContext的parallelize的参数
- SparkContext的parallelize的参数作用以及MapValues
- SparkContext的parallelize的参数
- 在ASP中按指定参数格式化显示时间的函数。
- JAVA不定参数探秘
- 关于(object sender, System.EventArgs e)中参数sender和e的问题。
- 数组作为参数以及数组能不能返回的问题求解
- 用户向内核模块传递参数例子
- 方法参数out
- ffmpeg参数详解
- 获取隐含参数信息
- flash actionscript 3.0 动画教程:函数之形式参数和实际参数
- JQuery中$.ajax()方法参数详解
- 编写一个函数将一个十六进制数的字符串参数转换成整数返回
- Mongodb启动命令mongod参数说明
- PHP CURL CURLOPT参数说明(curl_setopt)
- c语言中对可变参数列表的简单理解
- C++学习——带默认值参数的函数
- shell 脚本一些参数