Spark学习之RDD编程(2)
2016-01-15 15:07
295 查看
Spark学习之RDD编程(2)
1. Spark中的RDD是一个不可变的分布式对象集合。
2. 在Spark中数据的操作不外乎创建RDD、转化已有的RDD以及调用RDD操作进行求值。
3. 创建RDD:1)读取一个外部数据集2)在驱动器程序里分发驱动器程序中的对象集合。
4. RDD支持的操作:
1)转换操作,由一个RDD生成一个新的RDD。 2)行动操作,对RDD进行计算结果,并把结果返回到驱动器程序中,或者把结果存储到外部存储系统(如HDFS)。
5. Spark程序或者shell会话都会按如下方式工作:
1)从外部数据创建出输入RDD。 2)使用诸如filter()这样的转化操作对RDD进行转化,以定义一个新的RDD。 3)告诉Spark对需要被重用的中间结果RDD执行persist()操作。 4)使用行动操作 (例如count()和first()等)来触发一次并行计算,Spark会对计算进行优化后在执行。
6. 创建RDD
快速创建RDD,把程序中一个已有的集合传给SparkContext的parallelize()方法,不过这种方法除了开发原型和测试时,这种方式用的并不多。 Python中的parallelize()方法
lines = sc.parallelize(["pandas","i like pandas"])
Scala中的parallelize()方法
val lines = sc.parallelize(List("pandas","i like pandas"))
Java中的parallelize()方法
JavaRDD<String> lines = sc.parallelize(Arrays.asList("pandas","i like pandas"))
7. 惰性求值
RDD的转化操作都是惰性求值的。
8. 向Spark传递函数
8.1 Python 传递比较短的函数,使用lambda表达式来传递;也可以传递顶层函数或是定义的局部函数。 8.2 Scala,可以定义的内联函数、方法的引用或静态方法传递给Spark,就行Scala的其他函数式API一样。 8.3 Java,函数需要作为实现了Spark的org.apache.spark.api.java.function包中的任一函数接口的对象来传递。
9. 常见的转化操作和行动操作
9.1 针对个元素的转化操作 flatmap() 对每个输入元素生成多个输出元素。 map() 接受一个函数,把这个函数用于RDD中的每个元素,将函数的返回结果作为结果RDD中的对应元素的。返回的类型不必和输入类型相同。 filter() 接受一个函数,并将RDD中满足该函数的元素放入新RDD中返回。 distinct() 去重 sample(withReplacement,fraction,[seed]) 对RDD采样,以及是否替换 9.2 伪集合操作 合并和相交要求RDD数据类型相同。 (不需混洗)union() 生成一个包含两个RDD中所有元素的RDD (需要混洗)intersection() 求两个RDD共同的元素的RDD (需要混洗)subtract() 移除一个RDD中的内容 (需要混洗)cartesian)() 与另一个RDD的笛卡尔积
相关文章推荐
- java(12)--xml之dom4j方式的增删改查
- python中if __name__ == '__main__': 的解析
- JAVA读写文件
- JAVA操作Excel
- leveldb代码阅读(11)——levelDB生成的文件
- php上传图片
- C++ Library Installation
- PHP 7 探针的安装与测试
- Matlab—matlab进行数据处理
- netbeans中实体类代码的bug
- spring整合Junit方法,支持注解
- PHP 7 探针的安装与测试
- 几种任务调度的 Java 实现方法与比较
- Spring_IoC学习笔记
- 关于libsvm中matlab入口和c++入口的不同
- Spring Boot——开发新一代Spring应用
- 在Asp.Net MVC 中配置 Serilog
- php str_replace技巧-避免重复替换
- Asp.Net请求处理机制中IsApiRuntime解析
- 详解C++编程中表达式的语义与计算顺序