Spark核心——RDD
2016-01-09 17:31
288 查看
Spark中最核心的概念为RDD(Resilient Distributed DataSets)中文为:弹性分布式数据集,RDD为对分布式内存对象的 抽象它表示一个被分区不可变且能并行操作的数据集;RDD为可序列化的、可缓存到内存对RDD进行操作过后还可以存到内存中,下次操作直接把内存中RDD作为输入,避免了Hadoop MapReduce的大IO操作;
1、从RDD进行转换操作
2、使用外部存储系统创建,如:HDFS;
转换(transformation operation)
转换操作将一个RDD经过操作后返回一个全新的RDD,转换操是lazy(惰性)的这期间不会产生任何数据的计算;
转换函数有:distinct、filter、map、flatMap、union、groupByKey等;
行动(action operation)
每一个行动操作都会触发Spark Job进行计算并返回最终的结果,行动操作有这么几类:返回标量,count返回元素的个数;返回Scala集合,task(n)返回0到n-1组成的集合;写入外部存储,saveAsHadoopFile(path)存储到HDFS;
行动函数有:count、top、task、saveAsHadoopFile等;
RDD为不可变的数据集,可以使用转换操作“修改”一个RDD,但这操作过后返回的是一个全新的RDD 原本RDD并没有改变;
RDD状态转换图
RDD的依赖关系(dependencies):
由于对RDD的操作都是粗粒度的一个转换操作过后都会产生一个新的RDD,RDD之间会形成一个前后依赖关系;Spark中存在两种依赖:窄依赖(Narrow Dependencies)、宽依赖(Wide Dependencies);
窄依赖(Narrow Dependencies):一个父RDD的分区只能被一个子RDD的一个分区使用;
宽依赖(Wide Dependencies):多个子RDD的分区依赖于一个父RDD的同一个分区;
窄依赖的节点(RDD)关系如果流水一般,所以当节点失败后只需重新计算父节点的分区即可,宽依赖需要重新计算父节点的多个分区代价是非常昂贵的;
窄依赖Narrow
宽依赖Wide
参考资料:
http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf
http://spark.apache.org/docs/latest/programming-guide.html
文章首发地址:Solinx
http://www.solinx.co/archives/548
RDD生成
Spark所要处理的任何数据都是存储在RDD之中,目前两种方式可以生成一个RDD:1、从RDD进行转换操作
2、使用外部存储系统创建,如:HDFS;
RDD操作
RDD支持两种操作:转换(transformation operation)
转换操作将一个RDD经过操作后返回一个全新的RDD,转换操是lazy(惰性)的这期间不会产生任何数据的计算;
转换函数有:distinct、filter、map、flatMap、union、groupByKey等;
行动(action operation)
每一个行动操作都会触发Spark Job进行计算并返回最终的结果,行动操作有这么几类:返回标量,count返回元素的个数;返回Scala集合,task(n)返回0到n-1组成的集合;写入外部存储,saveAsHadoopFile(path)存储到HDFS;
行动函数有:count、top、task、saveAsHadoopFile等;
RDD为不可变的数据集,可以使用转换操作“修改”一个RDD,但这操作过后返回的是一个全新的RDD 原本RDD并没有改变;
RDD状态转换图
Lineage
Spark RDD只支持粗粒度的操作,对一个RDD的操作都会被作用于该RDD的所有数据;为了保证RDD的高可用性RDD通过使用Lineage(血统)记录了RDD演变流程(从其他RDD到当前RDD所做的操作) 当RDD分区数据丢失时可以通过Lineage的信息重新计算与恢复分区数据,或进行RDD的重建;RDD的依赖关系(dependencies):
由于对RDD的操作都是粗粒度的一个转换操作过后都会产生一个新的RDD,RDD之间会形成一个前后依赖关系;Spark中存在两种依赖:窄依赖(Narrow Dependencies)、宽依赖(Wide Dependencies);
窄依赖(Narrow Dependencies):一个父RDD的分区只能被一个子RDD的一个分区使用;
宽依赖(Wide Dependencies):多个子RDD的分区依赖于一个父RDD的同一个分区;
窄依赖的节点(RDD)关系如果流水一般,所以当节点失败后只需重新计算父节点的分区即可,宽依赖需要重新计算父节点的多个分区代价是非常昂贵的;
窄依赖Narrow
宽依赖Wide
参考资料:
http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf
http://spark.apache.org/docs/latest/programming-guide.html
文章首发地址:Solinx
http://www.solinx.co/archives/548
相关文章推荐
- 图片实现缩放功能,设置缩放比例
- Zabbix监控CPU与实际值不符合,
- 实体机异常关机,VM再次打开虚拟机时出现报错
- C语言-数组
- iOS9 添加自定义.pch
- java socket一对多通信编程
- iOS 进阶 第四天(0329)
- SOA架构有基本的要求
- Swift开发IOS-UIStepper
- Linux系统启动过程分析
- iOS - UIViewContentMode
- android studio错误集锦:You need to use a Theme.AppCompat theme
- 读w3cplusCSS秘密花园:磨砂玻璃效果 的收获
- 工具类:HttpURLConnHelper(实现网络访问文件,将获取到数据储存在文件流中)
- Java并发编程--Fork/Join框架使用
- iOS 进阶 第三天(0326)
- linux下tar.gz、tar、bz2、zip等解压缩、压缩命令小结
- SAP R3 define bank info
- 谈谈TCP三次握手
- mysql常用语句(学习笔记)