Hadoop概念学习系列之谈hadoop/spark里分别是如何实现容错性?(四十二)
2016-12-02 18:09
302 查看
Hadoop使用数据复制来实现容错性(I/O高)
Spark使用RDD数据存储模型来实现容错性。
RDD是只读的、分区记录的集合。[b]如果一个RDD的一个分区丢失,RDD含有如何重建这个分区的相关信息。这就避免了使用数据复制来保证容错性的要求[/b],从而减少了对磁盘的访问。通过RDD,后续步骤如果需要相同数据集时就不必重新计算或从磁盘加载。
Spark使用RDD数据存储模型来实现容错性。
RDD是只读的、分区记录的集合。[b]如果一个RDD的一个分区丢失,RDD含有如何重建这个分区的相关信息。这就避免了使用数据复制来保证容错性的要求[/b],从而减少了对磁盘的访问。通过RDD,后续步骤如果需要相同数据集时就不必重新计算或从磁盘加载。
相关文章推荐
- Spark 概念学习系列之如何构建Spark作业?(七)
- Hadoop概念学习系列之谈hadoop/spark里为什么都有,键值对呢?(四十)
- Hadoop概念学习系列之分布式数据集的容错性(二十七)
- Hadoop概念学习系列之Hadoop、Spark学习路线
- Hadoop概念学习系列之Java调用Shell命令和脚本,致力于hadoop/spark集群(三十六)
- 二次排序问题(分别使用Hadoop和Spark实现)
- 分别使用Hadoop和Spark实现二次排序
- Hadoop和Spark分别实现二次排序
- Hadoop概念学习系列之为什么hadoop/spark执行作业时,输出路径必须要不存在?(三十九)
- Spark RDD概念学习系列之如何创建RDD
- Spark RDD概念学习系列之如何创建Pair RDD
- Hadoop概念学习系列之Hadoop、Spark学习路线(很值得推荐)(十八)
- Hadoop概念学习系列之Hadoop、Spark学习路线(很值得推荐)
- Hadoop概念学习系列之Hadoop、Spark学习路线(很值得推荐)
- TopN问题(分别使用Hadoop和Spark实现)
- Hadoop概念学习系列之Hadoop、Spark学习路线
- Spark 概念学习系列之Spark相比Hadoop MapReduce的特点(二)
- Hadoop概念学习系列之如何去找到历史版本的Hadoop发行包(三十四)
- Hadoop概念学习系列之谈hadoop/spark里为什么都有,YARN呢?(四十一)
- 分别使用Hadoop和Spark实现TopN(1)——唯一键