您的位置：首页 > 运维架构

Hadoop概念学习系列之谈hadoop/spark里分别是如何实现容错性？（四十二）

2016-12-02 18:09 302 查看

　　Hadoop使用数据复制来实现容错性（I/O高）

　　Spark使用RDD数据存储模型来实现容错性。

　 RDD是只读的、分区记录的集合。[b]如果一个RDD的一个分区丢失，RDD含有如何重建这个分区的相关信息。这就避免了使用数据复制来保证容错性的要求[/b]，从而减少了对磁盘的访问。通过RDD，后续步骤如果需要相同数据集时就不必重新计算或从磁盘加载。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

Spark 概念学习系列之如何构建Spark作业？（七）
Hadoop概念学习系列之谈hadoop/spark里为什么都有，键值对呢？（四十）
Hadoop概念学习系列之分布式数据集的容错性（二十七）
Hadoop概念学习系列之Hadoop、Spark学习路线
Hadoop概念学习系列之Java调用Shell命令和脚本，致力于hadoop/spark集群（三十六）
二次排序问题（分别使用Hadoop和Spark实现）
分别使用Hadoop和Spark实现二次排序
Hadoop和Spark分别实现二次排序
Hadoop概念学习系列之为什么hadoop/spark执行作业时，输出路径必须要不存在？（三十九）
Spark RDD概念学习系列之如何创建RDD
Spark RDD概念学习系列之如何创建Pair RDD
Hadoop概念学习系列之Hadoop、Spark学习路线（很值得推荐）（十八）
Hadoop概念学习系列之Hadoop、Spark学习路线（很值得推荐）
Hadoop概念学习系列之Hadoop、Spark学习路线（很值得推荐）
TopN问题（分别使用Hadoop和Spark实现）
Hadoop概念学习系列之Hadoop、Spark学习路线
Spark 概念学习系列之Spark相比Hadoop MapReduce的特点（二）
Hadoop概念学习系列之如何去找到历史版本的Hadoop发行包（三十四）
Hadoop概念学习系列之谈hadoop/spark里为什么都有，YARN呢？（四十一）
分别使用Hadoop和Spark实现TopN（1）——唯一键

新的分享

新鲜开源：基于Prometheus的企业监控平台设计与实现 - 运维
民生银行日接入量15T的ELK日志平台（Apollo+ES源码改造） - 运维
邱盛昌：OPPO商业化数据体系建设实战
一篇吃透监控系统：常用组合方案和主流工具选型 - 运维
DevOps落地成不成，关键不在持续集成？ - 运维
mlops的一些记录
用Prometheus监控K8S，目前最实用的部署方式都说全了（有彩蛋） - 运维
asio 使用 openssl 示例
Netty源码研究笔记（4）——EventLoop系列
许北林：我为什么加入OpenHarmony生态？又为什么要做“启航KP”开发套件？
【直播回顾】OpenHarmony知识赋能五期第五课——多媒体子系统之视频解读
【直播回顾】如何成为一名优秀的OpenHamrony贡献者？

章节导航