您的位置：首页 > 编程语言

Spark Checkpoint读操作代码分析

2016-07-17 15:58 471 查看

　《Spark RDD缓存代码分析》

　　《Spark Task序列化代码分析》

　　《Spark分区器HashPartitioner和RangePartitioner代码详解》

　　《Spark Checkpoint读操作代码分析》

　　《Spark Checkpoint写操作代码分析》

　　上次介绍了RDD的Checkpint写过程（《Spark Checkpoint写操作代码分析》），本文将介绍RDD如何读取已经Checkpint的数据。在RDD Checkpint完之后，Checkpint的信息（比如数据存放的目录）都由RDDCheckpointData去管理，所以当下次计算依赖了这个RDD的时候，首先是根据依赖关系判断出当前这个RDD是否被Checkpint了，主要是通过RDD的dependencies决定：

　　如果RDD被Checkpint了，那么checkpointRDD为Some(CheckpointRDD[T])了，所以依赖的RDD变成了CheckpointRDD。在计算数据的过程中会调用RDD的iterator方法：

　　计算的过程中首先会判断RDD是否被Checkpint了，而RDD Checkpint写之后这个条件肯定是true的。而firstParent已经变成了CheckpointRDD，所以会调用CheckpointRDD的iterator方法，该方法最终会调用ReliableCheckpointRDD的compute方法：

　　在compute方法中会通过ReliableCheckpointRDD的readCheckpointFile方法来从file路径里面读出已经Checkpint的数据，readCheckpointFile的实现如下：

最后数据就回被全部读取出来，整个Checkpint读过程完成了。

转载自过往记忆（http://www.iteblog.com/）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航