spark新能优化之多次使用RDD的持久化或checkPoint
2016-07-13 17:47
253 查看
如果程序中,对某一个RDD,基于它进行了多次transformation或者action操作。那么就非常有必要对其进行持久化操作,以避免对一个RDD反复进行计算。
此外,如果要保证在RDD的持久化数据可能丢失的情况下,还要保证高性能,那么可以对RDD进行Checkpoint操作。(也就是多次用到中间RDD的生成值时可以持久化再checkPoint(当持久化数据没的时候会去checkPoint中寻找,详细见spark源码。))
此外,如果要保证在RDD的持久化数据可能丢失的情况下,还要保证高性能,那么可以对RDD进行Checkpoint操作。(也就是多次用到中间RDD的生成值时可以持久化再checkPoint(当持久化数据没的时候会去checkPoint中寻找,详细见spark源码。))
相关文章推荐
- 以SpringMVC框架为中心疯狂扩展-03、添加springframework的依赖
- AARRR:互联网创业者一定要掌握的指标
- OpenSSLRSA.h
- Git 常用操作
- oracle客户端精简绿色版-环境变量配置
- log4j.properties配置详解
- HTML5+、mui开发移动app
- php常用加密技术(包括密码加密及URL加密)
- NYOJ-开灯问题
- 实习期间移动端做时总结
- BZOJ3548 : [ONTAK2010]Party
- JAVA-实用类
- css3变形中几个重要点
- 从Dinnr失败看产品市场可行性认知有哪些不足
- strace,truss,ltrace追踪系统情况
- 关于Android的内存泄露的笔记
- Sphinx 搜索引擎 MySql多表上亿大数据飞速执行的福音 SphinxQL像使用SQL一样使用
- ajax传递给后台数组参数方式
- java 文件复制 文件夹复制工具类
- MPU6050数据读取