Spark函数讲解:cache
2016-05-22 21:18
393 查看
用MEMORY_ONLY储存级别对RDD进行缓存,其内部实现是调用persist()函数的。官方文档定义:
Persist this RDD with the default storage level (`MEMORY_ONLY`).
Persist this RDD with the default storage level (`MEMORY_ONLY`).
函数原型
def cache() : this.type
实例
scala> var data = sc.parallelize(List(1,2,3,4)) data: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[44] at parallelize at <console>:12 scala> data.getStorageLevel res65: org.apache.spark.storage.StorageLevel = StorageLevel(false, false, false, false, 1) scala> data.cache res66: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[44] at parallelize at <console>:12 scala> data.getStorageLevel res67: org.apache.spark.storage.StorageLevel = StorageLevel(false, true, false, true, 1)我们先是定义了一个RDD,然后通过getStorageLevel函数得到该RDD的默认存储级别,这里是NONE。然后我们调用cache函数,将RDD的存储级别改成了MEMORY_ONLY(看StorageLevel的第二个参数)。关于StorageLevel的其他的几种存储级别介绍请参照StorageLevel类进行了解,这里就不介绍了。
相关文章推荐
- construct-binary-tree-from-preorder-and-inorder-traversal
- 【软考总结】——正视自己的不足
- LeetCode-77.Combinations
- IPSEC与SSL/TLS的比较
- threejs(一) 点,线,网格
- 51nod 1057 N的阶乘
- sky_Same Tree
- OC协议/接口
- Linux学习之环境变量
- c++ 之 引用类型 const 用法
- spring boot项目配置文件集合
- 9——PHP循环结构foreach用法
- 海贼王(航海王)第742集 父女的羁绊 居鲁士与蕾贝卡
- Spark函数讲解:cartesian
- 串口通信IN C++(适用于Microsoft Visual Studio 2010/2012/2013 ,VC++6.0 )
- 第104讲: Spark Streaming电商广告点击综合案例需求分析和技术架构
- 新一代与12-factors:进程
- 第二周个人冲刺周期04
- C#猜数字游戏
- 短信猫短信收发平台