什么是RDD以及如何创建RDD
2017-11-30 15:45
218 查看
RDD全称Resilient Distributed DataSets,弹性的分布式数据集。是Spark的核心内容。
RDD是只读的,不可变的数据集,也拥有很好的容错机制。他有5个主要特性
- A list of partitions 分片列表,数据能为切分才好做并行计算
- A function for computing each split 一个函数计算一个分片
- A list of dependencies on other RDDs 对其他RDD的依赖列表
- Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hashpartitioned)
RDD 可选的,key-value型的RDD,根据hash来分区
- Optionally, a list of preferred locations to compute each split on (e.g. block
locations for an HDFS file) 可选的,每一个分片的最佳计算位置 RDD是Spark所有组件运行的底层系统,RDD是一个容错的,并行的数据结构,它提供了丰富的数据操作和API接口
在Spark中创建RDD的创建方式大概可以分为三种:
从集合中创建RDD:
而从集合中创建RDD,Spark主要提供了两中函数:parallelize和makeRDD
从外部存储创建RDD:
从其他RDD创建:
RDD是只读的,不可变的数据集,也拥有很好的容错机制。他有5个主要特性
- A list of partitions 分片列表,数据能为切分才好做并行计算
- A function for computing each split 一个函数计算一个分片
- A list of dependencies on other RDDs 对其他RDD的依赖列表
- Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hashpartitioned)
RDD 可选的,key-value型的RDD,根据hash来分区
- Optionally, a list of preferred locations to compute each split on (e.g. block
locations for an HDFS file) 可选的,每一个分片的最佳计算位置 RDD是Spark所有组件运行的底层系统,RDD是一个容错的,并行的数据结构,它提供了丰富的数据操作和API接口
在Spark中创建RDD的创建方式大概可以分为三种:
从集合中创建RDD:
而从集合中创建RDD,Spark主要提供了两中函数:parallelize和makeRDD
从外部存储创建RDD:
从其他RDD创建:
相关文章推荐
- 6.文件系统――什么是交换分区以及如何创建和使用交换分区(free,reboot,mkswap,swapon,swapoff)
- solr_4.5.0_03:什么是 core 以及如何创建 core
- 16_Oracle_Admin_什么是表空间以及如何创建表空间
- 【OC学习-21】什么是类的类目category和类的延展extension?以及如何创建和注意事项
- 如何创建表以及设计表需要注意什么,oracle五种限制
- Spark核心RDD、什么是RDD、RDD的属性、创建RDD、RDD的依赖以及缓存、
- 锚点的作用是什么?如何创建锚点?
- 使用STS创建maven项目,以及创建完成后如何解决项目报错问题
- 什么是module 以及如何写一个module
- Hive中如何创建内部表和外部表以及它们的区别
- 论--如何通过代码解析plist文件创建对应的控制器,以及控制器中的控件
- 什么是Servlet,Servlet的作用,生命周期,如何创建、配置Servlet
- 什么是Java序列化,以及其如何实现
- HotSpot 虚拟机在 Java 堆中对象是如何创建、如何布局以及如何访问的?
- SQL Server 2005中的分区表(一):什么是分区表?为什么要用分区表?如何创建分区表?
- 教你如何创建unity3d多个定时器,以及定时器的其他操作
- Git 菜鸟变大神 (五) 如何创建以及合并分支
- VS2010 创建WCF以及SL的客户端如何调用WCF服务 教程(二): 创建调用WCF的SilverLight客户端
- 集线器,路由器,交换机的作用和区别是什么以及如何区分?
- 什么是淘宝关键词以及如何查找关键词的方法