您的位置:首页 > 其它

什么是RDD以及如何创建RDD

2017-11-30 15:45 218 查看
RDD全称Resilient Distributed DataSets,弹性的分布式数据集。是Spark的核心内容。

RDD是只读的,不可变的数据集,也拥有很好的容错机制。他有5个主要特性

- A list of partitions 分片列表,数据能为切分才好做并行计算

- A function for computing each split 一个函数计算一个分片

- A list of dependencies on other RDDs 对其他RDD的依赖列表

- Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hashpartitioned)

RDD 可选的,key-value型的RDD,根据hash来分区

- Optionally, a list of preferred locations to compute each split on (e.g. block

locations for an HDFS file) 可选的,每一个分片的最佳计算位置 RDD是Spark所有组件运行的底层系统,RDD是一个容错的,并行的数据结构,它提供了丰富的数据操作和API接口

在Spark中创建RDD的创建方式大概可以分为三种:

从集合中创建RDD:

  而从集合中创建RDD,Spark主要提供了两中函数:parallelize和makeRDD

从外部存储创建RDD:

从其他RDD创建:
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐