您的位置：首页 > 其它

Spark简介

2016-06-25 22:27 267 查看

Spark集群由一个驱动程序和多个执行程序构成。

任何spark程序的编写从SparkContext开始。SparkContext的初始化需要SparkConf对象，SparkConf包含spark集群配置的各种参数。初始化后可用SparkContext对象包含的方法创建操作分布式数据集和共享变量。Spark shell可自动完成上述初始化。

从./bin运行spark-shell或pyspark会分别打开Scala shell或Python shell并初始化一个SparkContext对象sc

一、弹性分布式数据集(Resilient Distributed Dataset, RDD)

Spark核心概念之一。一个RDD代表一系列记录，这些记录被分配到一个集群的多个节点上。Spark中的RDD具有容错性，即当某个节点任务失败时，RDD会在余下的节点上自动重建，一边任务能最终完成。

1. RDD创建

得到可供操作的分布式记录集。

l 从现有集合创建

collection =["a", "b", "c", "d"];

rddFromCollection = sc.parallelize(collection)

l 从本地文件中创建

2. Spark操作

操作分为转换(transformation)和执行(action)。转换操作对一个数据集中的所有记录执行某种函数，使记录发生改变；执行操作运行某些计算或聚合操作，并将结果返回运行SparkContext的驱动程序。

2.1 转换操作

map: 对RDD里的每条记录都执行某个函数，从而将输入映射为新的输出。

2.2 执行操作

count: 返回RDD中的记录数目

sum: 对所有记录的长度求和

collect：将整个RDD以集合的形式返回驱动程序。通常只在需将结果返回到驱动程序节点供本地处理时调用。如果在大的数据集上调用，可能耗尽驱动程序的可用内存，导致程序崩溃。高负荷的处理应尽可能在整个集群上进行，从而避免驱动程序成为系统瓶颈。

Spark中的转换操作是延后的。在RDD上调用一个转换操作并不会立即触发相应的计算。这些转换操作会链接起来，只有在执行操作被调用时才被高效地计算。这样，大部分操作可以在集群上并行执行，只有必要时才计算结果并将其返回给驱动程序，从而提高了Spark的效率。即Spark程序从未调用执行操作就不会触发实际的计算，不会得到任何结果。

3. RDD缓存策略

把数据缓存在集群的内存里是RDD最为强大的功能之一。

cache函数使Spark将RDD缓存在内存中。首次调用cache函数所需时间部分取决于Spark从输入源读取数据所需要的时间。下一次访问该数据集时，数据可直接从内存中读出，减少低效的IO操作，加快计算。多数情况下，会取得数倍的速度提升。

persisit函数可以指定Spark的数据缓存策略。

一、广播变量和累加器

创建广播变量和累加器是Spark的另一个核心功能。

1. 广播变量(broadcast variable)

只读变量。由运行SparkContext的驱动程序创建后发送给会参与计算的节点。对需要让各工作节点高效地访问相同数据的应用场景非常有用。如机器学习。

创建广播变量

broadcastAList = sc.broadcast([1, 2, 3, 4, 5])
非驱动程序所在节点访问广播变量

调用该变量的value方法

2. 累加器(accumulator)

广播到工作节点的变量。累加器与广播变量的关键不同在于广播变量只能读取而累加器可以累加。但累加必须是有关联的操作，得能保证在全局范围内累加起来的值能被正确地并行计算以及返回驱动程序。每个工作节点只能访问操作自己本地的累加器，全局累加器只允许驱动程序访问。累加器也通过value访问。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航