您的位置:首页 > 其它

Spark初探

2015-06-20 00:00 281 查看

1、Spark是什么?

○ 高可伸缩性

○ 高容错

○ 基于内存计算

2、Spark的生态体系(BDAS,中文:伯利克分析栈)

○ MapReduce属于Hadoop生态体系之一,Spark则属于BDAS生态体系之一

○ Hadoop包含了MapReduce、HDFS、HBase、Hive、Zookeeper、Pig、Sqoop等

○ BDAS包含了Spark、Shark(相当于Hive)、BlinkDB、Spark Streaming(消息实时处理框架,类似Storm)等等

○ BDAS生态体系图:



3、Spark与MapReduce

优势:

○ MapReduce通常将中间结果放到HDFS上,Spark是基于内存并行大数据框架,中间结果存放到内存,对于迭代数据Spark效率高。

○ MapReduce总是消耗大量时间排序,而有些场景不需要排序,Spark可以避免不必要的排序所带来的开销

○ Spark是一张有向无环图(从一个点出发最终无法回到该点的一个拓扑),并对其进行优化。

4、Spark支持的API

Scala、Python、Java等

5、运行模式

○ Local (用于测试、开发)

○ Standlone (独立集群模式)

○ Spark on Yarn (Spark在Yarn上)

○ Spark on Mesos (Spark在Mesos)

6、运行时的Spark

Driver程序启动多个Worker,Worker从文件系统加载数据并产生RDD(即数据放到RDD中,RDD是一个数据结构),并按照不同分区Cache到内存中。如图:



7、RDD

○ 英文名:Resilient Distributed Dataset

○ 中文名:弹性分布式数据集

○ 什么是RDD?RDD是一个只读、分区记录的集合,你可以把他理解为一个存储数据的数据结构!在Spark中一切基于RDD

○ RDD可以从以下几种方式创建:

1、集合转换

2、从文件系统(本地文件、HDFS、HBase)输入

3、从父RDD转换(为什么需要父RDD呢?容错,下面会提及)

○ RDD的计算类型:

1、Transformation:延迟执行,一个RDD通过该操作产生的新的RDD时不会立即执行,只有等到Action操作才会真正执行。

2、Action:提交Spark作业,当Action时,Transformation类型的操作才会真正执行计算操作,然后产生最终结果输出。

3、Hadoop提供处理的数据接口有Map和Reduce,而Spark提供的不仅仅有map和reduce,还有更多对数据处理的接口,如图下所示:


8、容错Lineage

8.1、容错基本概念

○ 每个RDD都会记录自己所依赖的父RDD,一旦出现某个RDD的某些partition丢失,可以通过并行计算迅速恢复

8.2、Narrow Dependent(窄依赖)和Wide Dependent(宽依赖)

○ RDD的依赖又分为Narrow Dependent(窄依赖)和Wide Dependent(宽依赖)

○ 窄依赖:每个partition最多只能给一个RDD使用,由于没有多重依赖,所以在一个节点上可以一次性将partition处理完,且一旦数据发生丢失或者损坏可以迅速从上一个RDD恢复

○ 宽依赖:每个partition可以给多个RDD使用,由于多重依赖,只有等到所有到达节点的数据处理完毕才能进行下一步处理,一旦发生数据丢失或者损坏,则完蛋了,所以在这发生之前必须将上一次所有节点的数据进行物化(存储到磁盘上)处理,这样达到恢复。

○ 宽、窄依赖示例图:



9、缓存策略

Spark通过useDisk、useMemory、deserialized、replication4个参数组成11种缓存策略。

useDisk:使用磁盘缓存(boolean )

useMemory:使用内存缓存(boolean)

deserialized:反序列化(序列化是为了网络将对象进行传输,boolean:true反序列化\false序列化)

replication:副本数量(int)

通过StorageLevel类的构造传参的方式进行控制,结构如下:

class StorageLevel private(useDisk : Boolean ,useMemory : Boolean ,deserialized : Boolean ,replication:Ini)

10、提交的方式

○ spark-submit(官方推荐)

○ sbt run

○ java -jar

提交时可以指定各种参数

./bin/spark-submit
--class <main-class>
--master <master-url>
--deploy-mode <deploy-mode>
--conf <key>=<value>
... # other options
<application-jar>
[application-arguments]

例如:



关于更详细的submit-spark参考官方文档:http://spark.apache.org/docs/latest/submitting-applications.html
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  spark