您的位置：首页 > 其它

Spark 概念学习系列之Spark生态系统BDAS（五）

2016-07-26 11:57 211 查看

　　目前，Spark已经发展成为包含众多子项目的大数据计算平台。伯克利将Spark的整个生态系统称为伯克利数据分析栈（BDAS）。其核心框架是Spark，同时BDAS涵盖支持结构化数据SQL查询与分析的查询引擎Spark SQL和Shark，提供机器学习功能的系统MLbase及底层的分布式机器学习库MLlib、并行图计算框架GraphX、流计算框架Spark Streaming、采样近似计算查询引擎BlinkDB、内存分布式文件系统Tachyon、资源管理框架Mesos等子项目。这些子项目在Spark上层提供了更高层、更丰富的计算范式。
　　　　　　　　

　　　　　　　　　　　　　[b]　伯克利数据分析栈（BDAS）项目结构图[/b]

[b]下面对BDAS的各个子项目进行更详细的介绍[/b]
[b]（1）Spark[/b]
Spark是整个BDAS的核心组件，是一个大数据分布式编程框架，不仅实现了MapReduce的算子map函数和reduce函数及计算模型，还提供更为丰富的算子，如filter、 join、groupByKey等。 Spark将分布式数据抽象为弹性分布式数据集（RDD），实现了应用任务调度、 RPC、序列化和压缩，并为运行在其上的上层组件提供API。其底层采用Scala这种函数式语言书写而成，并且所提供的API深度借鉴Scala函数式的编程思想，提供与Scala类似的编程接口。
下图是Spark的处理流程（主要对象为RDD）。
　　　　　　　　　　　　

　　　　　　　　　　　　　　Spark的任务处理流程图

Spark将数据在分布式环境下分区，然后将作业转化为有向无环图（DAG），并分阶段进行DAG的调度和任务的分布式并行处理。

[b]（2）Shark[/b]
Shark是构建在Spark和Hive基础之上的数据仓库。目前，Shark已经完成学术使命，终止开发，但其架构和原理仍具有借鉴意义。它提供了能够查询Hive中所存储数据的一套SQL接口，兼容现有的Hive QL语法。这样，熟悉Hive QL或者SQL的用户可以基于Shark进行快速的Ad-Hoc、 Reporting等类型的SQL查询。 Shark底层复用Hive的解析器、优化器以及元数据存储和序列化接口。 Shark会将Hive QL编译转化为一组Spark任务，进行分布式运算。

[b]（3）Spark SQL[/b]
Spark SQL提供在大数据上的SQL查询功能，类似于Shark在整个生态系统的角色，它们可以统称为SQL on Spark。之前，Shark的查询编译和优化器依赖于Hive，使得Shark不得不维护一套Hive分支，而Spark SQL使用Catalyst做查询解析和优化器，并在底层使用Spark作为执行引擎实现SQL的Operator。用户可以在Spark上直接书写SQL，相当于为Spark扩充了一套SQL算子，这无疑更加丰富了Spark的算子和功能，同时Spark SQL不断兼容不同的持久化存储（如HDFS、 Hive等），为其发展奠定广阔的空间。

[b]（4）Spark Streaming[/b]
Spark Streaming通过将流数据按指定时间片累积为RDD，然后将每个RDD进行批处理，进而实现大规模的流数据处理。 其吞吐量能够超越现有主流流处理框架Storm，并提供丰富的API用于流数据计算。

[b]（5）GraphX[/b]
GraphX基于BSP模型，在Spark之上封装类似Pregel的接口，进行大规模同步全局的图计算，尤其是当用户进行多轮迭代时，基于Spark内存计算的优势尤为明显。

[b]（6）Tachyon[/b]
Tachyon是一个分布式内存文件系统，可以理解为内存中的HDFS。为了提供更高的性能，将数据存储剥离Java Heap。用户可以基于Tachyon实现RDD或者文件的跨应用共享，并提供高容错机制，保证数据的可靠性。

[b]（7）Mesos[/b]
Mesos是一个资源管理框架（注：Spark自带的资源管理框架是Standalone。），提供类似于YARN的功能。用户可以在其中插件式地运行Spark、 MapReduce、 Tez等计算框架的任务。 Mesos会对资源和任务进行隔离，并实现高效的资源任务调度。

　　请移步，

Spark standalone模式的安装（spark-1.6.1-bin-hadoop2.6.tgz）（master、slave1和slave2）

[b]（8）BlinkDB[/b]
BlinkDB是一个用于在海量数据上进行交互式SQL的近似查询引擎。它允许用户通过在查询准确性和查询响应时间之间做出权衡，完成近似查询。其数据的精度被控制在允许的误差范围内。为了达到这个目标，BlinkDB的核心思想是：通过一个自适应优化框架，随着时间的推移，从原始数据建立并维护一组多维样本；通过一个动态样本选择策略，选择一个适当大小的示例，然后基于查询的准确性和响应时间满足用户查询需求。

　　　　　　　　　　

Spark 组成---大一统软件栈

Spark Core

　　● Spark Core 实现了Spark 的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。

　　● RDD（resilient distributed dataset，弹性分布式数据集）的API 定义。RDD是一个抽象的数据集，提供对数据并行和容错的处理。初次使用RDD时，其接口有点类似Scala的Array，提供map，filter，reduce等操作。但是，不支持随机访问。刚开始不太习惯，但是逐渐熟悉函数编程和RDD 的原理后，发现随机访问数据的场景并不常见。

Spark SQL

　　● Spark SQL 是Spark 用来操作结构化数据的程序包。

　　● Spark SQL 直接兼容Hive SQL。

　　● 多数据源（Hive表、Parquet、JSON等）；Spark SQL 可以操作Hive表，可以读取Parquet文件(列式存储结构)，可以读取JSON文件，还可以处理hdfs上面的文件。

　　● SQL与RDD编程结合使用。

　　● 从Shark演变到Spark SQL。

Spark Streaming

　　● Spark 提供的对实时数据进行流式计算的组件。

　　● 微批处理(Storm、Flink)-------从批处理到流处理

Spark MLlib

　　● Spark 提供的包含常见机器学习（ML）功能的库。

　　● 分类、回归、聚类、协同过滤等

　　● 模型评估、数据导入等额外的支持功能

　　● Mahout(Runs on distributed Spark, H2O, and Flink)

GraphX

　　● GraphX是Spark 提供的图计算和图挖掘的库。

　　● 与Spark Streaming 和Spark SQL 类似，GraphX 也扩展了Spark 的RDD API，能用来创建一个顶点和边都包含任意属性的有向图

　　● GraphX还支持针对图的各种计算和常见的图算法。

欢迎大家，加入我的微信公众号：大数据躺过的坑免费给分享

同时，大家可以关注我的个人博客：

http://www.cnblogs.com/zlslch/ 和 http://www.cnblogs.com/lchzls/

　　人生苦短，我愿分享。本公众号将秉持活到老学到老学习无休止的交流分享开源精神，汇聚于互联网和个人学习工作的精华干货知识，一切来于互联网，反馈回互联网。
　　目前研究领域：大数据、机器学习、深度学习、人工智能、数据挖掘、数据分析。语言涉及：Java、Scala、Python、Shell、Linux等。同时还涉及平常所使用的手机、电脑和互联网上的使用技巧、问题和实用软件。只要你一直关注和呆在群里，每天必须有收获

以及对应本平台的QQ群：161156071（大数据躺过的坑）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航