您的位置：首页 > 其它

Spark学习之路01

2015-11-15 01:49 218 查看

最近学习上spark，正在向大数据行列进军。现在开启spark初体验。

一、Spark是什么

首先从官方上的定义，Spark是一个快速的、大数据处理的通用引擎。与hadoop相比快100倍。因为spark是基于内存的，而hadoop把每次都写到硬盘上。由于大量的io处理导致速度变慢。

二、spark架构

Spark的架构分为两部分，一个是以sparkContext为核心的DriverProgram，另一个就是以Task为核心的Executor，用户就是通过SparkContext与集群进行交互，任务发给Exector进程让线程池进行计算，线程可以复用。

三、spark Core

主要是对Executor进行编程，Executor主要是对RDD进行编程，RDD通过算子进行转换，最后通过Actions生成原生数据。

RDD对象勾画DAG图，经过DAGScheduler分解成stages，然后提交给Executor运行，如果中间出现错误，可以重新构建RDD，这样就具有容错性。

现在是通过王家林老师的视频正在学习，有兴趣的大家可以加进来一起交流学习。

王家林的第一个中国梦：免费为全社会培养100万名优秀的大数据从业人员！

您可以通过王家林老师的微信号18610086859发红包捐助大数据、互联网+、O2O、工业4.0、微营销、移动互联网等系列免费实战课程，目前已经发布的王家林免费视频全集如下：

1，《大数据不眠夜：Spark内核天机解密（共100讲）》：http://pan.baidu.com/s/1eQsHZAq

2，《Hadoop深入浅出实战经典》http://pan.baidu.com/s/1mgpfRPu

3，《Spark纯实战公益大讲坛》http://pan.baidu.com/s/1jGpNGwu

4，《Scala深入浅出实战经典》http://pan.baidu.com/s/1sjDWG25

5，《Docker公益大讲坛》http://pan.baidu.com/s/1kTpL8UF

6，《Spark亚太研究院Spark公益大讲堂》http://pan.baidu.com/s/1i30Ewsd

7，DT大数据梦工厂Spark、Scala、Hadoop的所有视频、PPT和代码在百度云网盘的链接：
http://pan.baidu.com/share/home?uk=4013289088#category/type=0&qq-pf-to=pcqq.group

王家林免费在51CTO发布的1000集合大数据spark、hadoop、scala、docker视频：

1，《Scala深入浅出实战初级入门经典视频课程》http://edu.51cto.com/lesson/id-66538.html

2，《Scala深入浅出实战中级进阶经典视频课程》http://edu.51cto.com/lesson/id-67139.html

3，《Akka深入浅出实战经典视频课程》http://edu.51cto.com/lesson/id-77672.html

4，《Spark亚太研究院决胜大数据时代公益大讲堂》http://edu.51cto.com/lesson/id-30815.html

5，《云计算Docker虚拟化公益大讲坛》http://edu.51cto.com/lesson/id-61776.html

6，《Spark 大讲堂（纯实战手动操作）》http://edu.51cto.com/lesson/id-78653.html

7，《Hadoop深入浅出实战经典视频课程-集群、HDFS、Yarn、MapReduce》http://edu.51cto.com/lesson/id-77141.html

8，《从技术角度思考Hadoop到底是什么》http://edu.51cto.com/course/course_id-1151.html

“DT大数据梦工厂”团队第一个中国梦：免费为社会培养100万名优秀的大数据从业人员。每天早上4点起持续分享大数据、互联网+、O2O、工业4.0、微营销、移动互联网等领域的

精华内容，帮助您和公司在DT时代打造智慧大脑，将生产力提高百倍以上！

DT大数据梦工厂微信公众号：DT_Spark，二维码如下，期待大家加入！

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： spark

相关文章推荐

新的分享

章节导航