Spark学习之路01
2015-11-15 01:49
218 查看
最近学习上spark,正在向大数据行列进军。现在开启spark初体验。
一、Spark是什么
首先从官方上的定义,Spark是一个快速的、大数据处理的通用引擎。与hadoop相比快100倍。因为spark是基于内存的,而hadoop把每次都写到硬盘上。由于大量的io处理导致速度变慢。
二、spark架构
Spark的架构分为两部分,一个是以sparkContext为核心的DriverProgram,另一个就是以Task为核心的Executor,用户就是通过SparkContext与集群进行交互,任务发给Exector进程让线程池进行计算,线程可以复用。
三、spark Core
主要是对Executor进行编程,Executor主要是对RDD进行编程,RDD通过算子进行转换,最后通过Actions生成原生数据。
RDD对象勾画DAG图,经过DAGScheduler分解成stages,然后提交给Executor运行,如果中间出现错误,可以重新构建RDD,这样就具有容错性。
现在是通过王家林老师的视频正在学习,有兴趣的大家可以加进来一起交流学习。
王家林的第一个中国梦:免费为全社会培养100万名优秀的大数据从业人员!
您可以通过王家林老师的微信号18610086859发红包捐助大数据、互联网+、O2O、工业4.0、微营销、移动互联网等系列免费实战课程,目前已经发布的王家林免费视频全集如下:
1,《大数据不眠夜:Spark内核天机解密(共100讲)》:http://pan.baidu.com/s/1eQsHZAq
2,《Hadoop深入浅出实战经典》http://pan.baidu.com/s/1mgpfRPu
3,《Spark纯实战公益大讲坛》http://pan.baidu.com/s/1jGpNGwu
4,《Scala深入浅出实战经典》http://pan.baidu.com/s/1sjDWG25
5,《Docker公益大讲坛》http://pan.baidu.com/s/1kTpL8UF
6,《Spark亚太研究院Spark公益大讲堂》http://pan.baidu.com/s/1i30Ewsd
7,DT大数据梦工厂Spark、Scala、Hadoop的所有视频、PPT和代码在百度云网盘的链接:
http://pan.baidu.com/share/home?uk=4013289088#category/type=0&qq-pf-to=pcqq.group
王家林免费在51CTO发布的1000集合大数据spark、hadoop、scala、docker视频:
1,《Scala深入浅出实战初级入门经典视频课程》http://edu.51cto.com/lesson/id-66538.html
2,《Scala深入浅出实战中级进阶经典视频课程》http://edu.51cto.com/lesson/id-67139.html
3,《Akka深入浅出实战经典视频课程》http://edu.51cto.com/lesson/id-77672.html
4,《Spark亚太研究院决胜大数据时代公益大讲堂》http://edu.51cto.com/lesson/id-30815.html
5,《云计算Docker虚拟化公益大讲坛 》http://edu.51cto.com/lesson/id-61776.html
6,《Spark 大讲堂(纯实战手动操作)》http://edu.51cto.com/lesson/id-78653.html
7,《Hadoop深入浅出实战经典视频课程-集群、HDFS、Yarn、MapReduce》http://edu.51cto.com/lesson/id-77141.html
8,《从技术角度思考Hadoop到底是什么》http://edu.51cto.com/course/course_id-1151.html
“DT大数据梦工厂”团队第一个中国梦:免费为社会培养100万名优秀的大数据从业人员。每天早上4点起持续分享大数据、互联网+、O2O、工业4.0、微营销、移动互联网等领域的
精华内容,帮助您和公司在DT时代打造智慧大脑,将生产力提高百倍以上!
DT大数据梦工厂微信公众号:DT_Spark,二维码如下,期待大家加入!
一、Spark是什么
首先从官方上的定义,Spark是一个快速的、大数据处理的通用引擎。与hadoop相比快100倍。因为spark是基于内存的,而hadoop把每次都写到硬盘上。由于大量的io处理导致速度变慢。
二、spark架构
Spark的架构分为两部分,一个是以sparkContext为核心的DriverProgram,另一个就是以Task为核心的Executor,用户就是通过SparkContext与集群进行交互,任务发给Exector进程让线程池进行计算,线程可以复用。
三、spark Core
主要是对Executor进行编程,Executor主要是对RDD进行编程,RDD通过算子进行转换,最后通过Actions生成原生数据。
RDD对象勾画DAG图,经过DAGScheduler分解成stages,然后提交给Executor运行,如果中间出现错误,可以重新构建RDD,这样就具有容错性。
现在是通过王家林老师的视频正在学习,有兴趣的大家可以加进来一起交流学习。
王家林的第一个中国梦:免费为全社会培养100万名优秀的大数据从业人员!
您可以通过王家林老师的微信号18610086859发红包捐助大数据、互联网+、O2O、工业4.0、微营销、移动互联网等系列免费实战课程,目前已经发布的王家林免费视频全集如下:
1,《大数据不眠夜:Spark内核天机解密(共100讲)》:http://pan.baidu.com/s/1eQsHZAq
2,《Hadoop深入浅出实战经典》http://pan.baidu.com/s/1mgpfRPu
3,《Spark纯实战公益大讲坛》http://pan.baidu.com/s/1jGpNGwu
4,《Scala深入浅出实战经典》http://pan.baidu.com/s/1sjDWG25
5,《Docker公益大讲坛》http://pan.baidu.com/s/1kTpL8UF
6,《Spark亚太研究院Spark公益大讲堂》http://pan.baidu.com/s/1i30Ewsd
7,DT大数据梦工厂Spark、Scala、Hadoop的所有视频、PPT和代码在百度云网盘的链接:
http://pan.baidu.com/share/home?uk=4013289088#category/type=0&qq-pf-to=pcqq.group
王家林免费在51CTO发布的1000集合大数据spark、hadoop、scala、docker视频:
1,《Scala深入浅出实战初级入门经典视频课程》http://edu.51cto.com/lesson/id-66538.html
2,《Scala深入浅出实战中级进阶经典视频课程》http://edu.51cto.com/lesson/id-67139.html
3,《Akka深入浅出实战经典视频课程》http://edu.51cto.com/lesson/id-77672.html
4,《Spark亚太研究院决胜大数据时代公益大讲堂》http://edu.51cto.com/lesson/id-30815.html
5,《云计算Docker虚拟化公益大讲坛 》http://edu.51cto.com/lesson/id-61776.html
6,《Spark 大讲堂(纯实战手动操作)》http://edu.51cto.com/lesson/id-78653.html
7,《Hadoop深入浅出实战经典视频课程-集群、HDFS、Yarn、MapReduce》http://edu.51cto.com/lesson/id-77141.html
8,《从技术角度思考Hadoop到底是什么》http://edu.51cto.com/course/course_id-1151.html
“DT大数据梦工厂”团队第一个中国梦:免费为社会培养100万名优秀的大数据从业人员。每天早上4点起持续分享大数据、互联网+、O2O、工业4.0、微营销、移动互联网等领域的
精华内容,帮助您和公司在DT时代打造智慧大脑,将生产力提高百倍以上!
DT大数据梦工厂微信公众号:DT_Spark,二维码如下,期待大家加入!
相关文章推荐
- Spark RDD API详解(一) Map和Reduce
- 使用spark和spark mllib进行股票预测
- Spark随谈——开发指南(译)
- Spark,一种快速数据分析替代方案
- eclipse 开发 spark Streaming wordCount
- Spark中将对象序列化存储到hdfs
- Spark初探
- Spark Streaming初探
- 搭建hadoop/spark集群环境
- 整合Kafka到Spark Streaming——代码示例和挑战
- Spark 性能相关参数配置详解-任务调度篇
- 基于spark1.3.1的spark-sql实战-01
- 基于spark1.3.1的spark-sql实战-02
- 在 Databricks 可获得 Spark 1.5 预览版
- spark standalone模式 zeppelin安装
- Apache Spark 1.5.0正式发布
- Tachyon 0.7.1伪分布式集群安装与测试
- spark取得lzo压缩文件报错 java.lang.ClassNotFoundException
- tachyon与hdfs,以及spark整合
- hive on spark 编译