大数据IMF传奇行动绝密课程第11课:彻底解密WordCount运行原理
2016-07-24 17:54
567 查看
彻底解密WordCount运行原理
1、从数据流动视角揭秘WordCount2、从RDD依赖关系的视角解密WordCount
3、DAG与Lineage的思考
Spark:
分布式、基于内存(部分基于磁盘)、迭代
分片大小不完全等于Hadoop的Block
开始计算时把Key丢弃了,所以写结果时需要生成Key,符合对称法则
第一个Stage有哪些RDD:HadoopRDD, MapPartitionsRDD, MapPartitionsRDD, MapPartitionsRDD, MapPartitionsRDD
第二个Stage有哪些RDD:ShuffledRDD, MapPartitionsRDD
相关文章推荐
- Spark RDD API详解(一) Map和Reduce
- 使用spark和spark mllib进行股票预测
- Spark随谈——开发指南(译)
- Spark,一种快速数据分析替代方案
- eclipse 开发 spark Streaming wordCount
- Understanding Spark Caching
- ClassNotFoundException:scala.PreDef$
- Windows 下Spark 快速搭建Spark源码阅读环境
- Spark中将对象序列化存储到hdfs
- 使用java代码提交Spark的hive sql任务,run as java application
- Spark机器学习(一) -- Machine Learning Library (MLlib)
- Spark机器学习(二) 局部向量 Local-- Data Types - MLlib
- Spark机器学习(三) Labeled point-- Data Types
- Spark初探
- Spark Streaming初探
- Spark本地开发环境搭建
- 搭建hadoop/spark集群环境
- Spark HA部署方案
- Spark HA原理架构图
- spark内存概述