您的位置：首页 > 大数据

大数据IMF传奇行动绝密课程第11课：彻底解密WordCount运行原理

2016-07-24 17:54 567 查看

彻底解密WordCount运行原理

1、从数据流动视角揭秘WordCount

2、从RDD依赖关系的视角解密WordCount

3、DAG与Lineage的思考

Spark：

分布式、基于内存（部分基于磁盘)、迭代

分片大小不完全等于Hadoop的Block

开始计算时把Key丢弃了，所以写结果时需要生成Key，符合对称法则

第一个Stage有哪些RDD：HadoopRDD, MapPartitionsRDD, MapPartitionsRDD, MapPartitionsRDD, MapPartitionsRDD

第二个Stage有哪些RDD：ShuffledRDD, MapPartitionsRDD

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： spark

相关文章推荐

Spark RDD API详解(一) Map和Reduce
使用spark和spark mllib进行股票预测
Spark随谈——开发指南（译）
Spark，一种快速数据分析替代方案
eclipse 开发 spark Streaming wordCount
Understanding Spark Caching
ClassNotFoundException:scala.PreDef$
Windows 下Spark 快速搭建Spark源码阅读环境
Spark中将对象序列化存储到hdfs
使用java代码提交Spark的hive sql任务，run as java application
Spark机器学习（一） -- Machine Learning Library (MLlib)
Spark机器学习（二）局部向量 Local-- Data Types - MLlib
Spark机器学习（三） Labeled point-- Data Types
Spark初探
Spark Streaming初探
Spark本地开发环境搭建
搭建hadoop/spark集群环境
Spark HA部署方案
Spark HA原理架构图
spark内存概述

新的分享

Spark 3.0.0正式版发布，开发近两年新增了哪些特性？ - 大数据
我该建数仓、大数据平台还是数据中台？看完脑子终于清醒了 - 架构
数据治理推不动？这篇万字实操范例可能帮到你 - 大数据
大数据中间件MongoDB
数据仓库(13)大数据数仓经典最值得阅读书籍推荐
数据仓库(11)什么是大数据治理，数据治理的范围是哪些
趣头条基于Flink+ClickHouse打造实时数据分析平台 - 大数据
选型必看：RabbitMQ 七战 Kafka，差异立现 - 大数据
图解大数据 | Spark GraphFrames-基于图的数据分析挖掘
图解大数据 | Spark机器学习(下)—建模与超参调优
图解大数据 | Spark机器学习(上)-工作流与特征工程
图解大数据 | 流式数据处理-Spark Streaming

章节导航