您的位置:首页 > 大数据

大数据IMF传奇行动绝密课程第11课:彻底解密WordCount运行原理

2016-07-24 17:54 567 查看

彻底解密WordCount运行原理

1、从数据流动视角揭秘WordCount

2、从RDD依赖关系的视角解密WordCount

3、DAG与Lineage的思考

Spark:

分布式、基于内存(部分基于磁盘)、迭代

分片大小不完全等于Hadoop的Block

开始计算时把Key丢弃了,所以写结果时需要生成Key,符合对称法则

第一个Stage有哪些RDD:HadoopRDD, MapPartitionsRDD, MapPartitionsRDD, MapPartitionsRDD, MapPartitionsRDD

第二个Stage有哪些RDD:ShuffledRDD, MapPartitionsRDD



内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  spark