MapReduce的Shuffle原理
2017-06-06 22:24
183 查看
什么是Shuffle
Hadoop计算框架Shuffler, 在mapper和reducer中间的一个步骤 ,可以把mapper的输出按照某种key值重新切分和组合成n份,把key值符 合某种范围的输出送到特定的reducer那里去处理Shuffle的原理分析
运行步骤如下:
step1:map端调用context.write(),先将数据写到map的缓冲区中,当缓冲区的填充比达到一个阈值的时候,系统中会开启一个后台线程spill,负责将数据写入到磁盘,这个过程称为溢出,每次溢出的时候,溢出的数据会写入到mapreduce.cluster.local.dir目录下的一个文件中
step2:在spill溢出的时候,就会调用Partitioner和Sort,都是根据KV的key进行分组和排序的,并且如果定义了Combiner那么Combiner还会执行
step3:在一次map过程中,会产生多个溢出文件,当map最终完成的时候,在本地的磁盘上可能会存在多个有分区编号的溢出文件,这些文件最终会被合并成一个排好序的含有分区编号的文件。在这里需要注意的是,在最终生成的文件之前也会执行Combiner
step4:reduce会使用HTTP协议从Mapper节点获得属于自己的划分,每个Reduce默认会使用5个线程从mapper节点获取数据
详细解析:
step1中缓冲区填充比的阈值是由mapreduce.map.sort.spill.percent定义的,默认值0.8,缓冲区的大小mapreduce.task.io.sort.mb其默认大小是512MB,缓冲区的大小会影响到排序的效率,一般来说,缓冲区越大,排序的效率越大,但是内存是有限的,增大缓冲区的大小会影响到每个节点能运行的maptask的数量
step4中reduce怎么会知道自己的划分呢?每个map实例完成后,其会通知ApplicationMaster其运行过程中产生的划分,每个reduce会一直定期的查询AM,直到reduce获得最后一个托管其分区的节点,当map实例完成的个数超过mapreduce.job.reduce.slowstart.completedmaps规定的值之后,reduce阶段就会执行
相关文章推荐
- MapReduce Shuffle原理 与 Spark Shuffle原理
- mapreduce之shuffle原理
- MapReduce 运行原理---再聊MapReduce 的 Map ,Reduce 以及shuffle 过程
- mapreduce原理完全剖析与shuffle机制
- 浅显易懂的来讲解Mapreduce-shuffle原理
- 浅显易懂的来讲解Mapreduce-shuffle原理
- 详细探究Spark的shuffle实现和hadoop mapreduce shuffle原理
- MapReduce:详解Shuffle(copy,sort,merge)过程
- MapReduce原理与设计思想
- Shuffle过程是MapReduce的核
- MapReduce 工作机制详解(三)Shuffle 机制
- hadoop之shuffle------>MapReduce的心脏i
- hadoop初识之十三:shuffle过程及mapreduce 调优
- Hadoop中MapReduce中combine、partition、shuffle的作用是什么?在程序中怎么运用?
- MapReduce:详解Shuffle过程
- 深入理解MapReduce的架构及原理
- MapReduce:详解Shuffle过程
- hadoop提交作业报错:InvalidAuxServiceException: The auxService:mapreduce_shuffle does not exist
- Hadoop原理汇总(二)——MapReduce
- MapReduce的shuffle过程