Hadoop 之 Shuffle
2015-07-08 23:24
423 查看
1.每个map有一个环形内存缓冲区,用于存储任务的输出。默认大小100MB(io.sort.mb属性),一旦达到阀值0.8(io.sort.spill.percent),一个后台线程把内容写到(spill)磁盘的指定目录(mapred.local.dir)下的新建的一个溢出写文件。
2.写磁盘前,要partition,sort。如果有combiner,combine排序后数据。
3.等最后记录写完,合并全部溢出写文件为一个分区且排序的文件。
1.Reducer通过Http方式得到输出文件的分区。
2.TaskTracker为分区文件运行Reduce任务。复制阶段把Map输出复制到Reducer的内存或磁盘。一个Map任务完成,Reduce就开始复制输出。
3.排序阶段合并map输出。然后走Reduce阶段。
相关文章推荐
- linux sed命令
- Apache配置
- Apache配置
- Nginx与apache区别
- linux-4.1.1 user mode linux(UML)试用
- 如何监控GC及内存问题解决方案概述
- LINUX - 基础摘要 01
- 嵌入式:Linux jffs2,yaffs2,logfs,ubifs文件系统性能分析
- Linux 解压后的启动流程分析
- Linux 内核自解压流程分析
- Linux 安装配置 JDK 8
- 比较常用的linux命令
- 我心中的核心组件(可插拔的AOP)~大话开篇及目录
- Linux文件系统详解
- 【OpenCV学习】计算两幅图像的重叠区域
- Hadoop 2.4.1 搭建Ha遇到问题记录
- Hadoop 2.4.1 搭建Ha遇到问题记录 分类: hadoop 2015-07-08 22:35 133人阅读 评论(0) 收藏
- Linux内核驱动GPIO的使用
- 基于OpenCV,简单的使用Point Grey的SDK在MFC上打开单个或多个Point Grey相机
- 大型网站图片服务器架构的演进