您的位置：首页 > 运维架构

Hadoop计算框架shuffle过程详解

2016-10-09 10:47 387 查看

摘出的一段：【下面的参考博客，很不错】

假如client设置过Combiner，那么现在就是使用Combiner的时候了。将

有相同

有相同key的key/value对的value加起来，减少溢写到磁盘的数据量。（
reduce1，word1，[8]）。
– 当整个map task结束后再对磁盘中这个map task产生的所有临时文件做

合并（Merge），对于“word1”就是像这样的：{“word1”, [5, 8, 2, …]},假

如有Combiner,{word1 [15]}，最终产生一个文件。
– reduce 从tasktracker copy数据
– copy过来的数据会先放入内存缓冲区中，这里的缓冲区大小要比map端

的更为灵活，它基于JVM的heap size设置
– merge有三种形式：1)内存到内存
2)内存到磁盘 3)磁盘到磁盘。
merge
从不同tasktracker上拿到的数据，{word1 [15，17，2]}

– 参考博客http://langyu.iteye.com/blog/992916?page=3#comments

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航