您的位置:首页 > 运维架构

Hadoop计算框架shuffle过程详解

2016-10-09 10:47 387 查看
摘出的一段:【下面的参考博客,很不错】

假如client设置过Combiner,那么现在就是使用Combiner的时候了。将

有相同

有相同key的key/value对的value加起来,减少溢写到磁盘的数据量。(
reduce1,word1,[8])。
– 当整个map task结束后再对磁盘中这个map task产生的所有临时文件做

合并(Merge),对于“word1”就是像这样的:{“word1”, [5, 8, 2, …]},假

如有Combiner,{word1 [15]},最终产生一个文件。
– reduce 从tasktracker copy数据
– copy过来的数据会先放入内存缓冲区中,这里的缓冲区大小要比map端

的更为灵活,它基于JVM的heap size设置
– merge有三种形式:1)内存到内存
2)内存到磁盘 3)磁盘到磁盘。
merge
从不同tasktracker上拿到的数据,{word1 [15,17,2]}

– 参考博客http://langyu.iteye.com/blog/992916?page=3#comments

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: