您的位置:首页 > 运维架构

HADOOP的数据流

2015-12-08 15:53 288 查看
  HDFS在InputFormat(将data转换为<key,value>)等支持下,将数据块传入MAPPER中,MAPPER输出<key, value>到内存,如果发生spill则存入本地文件, 形成较大文件region(可能有combine发生)。之后的去向分为两种,一种是本机有reduce,则加入到reduce的内存中;另外一种是远程复制到别的机器上的reduce中。经过merge和sort, 由reduce处理,并将数据写会HDFS。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: