您的位置:首页 > 运维架构

Hadoop简介

2016-03-22 16:52 232 查看
Hadoop是一个提供分布式存储和计算能力的平台。

Hadoop的运行环境如下图所示:



高级Hadoop架构如下图所示:



HDFS:hadoop的存储组件,其组成组件:NameNode和DataNode,如下图所示:



MapReduce:基于批处理的分布式计算框架;MapReduce模型简化了分布式系统中的并行计算、工作分配和处理不可靠硬件和软件等并行处理过程,让程序员可以更加专注于解决业务需求,而不用纠缠于复杂的分布式系统中。MapReduce将客户端提交的任务分解成一个个小型的Map和Reduce进程(客户端提交MapReduce作业,MapReduce将工作分解成map任务和reduce任务,并安排它们在远程slave节点上执行。)

程序员的主要任务是定义map和reduce函数,map函数用于输出键/值对,然后reduce函数对这些键/值对进行处理并输出最终结果。

Map函数的逻辑如下图所示:



Reduce函数的逻辑如下图所示:

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: