Hadoop简介
2016-03-22 16:52
232 查看
Hadoop是一个提供分布式存储和计算能力的平台。
Hadoop的运行环境如下图所示:
![](http://img.blog.csdn.net/20160322164935581?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
高级Hadoop架构如下图所示:
![](http://img.blog.csdn.net/20160322165012657?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
HDFS:hadoop的存储组件,其组成组件:NameNode和DataNode,如下图所示:
![](http://img.blog.csdn.net/20160322165044238?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
MapReduce:基于批处理的分布式计算框架;MapReduce模型简化了分布式系统中的并行计算、工作分配和处理不可靠硬件和软件等并行处理过程,让程序员可以更加专注于解决业务需求,而不用纠缠于复杂的分布式系统中。MapReduce将客户端提交的任务分解成一个个小型的Map和Reduce进程(客户端提交MapReduce作业,MapReduce将工作分解成map任务和reduce任务,并安排它们在远程slave节点上执行。)
程序员的主要任务是定义map和reduce函数,map函数用于输出键/值对,然后reduce函数对这些键/值对进行处理并输出最终结果。
Map函数的逻辑如下图所示:
![](http://img.blog.csdn.net/20160322165220035?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
Reduce函数的逻辑如下图所示:
Hadoop的运行环境如下图所示:
高级Hadoop架构如下图所示:
HDFS:hadoop的存储组件,其组成组件:NameNode和DataNode,如下图所示:
MapReduce:基于批处理的分布式计算框架;MapReduce模型简化了分布式系统中的并行计算、工作分配和处理不可靠硬件和软件等并行处理过程,让程序员可以更加专注于解决业务需求,而不用纠缠于复杂的分布式系统中。MapReduce将客户端提交的任务分解成一个个小型的Map和Reduce进程(客户端提交MapReduce作业,MapReduce将工作分解成map任务和reduce任务,并安排它们在远程slave节点上执行。)
程序员的主要任务是定义map和reduce函数,map函数用于输出键/值对,然后reduce函数对这些键/值对进行处理并输出最终结果。
Map函数的逻辑如下图所示:
Reduce函数的逻辑如下图所示:
相关文章推荐
- Linux下命令符操作(一)
- 《Linux内核设计与实现》学习总结 Chap5
- linux --> 系统信息命令
- linux内核模块时内核树的作用
- centos 6.5 搭建svn
- Linux中变量$#,$@,$0,$1,$2,$*,$$,$?的含义
- 使用systemd配置SVN服务器自动启动
- Shell-记录-2
- Linux将多网口虚拟为一个网卡
- 【3】Nginx服务器基本配置简述
- org.apache.jasper.JasperException
- Linux的启动流程
- Shell-记录-1
- linux中fork()函数详解(原创!!实例讲解)
- docker 数据映射方案
- docker 数据映射方案
- docker 数据映射方案
- CentOS进入单用户模式
- 用户的主要群组和次要群组
- 移植最新内核linux-3.14.6到mini2440开发板