告诉你Hadoop是什么【图解】
2016-01-24 12:05
381 查看
Hadoop是什么?Hadoop是一种分析和处理大数据的软件平台,是Appach的一个用Java语言所实现的开源软件的加框,在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算。
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算.
大数据在Hadoop处理的流程可以参照下面简单的图来进行理解:数据是通过了Hadoop的集群处理后得到的结果。
HDFS:Hadoop Distributed File System,Hadoop的分布式文件系统.
大文件被分成默认64M一块的数据块分布存储在集群机器中.如下图中的文件 data1被分成3块,这3块以冗余镜像的方式分布在不同的机器中.
MapReduce:Hadoop为每一个input split创建一个task调用Map计算,在此task中依次处理此split中的一个个记录(record),map会将结果以key--value 的形式输出,hadoop负责按key值将map的输出整理后作为Reduce的输入,Reduce Task的输出为整个job的输出,保存在HDFS上.
Hadoop的集群主要由 NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker组成.如下图所示:
NameNode中记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点.NameNode同时保存了文件系统运行的状态信息. DataNode中存储的是被拆分的blocks.Secondary NameNode帮助NameNode收集文件系统运行的状态信息.JobTracker当有任务提交到Hadoop集群的时候负责Job的运行,负责调度多个TaskTracker.TaskTracker负责某一个map或者reduce任务.
原文链接:http://blog.csdn.net/kkdelta/article/details/7696025
6
顶一下
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算.
大数据在Hadoop处理的流程可以参照下面简单的图来进行理解:数据是通过了Hadoop的集群处理后得到的结果。
HDFS:Hadoop Distributed File System,Hadoop的分布式文件系统.
大文件被分成默认64M一块的数据块分布存储在集群机器中.如下图中的文件 data1被分成3块,这3块以冗余镜像的方式分布在不同的机器中.
MapReduce:Hadoop为每一个input split创建一个task调用Map计算,在此task中依次处理此split中的一个个记录(record),map会将结果以key--value 的形式输出,hadoop负责按key值将map的输出整理后作为Reduce的输入,Reduce Task的输出为整个job的输出,保存在HDFS上.
Hadoop的集群主要由 NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker组成.如下图所示:
NameNode中记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点.NameNode同时保存了文件系统运行的状态信息. DataNode中存储的是被拆分的blocks.Secondary NameNode帮助NameNode收集文件系统运行的状态信息.JobTracker当有任务提交到Hadoop集群的时候负责Job的运行,负责调度多个TaskTracker.TaskTracker负责某一个map或者reduce任务.
原文链接:http://blog.csdn.net/kkdelta/article/details/7696025
6
顶一下
相关文章推荐
- linux下udp编程
- linux下udp编程
- 通过打印学习Linux内核之sysfs(1)
- centos svn搭建 简单手册
- 通过打印学习Linux内核之sysfs(0)
- Photoshop CS6自学(五)图片编辑
- OpenStreetMap地图数据介绍(转)
- Cacti基于SNMP服务添加监控远程Linux主机
- tomcat 配置 quercus记录:php使用连接池访问数据库
- linux命令笔记之ls
- /var/log目录下的20个Linux日志文件功能详解
- linux命令介绍——Jps
- ProFTPD <=1.3.5 mod_copy 未授权文件复制漏洞
- android基本架构
- 拷贝构造函数(Copy Constructor)
- eclipse(4.5.0)+jdk1.8+Tomcat1.8+maven+spring+springmvc+myBatis的配置实践中遇到的问题总结
- shell中把大写字母转换成小写字母
- hadoop常用命令笔记
- OpenStack设计与实现(五)RESTful API和WSGI
- Eclipse部署使用User Library的web项目到tomcat