Hadoop-2.2.0学习之一Hadoop-2.2.0变化简介
2014-01-06 13:00
204 查看
Hadoop-2.2.0在Hadoop-1.x的基础上进行了重大改进,主要体现在HDFS和MapReduce上。下面大体介绍HDFS和MapReduce改进的地方。
首先是HDFS联合。众所周知,在Hadoop-1.x版本中,集群中只有一个NameNode节点,一旦该节点失效就不能自动切换到备用节点,这也是Hadoop-1.x被人诟病的地方之一。为了水平的扩展NameNode服务,在2.x版本中存在多个独立的NameNode或者命名空间(Namespace)。这些独立的NameNode不要求彼此协作,但却是联盟的关系,这也是为什么被称为HDFS联合或者联盟的原因。所有的DataNode节点被NameNode节点们作为公用的存储块的地方,每个DataNode在集群中的所有NameNode中注册,并周期性地发送心跳和块信息报告,同时处理来自所有NameNode的命令。
下一代MapReduce也称为YARN或者MRv2。在hadoop-0.23引入的新的体系结构将JobTracker的两个主要功能资源管理和job生命周期管理分为了单独的组件。新的ResourceManager管理应用程序所使用的计算机资源的全局分配,每个应用一个的ApplicationMaster管理应用程序的调度和协作。一个应用程序或者是从经典MapReduce作业角度来看的一个单独作业,或者是这种作业的一个有向无环图(DAG)。ResourceManager和每台主机一个的NodeManager守护进程组成了计算结构,其中NodeManager管理这台主机上的用户进程。事实上,ApplicationMaster是框架特定的类库,任务是从ResourceManager协调资源以及同NodeManager一起工作进行任务的执行和监控。
上面简单介绍了Hadoop-2.x版本在HDFS和MapReduce上做的重大改进,细节方面的改进以及实现的还需要进一步阅读官方文档和源代码。
首先是HDFS联合。众所周知,在Hadoop-1.x版本中,集群中只有一个NameNode节点,一旦该节点失效就不能自动切换到备用节点,这也是Hadoop-1.x被人诟病的地方之一。为了水平的扩展NameNode服务,在2.x版本中存在多个独立的NameNode或者命名空间(Namespace)。这些独立的NameNode不要求彼此协作,但却是联盟的关系,这也是为什么被称为HDFS联合或者联盟的原因。所有的DataNode节点被NameNode节点们作为公用的存储块的地方,每个DataNode在集群中的所有NameNode中注册,并周期性地发送心跳和块信息报告,同时处理来自所有NameNode的命令。
下一代MapReduce也称为YARN或者MRv2。在hadoop-0.23引入的新的体系结构将JobTracker的两个主要功能资源管理和job生命周期管理分为了单独的组件。新的ResourceManager管理应用程序所使用的计算机资源的全局分配,每个应用一个的ApplicationMaster管理应用程序的调度和协作。一个应用程序或者是从经典MapReduce作业角度来看的一个单独作业,或者是这种作业的一个有向无环图(DAG)。ResourceManager和每台主机一个的NodeManager守护进程组成了计算结构,其中NodeManager管理这台主机上的用户进程。事实上,ApplicationMaster是框架特定的类库,任务是从ResourceManager协调资源以及同NodeManager一起工作进行任务的执行和监控。
上面简单介绍了Hadoop-2.x版本在HDFS和MapReduce上做的重大改进,细节方面的改进以及实现的还需要进一步阅读官方文档和源代码。
相关文章推荐
- Hadoop-2.2.0学习之一Hadoop-2.2.0变化简介
- Hadoop-2.2.0学习之一Hadoop-2.2.0变化简介
- Hadoop-2.2.0学习之三YARN简介
- Hadoop-2.2.0学习之三YARN简介
- 【Hadoop学习】Apache Hadoop项目简介
- [置顶] Hadoop HDFS简介学习
- hadoop学习(二)----HDFS简介及原理
- 大数据学习笔记1--hadoop简介和入门
- hadoop2的重大变化简介
- Hadoop 学习总结之一:HDFS简介
- Hadoop学习笔记: MapReduce Java编程简介
- 导入文章“Apache Spark学习:将Spark部署到Hadoop 2.2.0上”中给出的 assembly/target/scala-2.9.3/目录下的spark-assembly-0.8.
- 大数据学习笔记——hadoop1.2.1 MapReduce简介
- Hadoop学习笔记(三):Hive简介
- Hadoop2.2.0稳定版安装__伪分布式模式__Hadoop2.0入门学习一
- Hadoop 学习总结之一:HDFS简介(转载)
- Hadoop学习之Hive简介
- Hadoop 学习笔记 (十) hadoop2.2.0 生产环境部署 HDFS HA Federation 含Yarn部署
- [置顶] hadoop学习路线之:ant简介及其使用
- 大数据学习篇:hadoop深入浅出系列之HDFS(一)——HDFS简介和优缺点