您的位置:首页 > 运维架构 > 网站架构

Hadoop笔记4--hdfs架构

2015-09-14 08:51 627 查看
1、Hadoop1.x的hdfs存在问题:

1)namespace与block storage耦合严重。

2)namenode存在单点故障,namespace存放在单个namenode,namenode存放着集群上所有的元数据。

3)性能受限,单个namenode最多只支持60k个task,hadoop2.x能支持到100k个task。

4)隔离性差,来自不同group的不同用户提交作业。单个namenode难以提供隔离性,即:某个用户提交的负载很大的job会减慢其他用户的job,单一的namenode难以像HBase按照应用类别将不同作业分派到不同namenode上。



2、hadoop2.x的Hdfs。

引入两个概念:存储块池(block pool)和集群ID(clusterID)。一个block pool是块的集合,属于一个单一的namespace,DataNode存储着集群中所有Block Pool中的块。

特点:1)一个HDFS集群的Namespace在单一的NN中实现,一个单一的storage-pool由所有的DN是组成。DNs不会进行分区,DN能够给所有的NN提供Storage,整个Storage包含多个独立的blk-pools,每个blk-pools由单一的NN管理。

2)多个独立的HDFS Namespace独自实现在各个分离的NN中。

3)一个blkk-pool是一个独立的blks集合,属于单一的namespace,一个blk-pool在管理上和其他的pools是独立的,不需要与其他pools进行协调。

4)DN提供共享的Storage层,存储属于所有blk-pools的blks。DN管理blk的归属。

5)每个DN和NN的blk管理层通信,如下(1)注册及定期发送Hearbeat(2)为每个blk-pool发送BRs(3)接受NN对blk的管理命名(copy,delete,etc)。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: