您的位置：首页 > 运维架构 > 网站架构

Hadoop笔记4--hdfs架构

2015-09-14 08:51 627 查看

1、Hadoop1.x的hdfs存在问题：

1）namespace与block storage耦合严重。

2）namenode存在单点故障，namespace存放在单个namenode，namenode存放着集群上所有的元数据。

3）性能受限，单个namenode最多只支持60k个task，hadoop2.x能支持到100k个task。

4）隔离性差，来自不同group的不同用户提交作业。单个namenode难以提供隔离性，即：某个用户提交的负载很大的job会减慢其他用户的job，单一的namenode难以像HBase按照应用类别将不同作业分派到不同namenode上。

2、hadoop2.x的Hdfs。

引入两个概念：存储块池（block pool）和集群ID（clusterID）。一个block pool是块的集合，属于一个单一的namespace，DataNode存储着集群中所有Block Pool中的块。

特点：1）一个HDFS集群的Namespace在单一的NN中实现，一个单一的storage-pool由所有的DN是组成。DNs不会进行分区，DN能够给所有的NN提供Storage，整个Storage包含多个独立的blk-pools，每个blk-pools由单一的NN管理。

2）多个独立的HDFS Namespace独自实现在各个分离的NN中。

3）一个blkk-pool是一个独立的blks集合，属于单一的namespace，一个blk-pool在管理上和其他的pools是独立的，不需要与其他pools进行协调。

4）DN提供共享的Storage层，存储属于所有blk-pools的blks。DN管理blk的归属。

5）每个DN和NN的blk管理层通信，如下（1）注册及定期发送Hearbeat（2）为每个blk-pool发送BRs（3）接受NN对blk的管理命名（copy，delete，etc）。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航