您的位置：首页 > 大数据

分布式大数据存储：向上索引法

2017-09-15 20:27 239 查看

在Hadoop／HDFS里，namenode负责记录datanode的文件元信息，这样当小文件太多的情况下，namenode可能存在DoS漏洞。在实际使用中，namenode的SOP问题由增加冗余备份节点解决，小文件的问题则由引入容器封装的文件格式来解决。

在HBase这类基于Master／Slave架构的大数据存储系统中，当出现数据倾斜（分布不均衡）时，将根据key的range自动切分，切分后的元数据信息存储在master节点中。同样，这里元数据节点的数据存储也会存在SOA问题。最好是能够做到：

自动引入“二级元数据”的所谓概念，即从原始数据生成的一级管理型索引数据称为一级元数据，而对一级元数据的继续向上增加索引信息就称为2级元数据。如此可以无限扩容，再也没有SOP的问题。

此方法带来的一个副作用是数据访问路径变长了。

这里我只是将原始linux的ext文件系统的多级inode指针反过来使用。重要的观点是：这个向上增加元数据索引信息的过程是自动的，它也可以根据数据的实际分布情况自动塌陷，有如数据结构里的左式堆之类自动平衡的树的概念。

目前似乎并没有见到使用这种方法给元数据扩容的大数据系统。像DHT不过是flat index。DHT理论上仍然可能存在数据倾斜的问题，只不过vnode的使用大大降低了这种可能性。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 大数据存储数据结构分布式文件系统数据存储

相关文章推荐

新的分享

章节导航