您的位置:首页 > 大数据

分布式大数据存储:向上索引法

2017-09-15 20:27 239 查看
在Hadoop/HDFS里,namenode负责记录datanode的文件元信息,这样当小文件太多的情况下,namenode可能存在DoS漏洞。在实际使用中,namenode的SOP问题由增加冗余备份节点解决,小文件的问题则由引入容器封装的文件格式来解决。

在HBase这类基于Master/Slave架构的大数据存储系统中,当出现数据倾斜(分布不均衡)时,将根据key的range自动切分,切分后的元数据信息存储在master节点中。同样,这里元数据节点的数据存储也会存在SOA问题。最好是能够做到:

自动引入“二级元数据”的所谓概念,即从原始数据生成的一级管理型索引数据称为一级元数据,而对一级元数据的继续向上增加索引信息就称为2级元数据。如此可以无限扩容,再也没有SOP的问题。

此方法带来的一个副作用是数据访问路径变长了。

这里我只是将原始linux的ext文件系统的多级inode指针反过来使用。重要的观点是:这个向上增加元数据索引信息的过程是自动的,它也可以根据数据的实际分布情况自动塌陷,有如数据结构里的左式堆之类自动平衡的树的概念。

目前似乎并没有见到使用这种方法给元数据扩容的大数据系统。像DHT不过是flat index。DHT理论上仍然可能存在数据倾斜的问题,只不过vnode的使用大大降低了这种可能性。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
相关文章推荐