分布式大数据存储:向上索引法
2017-09-15 20:27
239 查看
在Hadoop/HDFS里,namenode负责记录datanode的文件元信息,这样当小文件太多的情况下,namenode可能存在DoS漏洞。在实际使用中,namenode的SOP问题由增加冗余备份节点解决,小文件的问题则由引入容器封装的文件格式来解决。
在HBase这类基于Master/Slave架构的大数据存储系统中,当出现数据倾斜(分布不均衡)时,将根据key的range自动切分,切分后的元数据信息存储在master节点中。同样,这里元数据节点的数据存储也会存在SOA问题。最好是能够做到:
自动引入“二级元数据”的所谓概念,即从原始数据生成的一级管理型索引数据称为一级元数据,而对一级元数据的继续向上增加索引信息就称为2级元数据。如此可以无限扩容,再也没有SOP的问题。
此方法带来的一个副作用是数据访问路径变长了。
这里我只是将原始linux的ext文件系统的多级inode指针反过来使用。重要的观点是:这个向上增加元数据索引信息的过程是自动的,它也可以根据数据的实际分布情况自动塌陷,有如数据结构里的左式堆之类自动平衡的树的概念。
目前似乎并没有见到使用这种方法给元数据扩容的大数据系统。像DHT不过是flat index。DHT理论上仍然可能存在数据倾斜的问题,只不过vnode的使用大大降低了这种可能性。
在HBase这类基于Master/Slave架构的大数据存储系统中,当出现数据倾斜(分布不均衡)时,将根据key的range自动切分,切分后的元数据信息存储在master节点中。同样,这里元数据节点的数据存储也会存在SOA问题。最好是能够做到:
自动引入“二级元数据”的所谓概念,即从原始数据生成的一级管理型索引数据称为一级元数据,而对一级元数据的继续向上增加索引信息就称为2级元数据。如此可以无限扩容,再也没有SOP的问题。
此方法带来的一个副作用是数据访问路径变长了。
这里我只是将原始linux的ext文件系统的多级inode指针反过来使用。重要的观点是:这个向上增加元数据索引信息的过程是自动的,它也可以根据数据的实际分布情况自动塌陷,有如数据结构里的左式堆之类自动平衡的树的概念。
目前似乎并没有见到使用这种方法给元数据扩容的大数据系统。像DHT不过是flat index。DHT理论上仍然可能存在数据倾斜的问题,只不过vnode的使用大大降低了这种可能性。
相关文章推荐
- [转]讲给普通人听的分布式数据存储
- 分布式数据存储 - MySQL双主复制
- 分布式数据存储 - MySQL主从复制高可用方案
- 讲给普通人听的分布式数据存储(转载)
- 一共81个,开源大数据处理工具汇总:查询引擎、流式计算、迭代计算、离线计算、键值存储、表格存储、文件存储、资源管理、日志收集系统、消息系统、分布式服务、集群管理、基础设施、搜索引擎、数据挖掘=监控
- 分布式大规模数据存储 Cloudata
- 作为分布式的hbase的数据存储实现
- 采用分布式数据存储有许多策略
- 一共81个,开源大数据处理工具汇总:查询引擎、流式计算、迭代计算、离线计算、键值存储、表格存储、文件存储、资源管理、日志收集系统、消息系统、分布式服务、集群管理、基础设施、搜索引擎、数据挖掘=监控
- 时间序列数据库——索引用ES、聚合分析时加载数据用什么?docvalues的列存储貌似更优优势一些。那分布式计算呢?ES做
- 分布式NoSQL数据存储分享——表格存储使用教程
- LogDevice:Facebook开发的分布式日志数据存储系统
- 分布式监控开发 05 历史数据存储
- Bigtable探秘 Google分布式数据存储系统
- 大数据学习笔记之二十一 云存储的分布式文件存储代表GFS
- 基于MongoDB进行分布式数据存储的步骤
- 基于云上分布式NoSQL的海量气象数据存储和查询方案
- 【分布式】Zookeeper数据与存储
- 基于云上分布式NoSQL的海量气象数据存储和查询方案
- 大数据学习笔记之二十二 云存储的分布式对象存储和分布式块存储