9 hbase源码系列(九)StoreFile存储格式
2016-03-30 14:53
267 查看
hbase源码系列(九)StoreFile存储格式
从这一章开始要讲Region Server这块的了,但是在讲Region Server这块之前得讲一下StoreFile,否则后面的不好讲下去,这块是基础,Region Sever上面的操作,大部分都是基于它来进行的。HFile概述
HFile是HBase中实际存数据的文件,为HBase提供高效快速的数据访问。它是基于Hadoop的TFile,模仿Google Bigtable 架构中的SSTable格式。文件格式如下:View Code
从上面我们可以看到来,HFile写入的时候,是分一个块一个块的写入的,每个Block块64KB左右,这样有利于数据的随机访问,不利于连续访问,连续访问需求大的,可以把Block块的大小设置得大一点。好,我们继续看checkBlockBoundary方法。
View Code
和图片上写的有些出入。
1、输出HFileBlocks
2、输出HFileBlockIndex的二级索引(我叫它二级索引,我也不知道对不对,HFileBlockIndex那块我有点儿忘了,等我再重新调试的时候再看看吧)
3、如果有的话,输出MetaBlock
下面的部分是打开文件的时候就加载的
4、输出HFileBlockIndex的根索引
5、如果有的话,输出MetaBlockIndex的根索引(它比较小,所以只有一层)
6、输出文件信息(FileInfo)
7、输出文件尾巴(Trailer)
Open的时候
这部分打算讲一下实例化Reader的时候,根据不同类型的文件是怎么实例化Reader的,在StoreFile里面搜索open方法。this.reader = fileInfo.open(this.fs, this.cacheConf, dataBlockEncoder.getEncodingInCache()); // 加载文件信息到map里面去,后面部分就不展开讲了 metadataMap = Collections.unmodifiableMap(this.reader.loadFileInfo());
我们进入F3进入fileInfo.open这个方法里面去。
View Code
它有4种情况:
1、HFileLink
2、既是HFileLink又是Reference文件
3、只是Reference文件
4、HFile
说HFileLink吧,我们看看它的构造函数
View Code
恩,这回终于知道它是怎么出来的了,原来是尝试打开了三次,直到找到正确的位置。
StoreFile的文件格式到这里就结束了,有点儿遗憾的是HFileBlockIndex没给大家讲清楚。
补充:经网友"东岸往事"的提醒,有一个地方写错了,在结束一个块之后,会把它所有的BloomFilter全部输出,HFileBlockIndex的话,如果满了默认的128*1024个就输出二级索引。
具体的的内容在后面说查询的时候会说,下面先交代一下:
通过看继承InlineBlockWriter的类,发现了以下信息
1、BlockIndexWriter 不是关闭的情况下,没有超过默认值128*1024是不会输出的,每128*1024个HFileBlock 1个二级索引。
HFileBlockIndex包括2层,如果是MetaBlock的HFileBlock是1层。
二级索引 curInlineChunk 在结束了一个块之后添加一个索引的key(上一个块的firstKey和这个块的firstKey的中间值)。
byte[] indexKey = comparator.calcIndexKey(lastKeyOfPreviousBlock, firstKeyInBlock); curInlineChunk.add(firstKey, blockOffset, blockDataSize);
一级索引 rootChunk 输出一次二级索引之后添加每个HFileBlock的第一个key,这样子其实二级索引里面是包括是一级索引的所有key的。
firstKey = curInlineChunk.getBlockKey(0); rootChunk.add(firstKey, offset, onDiskSize, totalNumEntries);
2、CompoundBloomFilterWriter也就是Bloom Filter,在数据不为空的时候,就会输出。
对于HFileV2的正确的图,应该是下面这个,但是上面的那个图看起来好看一点,就保留了。
来源: <http://www.cnblogs.com/cenyuhai/p/3722644.html>
相关文章推荐
- jQuery - 获得内容和属性
- MTK Camera驱动移植
- angular 日期与字符串互转
- 数据库调优的方法
- 如何快速反编译JAVA的jar包或war包
- linux sftp 安全文件传输命令
- Linux下查看文件和文件夹大小
- 2.2趣味数学之存款获利最大化问题
- UVA 624 CD(01背包/记录路径)
- 解析包失败
- vsftpd.conf详细配置。
- 辛星整理python语言的两个独特之处
- 多边形和圆的面积并
- 阅读-1《天才在左,疯子在右》
- 单向加密算法
- session多服务器共享的方案梳理
- Gradle之使用BuildConfig自定义常量
- ZeroMQ研究与应用分析
- golang 本地连接mssql sql server
- JS获取屏幕,浏览器窗口大小,网页高度宽度(实现代码)_javascript技巧_