HBase 源码阅读之 读过程及scanner
2016-03-01 20:39
363 查看
看过Hbase 读流程的代码的同学 对scanner这个词应该不会陌生
Hbase 在读流程时 具体是怎么围绕scanner展开的,最近仔细地看了代码后算是弄清了
HBase中的scanner实例关系如下图
![](http://dl.iteye.com/upload/attachment/582470/fd15afb3-f24d-3c69-95d0-7b81c9e03a7d.jpg)
首先,无论是GET还是scan的读数据,都是从RegionScanner的next接口中获取
第二,scanner可分为两种InternalScanner和KeyValueScanner,区别如下:
1.InternalScanner,可以理解为包含其他scanner的scanner,它的主要接口为next(),作用是从其包含的scanner中获取下一个KeyValue,它的角色可以理解为雇佣KeyValueScanner
2.KeyValueScanner,从内存或文件中获取KeyValue的scanner,它的主要接口有peek(),seek(KeyValue key),next()等,其中next和peek都能获取scanner中的下一个KeyValue,但是next会移动iterator,peek不会,而seek就是将iterator定位到指定的KeyValue,如果不存在该KeyValue则定位到其后面的那个KeyValue,在scanner初始化的时候都会调用下seek接口,它的角色可以理解为服务InternalScanner
所以,对于图中的scanner, RegionScanner、StoreScanner属于InternalScanner,
而MemstoreScanner、StoreFileScanner、StoreScanner属于KeyValueScanner
第三,KeyValue 和 KeyValueScanner是可以比较大小的,即他们在优先队列里是排序存放的
1.KeyValue的大小比较规则,优先级从大到小依次为RowKey cf+cq timestamp type,
具体点比如说,在比较2个KeyValue时,先比较RowKey的大小('a' < 'b'),相同的情况下比较cf+cq的大小('cf1:q1'<'cf2:q1'<'cf2:q2'),如果还是相同的话就比较时间戳(3042211081<3042211080,注意 我没写错,你没看错,时间戳的long值越大,表示数据越新,在从小到大的队列中越靠前),如果上述仍然还相同则比较TYPE('DeleteFamily'
< 'DeleteColumn' < 'Delete' < Put)
2.KeyValueScanner的大小比较规则:其大小有peek()获取到KeyValue大小决定,即
KeyValueScanner1.peek() < KeyValueScanner2.peek() 则KeyValueScanner1 < KeyValueScanner2
看明白以上3点后,则读的流程就比较好懂了,
1.RegionScanner中有一个scanner的优先队列,当然里面放的是StoreScanner
2.StoreScanner中也有一个scanner的优先队列,里面放着地是MemStoreScanner和StoreFileScanner,
3.RegionScanner通过调用next()获取数据时,其实际是从他的scanner队列中poll出一个StoreScanner,然后调用StoreScanner.next()来获取数据,最后再将该StoreScanner继续添加进优先队列中,从而保证队列中的scanner是一直正确有序的
4,3中的StoreScanner.next(),其实际是从他的scanner队列中poll出一个StoreFileScanner或者是MemStoreScanner,然后调用next(),再将该scanner添加进队列中
Hbase 在读流程时 具体是怎么围绕scanner展开的,最近仔细地看了代码后算是弄清了
HBase中的scanner实例关系如下图
![](http://dl.iteye.com/upload/attachment/582470/fd15afb3-f24d-3c69-95d0-7b81c9e03a7d.jpg)
首先,无论是GET还是scan的读数据,都是从RegionScanner的next接口中获取
第二,scanner可分为两种InternalScanner和KeyValueScanner,区别如下:
1.InternalScanner,可以理解为包含其他scanner的scanner,它的主要接口为next(),作用是从其包含的scanner中获取下一个KeyValue,它的角色可以理解为雇佣KeyValueScanner
2.KeyValueScanner,从内存或文件中获取KeyValue的scanner,它的主要接口有peek(),seek(KeyValue key),next()等,其中next和peek都能获取scanner中的下一个KeyValue,但是next会移动iterator,peek不会,而seek就是将iterator定位到指定的KeyValue,如果不存在该KeyValue则定位到其后面的那个KeyValue,在scanner初始化的时候都会调用下seek接口,它的角色可以理解为服务InternalScanner
所以,对于图中的scanner, RegionScanner、StoreScanner属于InternalScanner,
而MemstoreScanner、StoreFileScanner、StoreScanner属于KeyValueScanner
第三,KeyValue 和 KeyValueScanner是可以比较大小的,即他们在优先队列里是排序存放的
1.KeyValue的大小比较规则,优先级从大到小依次为RowKey cf+cq timestamp type,
具体点比如说,在比较2个KeyValue时,先比较RowKey的大小('a' < 'b'),相同的情况下比较cf+cq的大小('cf1:q1'<'cf2:q1'<'cf2:q2'),如果还是相同的话就比较时间戳(3042211081<3042211080,注意 我没写错,你没看错,时间戳的long值越大,表示数据越新,在从小到大的队列中越靠前),如果上述仍然还相同则比较TYPE('DeleteFamily'
< 'DeleteColumn' < 'Delete' < Put)
2.KeyValueScanner的大小比较规则:其大小有peek()获取到KeyValue大小决定,即
KeyValueScanner1.peek() < KeyValueScanner2.peek() 则KeyValueScanner1 < KeyValueScanner2
看明白以上3点后,则读的流程就比较好懂了,
1.RegionScanner中有一个scanner的优先队列,当然里面放的是StoreScanner
2.StoreScanner中也有一个scanner的优先队列,里面放着地是MemStoreScanner和StoreFileScanner,
3.RegionScanner通过调用next()获取数据时,其实际是从他的scanner队列中poll出一个StoreScanner,然后调用StoreScanner.next()来获取数据,最后再将该StoreScanner继续添加进优先队列中,从而保证队列中的scanner是一直正确有序的
4,3中的StoreScanner.next(),其实际是从他的scanner队列中poll出一个StoreFileScanner或者是MemStoreScanner,然后调用next(),再将该scanner添加进队列中
相关文章推荐
- volatile关键字与线程间通信
- lucene-查询query->WildcardQuery使用通配符搜索
- Android中的单例模式
- 判断手机操作系统版本是否允许运行程序
- Can not find the tag library descriptor for "/struts-tags"`
- ORACLE11g“空表”无法导出的深入分析
- k-近邻算法
- c# vs编程中x,y的坐标单位是什么
- Spring 用注解方式来进行事务管理
- Eclipse快捷键大全
- linux-qcow2格式安装虚拟机及脚本一键克隆qcow2虚拟机
- Linux磁盘学习小结
- lucene-查询query->FuzzyQuery相近词语的搜索
- MarkdownPad 2 for Windows 10 预览问题解决方案。
- 父页面操作iframe子页面的安全漏洞及跨域限制问题
- Spring事务管理
- 【CodeForces】A. Football
- poj 1463Strategic game【树形dp】
- 主线程向副线程传值和EventBus的初步使用
- FusionCompute主机逻辑磁盘占用率过高