玩转HBase: Coprocessor Endpoint (1):startkey和endkey的真正作用
2013-05-11 20:31
459 查看
前言:
早在2004年我注册了CSDN账号,当时我才大三(那时我的昵称叫"华裔大魔王-抗日要从娃娃抓起")
时光飞逝,一晃九年过去了
那时我主要混迹VB和SQL Server版,和大部分初学者一样,我也在论坛上发了许多菜鸟问题
邹老大、子陌红尘还有大乌龟等高手成为了我心中的偶像~~
随着时间推移,我从提问者转变成了答题方。我花了三年的时间终于拿到自己的第一颗星星~~
两年前,由于工作原因我离开了CSDN。这次回归我带回了一头庞大的而又可爱的动物:Hadoop~
所以接下来,我将把这几年的Hadoop修行成果分享给各位网友,希望对大家有帮助
这是我的第一篇博客,写的不好还请多多包涵
----------------------------------------------------------------------------------------------------------------------
Coprocessor(协处理器)是HBase 0.92版后加入的新组件,详情请见:HBase: Coprocessor Introduction。
本系列主要探讨Coprocessor的Endpoint方法。
本篇主要介绍Endpoint中startkey和endkey的真正作用。
官方把Coprocessor的Endpoint比喻成关系型数据库的StoreProcedure(存储过程),这个比喻很恰当。但我个人觉得Endpoint有时更像是一个只有单个Reduce的MapReduce,Reduce是Client,Maps就是Regions上的Endpoints。
接触过Coprocessor方法的童鞋都应该知道Endpoint的Client调用方法有两个,如下:
coprocessorProxy是串行调用方法,coprocessorExec是并行调用方法。
如果需要跨多个Region调用,coprocessorExec性能要高于coprocessorProxy。
那么如何才能让Client锁定Region呢?
coprocessorProxy由参数row控制,coprocessorExec由startkey和endkey控制。这里要强调一下,很多新手都会搞错一个概念,他们会认为startkey和endkey是就是Scan方法中的startRow和stopRow~~~,其实不然
Scan中的startRow和stopRow是控制Row上下标,也就是说Scan操作的对象是数据。而coprocessorExec的startkey和endkey的操作对象是Region,这个概念千万不能搞错~~
举个例子有一张表TB: startRow=1000000,endRow=2000000,一共100W条数据。现在把这100W数据平均分到10个Region上
Region1: 1000000--1100000
Region2: 1100001--1200000
Region3: 1200001--1300000
..............
Region10:1900001--2000000
现在我们根据Row的范围做一次Count统计
如果调用Scan做一次Client统计
最后的结果Count = 5W。
但是如果把coprocessorExec的startkey和endkey当成Scan中的startRow和stopRow来调用Endpoint,悲剧发生了~~
~~~这是因为coprocessorExec的startkey和endkey定位对象是Region,只要startkey和endkey的区间内的任何一个ROW覆盖到了某个Region,那么该Region的所有数据都会被扫描一次,最后只会得到一个错误的结果。
官方的例子中,scan实例是在Endpoint函数中定义的,这很可能会误导很多新手。为了避免这种情况发生,我们只要在MyScan方法中加入一个Scan参数,Client定义好Scan的startRow和stopRow,并向MyScan传入该参数。
这样就可以得到正确的统计值。
当然除了Scan,其他例如Get、Put、HTable甚至自定义类型都是可以作为参数传入的,这由业务决定。
我个人认为Endpoint作用不光是用来统计数据,还可以代替Scan方法用来查询明细数据,只不过开发人员需要自己去封装 List<Result>,有时我们甚至可以用Endpoint,去建立异步的二级索引和整理后台数据等工作。
今后会提供一些Coprocessor的实例源码,下期放上一个复杂的Endpoint实例讲解。
注:以上代码都是Java伪代码,不能直接Copy使用。
本文是CSDN-撸大湿原创,如要转载请注明出处,谢谢。
如有任何异议请留言,或去CSDN-Hadoop论坛找我,欢迎拍砖~
下期将重点讨论在不同的应用场景下,如何选择coprocessorProxy和coprocessorExec。
并结合自己写的源码的对这两个方法做详细的分析:玩转HBase:
Coprocessor Endpoint (2):coprocessorProxy和coprocessorExec的合理运用
早在2004年我注册了CSDN账号,当时我才大三(那时我的昵称叫"华裔大魔王-抗日要从娃娃抓起")
时光飞逝,一晃九年过去了
那时我主要混迹VB和SQL Server版,和大部分初学者一样,我也在论坛上发了许多菜鸟问题
邹老大、子陌红尘还有大乌龟等高手成为了我心中的偶像~~
随着时间推移,我从提问者转变成了答题方。我花了三年的时间终于拿到自己的第一颗星星~~
两年前,由于工作原因我离开了CSDN。这次回归我带回了一头庞大的而又可爱的动物:Hadoop~
所以接下来,我将把这几年的Hadoop修行成果分享给各位网友,希望对大家有帮助
这是我的第一篇博客,写的不好还请多多包涵
----------------------------------------------------------------------------------------------------------------------
Coprocessor(协处理器)是HBase 0.92版后加入的新组件,详情请见:HBase: Coprocessor Introduction。
本系列主要探讨Coprocessor的Endpoint方法。
本篇主要介绍Endpoint中startkey和endkey的真正作用。
官方把Coprocessor的Endpoint比喻成关系型数据库的StoreProcedure(存储过程),这个比喻很恰当。但我个人觉得Endpoint有时更像是一个只有单个Reduce的MapReduce,Reduce是Client,Maps就是Regions上的Endpoints。
接触过Coprocessor方法的童鞋都应该知道Endpoint的Client调用方法有两个,如下:
org.apache.hadoop.hbase.client.HTable.coprocessorProxy( Class<? extends Map<byte[], String>> protocol, byte[] row ) org.apache.hadoop.hbase.client.HTable.coprocessorExec( Class<ScanCoprocessorProtocol> protocol, byte[] startKey, byte[] endKey, Call<ScanCoprocessorProtocol, String> callable ) throws IOException, Throwable
coprocessorProxy是串行调用方法,coprocessorExec是并行调用方法。
如果需要跨多个Region调用,coprocessorExec性能要高于coprocessorProxy。
那么如何才能让Client锁定Region呢?
coprocessorProxy由参数row控制,coprocessorExec由startkey和endkey控制。这里要强调一下,很多新手都会搞错一个概念,他们会认为startkey和endkey是就是Scan方法中的startRow和stopRow~~~,其实不然
org.apache.hadoop.hbase.client.Scan.Scan(byte[]startRow, byte[]stopRow)
Scan中的startRow和stopRow是控制Row上下标,也就是说Scan操作的对象是数据。而coprocessorExec的startkey和endkey的操作对象是Region,这个概念千万不能搞错~~
举个例子有一张表TB: startRow=1000000,endRow=2000000,一共100W条数据。现在把这100W数据平均分到10个Region上
Region1: 1000000--1100000
Region2: 1100001--1200000
Region3: 1200001--1300000
..............
Region10:1900001--2000000
现在我们根据Row的范围做一次Count统计
如果调用Scan做一次Client统计
String RowKey = "1050001"; String EndKey = "1100000"; HTable myTB = new HTable(conf, "TB"); Scan myScan = new Scan(RowKey.getBytes(),EndKey.getBytes()); ResultScanner rs = myTB.getScanner(myScan); int Count = 0; while(rs.hasnext()) Count++;
最后的结果Count = 5W。
但是如果把coprocessorExec的startkey和endkey当成Scan中的startRow和stopRow来调用Endpoint,悲剧发生了~~
String RowKey = "1050001"; String EndKey = "1100000"; //伪代码,真正的调用方式不是这样的 int Count = coprocessorExec( Myprotocol.class, RowKey.getBytes(), EndKey.getBytes(), new Batch.Call<Myprotocol, int>() { public String call(Myprotocol counter) throws IOException { return MyScan(); } }); //Endpoint方法 int MyScan(){ Scan myScan = new Scan(); RegionCoprocessorEnvironment environment = (RegionCoprocessorEnvironment) getEnvironment(); InternalScanner scanner = environment.getRegion().getScanner(myScan); int Count = 0; while(scanner.hasnext()) Count ++; return Count; }最后结果:Count =10W,尽然扫描了整个Region1
~~~这是因为coprocessorExec的startkey和endkey定位对象是Region,只要startkey和endkey的区间内的任何一个ROW覆盖到了某个Region,那么该Region的所有数据都会被扫描一次,最后只会得到一个错误的结果。
官方的例子中,scan实例是在Endpoint函数中定义的,这很可能会误导很多新手。为了避免这种情况发生,我们只要在MyScan方法中加入一个Scan参数,Client定义好Scan的startRow和stopRow,并向MyScan传入该参数。
String RowKey = "1050001"; String EndKey = "1100000"; Scan myScan = new Scan(RowKey.getBytes(),EndKey.getBytes()); //伪代码,真正的调用方式不是这样的 int Count = coprocessorExec( Myprotocol.class, RowKey.getBytes(), EndKey.getBytes(), new Batch.Call<Myprotocol, int>() { public String call(Myprotocol counter) throws IOException { return MyScan(myScan); } }); //Endpoint方法 int MyScan(myScan){ RegionCoprocessorEnvironment environment = (RegionCoprocessorEnvironment) getEnvironment(); InternalScanner scanner = environment.getRegion().getScanner(myScan); int Count = 0; while(scanner.hasnext()) Count ++; return Count; }
这样就可以得到正确的统计值。
当然除了Scan,其他例如Get、Put、HTable甚至自定义类型都是可以作为参数传入的,这由业务决定。
我个人认为Endpoint作用不光是用来统计数据,还可以代替Scan方法用来查询明细数据,只不过开发人员需要自己去封装 List<Result>,有时我们甚至可以用Endpoint,去建立异步的二级索引和整理后台数据等工作。
今后会提供一些Coprocessor的实例源码,下期放上一个复杂的Endpoint实例讲解。
注:以上代码都是Java伪代码,不能直接Copy使用。
本文是CSDN-撸大湿原创,如要转载请注明出处,谢谢。
如有任何异议请留言,或去CSDN-Hadoop论坛找我,欢迎拍砖~
下期将重点讨论在不同的应用场景下,如何选择coprocessorProxy和coprocessorExec。
并结合自己写的源码的对这两个方法做详细的分析:玩转HBase:
Coprocessor Endpoint (2):coprocessorProxy和coprocessorExec的合理运用
相关文章推荐
- HBase: Coprocessor Endpoint :startkey和endkey的真正作用
- 玩转HBase: Coprocessor Endpoint (2):coprocessorProxy和coprocessorExec的合理运用
- hbase 自定义 endpoint coprocessor
- HBase的startkey和endkey疑惑
- Hbase Endpoint Coprocessor
- hbase 自定义 endpoint coprocessor
- 在Hbase Endpoint Coprocessor中使用coprocessorProxy操作例子与问题解析
- HBase Coprocessor 之endpoint
- hbase0.98 coprocessor Endpoint 之 HelloWorld
- org.apache.hadoop.hbase.DoNotRetryIOException: Class org.apache.phoenix.coprocessor.MetaDataEndpointImpl cannot be loaded Set hbase.table.sanity.checks to false at conf or table descriptor if you want
- trafodion Exception ERROR Class org.apache.hadoop.hbase.coprocessor.transactional.TrxRegionEndpoint
- HBase源码分析之org.apache.hadoop.hbase.client.coprocessor包
- HBase Coprocessor 剖析与编程实践
- Hbase0.98.4中部署用户自定义的Observer Coprocessor
- HBase Coprocessor 剖析与编程实践
- HBase Coprocessor to Index Columns into ElasticSearch
- HBase Coprocessor 剖析与编程实践
- HBase Coprocessor 之 endpiont(hbase 0.96.0)
- HBase Coprocessor 之 RegionObserver(hbase 0.96.0)
- hbase的CoprocessorProtocol及一个简单的通用扩展实现