HBase: Coprocessor Endpoint :startkey和endkey的真正作用
2016-02-17 10:02
495 查看
转载地址:/article/2439266.html
官方把Coprocessor的Endpoint比喻成关系型数据库的StoreProcedure(存储过程),这个比喻很恰当。但我个人觉得Endpoint有时更像是一个只有单个Reduce的MapReduce,Reduce是Client,Maps就是Regions上的Endpoints。
接触过Coprocessor方法的童鞋都应该知道Endpoint的Client调用方法有两个,如下:
[java] view
plain copy
org.apache.hadoop.hbase.client.HTable.coprocessorProxy(
Class<? extends Map<byte[], String>> protocol,
byte[] row
)
org.apache.hadoop.hbase.client.HTable.coprocessorExec(
Class<ScanCoprocessorProtocol> protocol,
byte[] startKey,
byte[] endKey,
Call<ScanCoprocessorProtocol,
String> callable
) throws IOException, Throwable
coprocessorProxy是串行调用方法,coprocessorExec是并行调用方法。
如果需要跨多个Region调用,coprocessorExec性能要高于coprocessorProxy。
那么如何才能让Client锁定Region呢?
coprocessorProxy由参数row控制,coprocessorExec由startkey和endkey控制。这里要强调一下,很多新手都会搞错一个概念,他们会认为startkey和endkey是就是Scan方法中的startRow和stopRow~~~,其实不然
[java] view
plain copy
org.apache.hadoop.hbase.client.Scan.Scan(byte[]startRow, byte[]stopRow)
Scan中的startRow和stopRow是控制Row上下标,也就是说Scan操作的对象是数据。而coprocessorExec的startkey和endkey的操作对象是Region,这个概念千万不能搞错~~
举个例子有一张表TB: startRow=1000000,endRow=2000000,一共100W条数据。现在把这100W数据平均分到10个Region上
Region1: 1000000--1100000
Region2: 1100001--1200000
Region3: 1200001--1300000
..............
Region10:1900001--2000000
现在我们根据Row的范围做一次Count统计
如果调用Scan做一次Client统计
[java] view
plain copy
String RowKey = "1050001";
String EndKey = "1100000";
HTable myTB = new HTable(conf, "TB");
Scan myScan = new Scan(RowKey.getBytes(),EndKey.getBytes());
ResultScanner rs = myTB.getScanner(myScan);
int Count = 0;
while(rs.hasnext())
Count++;
最后的结果Count = 5W。
但是如果把coprocessorExec的startkey和endkey当成Scan中的startRow和stopRow来调用Endpoint,悲剧发生了~~
[java] view
plain copy
String RowKey = "1050001";
String EndKey = "1100000";
//伪代码,真正的调用方式不是这样的
int Count = coprocessorExec(
Myprotocol.class,
RowKey.getBytes(),
EndKey.getBytes(),
new Batch.Call<Myprotocol, int>() {
public String call(Myprotocol counter)
throws IOException {
return MyScan();
}
});
//Endpoint方法
int MyScan(){
Scan myScan = new Scan();
RegionCoprocessorEnvironment environment = (RegionCoprocessorEnvironment) getEnvironment();
InternalScanner scanner = environment.getRegion().getScanner(myScan);
int Count = 0;
while(scanner.hasnext())
Count ++;
return Count;
}
最后结果:Count =10W,尽然扫描了整个Region1
~~~这是因为coprocessorExec的startkey和endkey定位对象是Region,只要startkey和endkey的区间内的任何一个ROW覆盖到了某个Region,那么该Region的所有数据都会被扫描一次,最后只会得到一个错误的结果。
官方的例子中,scan实例是在Endpoint函数中定义的,这很可能会误导很多新手。为了避免这种情况发生,我们只要在MyScan方法中加入一个Scan参数,Client定义好Scan的startRow和stopRow,并向MyScan传入该参数。
[java] view
plain copy
String RowKey = "1050001";
String EndKey = "1100000";
Scan myScan = new Scan(RowKey.getBytes(),EndKey.getBytes());
//伪代码,真正的调用方式不是这样的
int Count = coprocessorExec(
Myprotocol.class,
RowKey.getBytes(),
EndKey.getBytes(),
new Batch.Call<Myprotocol, int>() {
public String call(Myprotocol counter)
throws IOException {
return MyScan(myScan);
}
});
//Endpoint方法
int MyScan(myScan){
RegionCoprocessorEnvironment environment = (RegionCoprocessorEnvironment) getEnvironment();
InternalScanner scanner = environment.getRegion().getScanner(myScan);
int Count = 0;
while(scanner.hasnext())
Count ++;
return Count;
}
这样就可以得到正确的统计值。
当然除了Scan,其他例如Get、Put、HTable甚至自定义类型都是可以作为参数传入的,这由业务决定。
我个人认为Endpoint作用不光是用来统计数据,还可以代替Scan方法用来查询明细数据,只不过开发人员需要自己去封装 List<Result>,有时我们甚至可以用Endpoint,去建立异步的二级索引和整理后台数据等工作。
今后会提供一些Coprocessor的实例源码,下期放上一个复杂的Endpoint实例讲解。
注:以上代码都是Java伪代码,不能直接Copy使用。
本文是CSDN-撸大湿原创,如要转载请注明出处,谢谢。
官方把Coprocessor的Endpoint比喻成关系型数据库的StoreProcedure(存储过程),这个比喻很恰当。但我个人觉得Endpoint有时更像是一个只有单个Reduce的MapReduce,Reduce是Client,Maps就是Regions上的Endpoints。
接触过Coprocessor方法的童鞋都应该知道Endpoint的Client调用方法有两个,如下:
[java] view
plain copy
org.apache.hadoop.hbase.client.HTable.coprocessorProxy(
Class<? extends Map<byte[], String>> protocol,
byte[] row
)
org.apache.hadoop.hbase.client.HTable.coprocessorExec(
Class<ScanCoprocessorProtocol> protocol,
byte[] startKey,
byte[] endKey,
Call<ScanCoprocessorProtocol,
String> callable
) throws IOException, Throwable
coprocessorProxy是串行调用方法,coprocessorExec是并行调用方法。
如果需要跨多个Region调用,coprocessorExec性能要高于coprocessorProxy。
那么如何才能让Client锁定Region呢?
coprocessorProxy由参数row控制,coprocessorExec由startkey和endkey控制。这里要强调一下,很多新手都会搞错一个概念,他们会认为startkey和endkey是就是Scan方法中的startRow和stopRow~~~,其实不然
[java] view
plain copy
org.apache.hadoop.hbase.client.Scan.Scan(byte[]startRow, byte[]stopRow)
Scan中的startRow和stopRow是控制Row上下标,也就是说Scan操作的对象是数据。而coprocessorExec的startkey和endkey的操作对象是Region,这个概念千万不能搞错~~
举个例子有一张表TB: startRow=1000000,endRow=2000000,一共100W条数据。现在把这100W数据平均分到10个Region上
Region1: 1000000--1100000
Region2: 1100001--1200000
Region3: 1200001--1300000
..............
Region10:1900001--2000000
现在我们根据Row的范围做一次Count统计
如果调用Scan做一次Client统计
[java] view
plain copy
String RowKey = "1050001";
String EndKey = "1100000";
HTable myTB = new HTable(conf, "TB");
Scan myScan = new Scan(RowKey.getBytes(),EndKey.getBytes());
ResultScanner rs = myTB.getScanner(myScan);
int Count = 0;
while(rs.hasnext())
Count++;
最后的结果Count = 5W。
但是如果把coprocessorExec的startkey和endkey当成Scan中的startRow和stopRow来调用Endpoint,悲剧发生了~~
[java] view
plain copy
String RowKey = "1050001";
String EndKey = "1100000";
//伪代码,真正的调用方式不是这样的
int Count = coprocessorExec(
Myprotocol.class,
RowKey.getBytes(),
EndKey.getBytes(),
new Batch.Call<Myprotocol, int>() {
public String call(Myprotocol counter)
throws IOException {
return MyScan();
}
});
//Endpoint方法
int MyScan(){
Scan myScan = new Scan();
RegionCoprocessorEnvironment environment = (RegionCoprocessorEnvironment) getEnvironment();
InternalScanner scanner = environment.getRegion().getScanner(myScan);
int Count = 0;
while(scanner.hasnext())
Count ++;
return Count;
}
最后结果:Count =10W,尽然扫描了整个Region1
~~~这是因为coprocessorExec的startkey和endkey定位对象是Region,只要startkey和endkey的区间内的任何一个ROW覆盖到了某个Region,那么该Region的所有数据都会被扫描一次,最后只会得到一个错误的结果。
官方的例子中,scan实例是在Endpoint函数中定义的,这很可能会误导很多新手。为了避免这种情况发生,我们只要在MyScan方法中加入一个Scan参数,Client定义好Scan的startRow和stopRow,并向MyScan传入该参数。
[java] view
plain copy
String RowKey = "1050001";
String EndKey = "1100000";
Scan myScan = new Scan(RowKey.getBytes(),EndKey.getBytes());
//伪代码,真正的调用方式不是这样的
int Count = coprocessorExec(
Myprotocol.class,
RowKey.getBytes(),
EndKey.getBytes(),
new Batch.Call<Myprotocol, int>() {
public String call(Myprotocol counter)
throws IOException {
return MyScan(myScan);
}
});
//Endpoint方法
int MyScan(myScan){
RegionCoprocessorEnvironment environment = (RegionCoprocessorEnvironment) getEnvironment();
InternalScanner scanner = environment.getRegion().getScanner(myScan);
int Count = 0;
while(scanner.hasnext())
Count ++;
return Count;
}
这样就可以得到正确的统计值。
当然除了Scan,其他例如Get、Put、HTable甚至自定义类型都是可以作为参数传入的,这由业务决定。
我个人认为Endpoint作用不光是用来统计数据,还可以代替Scan方法用来查询明细数据,只不过开发人员需要自己去封装 List<Result>,有时我们甚至可以用Endpoint,去建立异步的二级索引和整理后台数据等工作。
今后会提供一些Coprocessor的实例源码,下期放上一个复杂的Endpoint实例讲解。
注:以上代码都是Java伪代码,不能直接Copy使用。
本文是CSDN-撸大湿原创,如要转载请注明出处,谢谢。
相关文章推荐
- 在linux上使用yum安装JDK
- Tcl -- loop
- Linux性能问题急速诊断方法
- linux下如何查找需要的文件后并删除
- 基于windows下使用CMake和VS2013编译OpenCV的环境搭建
- linux学习相对路径与绝对路径
- linux下如何查看SVN的用户密码
- 为网站加入Drupal星球制作RSS订阅源
- Linux环境安装FTP服务Serv-U
- 缓存在架构中的作用
- linux shell 编程之语法学习
- PopupWindow
- CentOS6.5固定IP方式上网(NAT)
- Linux centos 安装VNC 服务过程
- Linux内存管理机制简介
- docker+lvs配置
- docker+lvs+keepalived配置
- docker容器启动
- 网站根目录
- docker镜像操作