您的位置：首页 > 运维架构

玩转HBase: Coprocessor Endpoint (1)：startkey和endkey的真正作用

2013-05-11 20:31 459 查看

前言：

早在2004年我注册了CSDN账号，当时我才大三（那时我的昵称叫"华裔大魔王-抗日要从娃娃抓起"）

时光飞逝，一晃九年过去了

那时我主要混迹VB和SQL Server版，和大部分初学者一样，我也在论坛上发了许多菜鸟问题

邹老大、子陌红尘还有大乌龟等高手成为了我心中的偶像~~

随着时间推移，我从提问者转变成了答题方。我花了三年的时间终于拿到自己的第一颗星星~~

两年前，由于工作原因我离开了CSDN。这次回归我带回了一头庞大的而又可爱的动物：Hadoop~

所以接下来，我将把这几年的Hadoop修行成果分享给各位网友，希望对大家有帮助

这是我的第一篇博客，写的不好还请多多包涵

----------------------------------------------------------------------------------------------------------------------

Coprocessor(协处理器)是HBase 0.92版后加入的新组件，详情请见：HBase: Coprocessor Introduction。

本系列主要探讨Coprocessor的Endpoint方法。

本篇主要介绍Endpoint中startkey和endkey的真正作用。

官方把Coprocessor的Endpoint比喻成关系型数据库的StoreProcedure(存储过程)，这个比喻很恰当。但我个人觉得Endpoint有时更像是一个只有单个Reduce的MapReduce，Reduce是Client，Maps就是Regions上的Endpoints。

接触过Coprocessor方法的童鞋都应该知道Endpoint的Client调用方法有两个，如下：

org.apache.hadoop.hbase.client.HTable.coprocessorProxy(
	Class<? extends Map<byte[], String>> protocol,
	byte[] row
)

org.apache.hadoop.hbase.client.HTable.coprocessorExec(
	Class<ScanCoprocessorProtocol> protocol,
	byte[] startKey,
	byte[] endKey,
	Call<ScanCoprocessorProtocol,
	String> callable
) throws IOException, Throwable

coprocessorProxy是串行调用方法，coprocessorExec是并行调用方法。

如果需要跨多个Region调用，coprocessorExec性能要高于coprocessorProxy。

那么如何才能让Client锁定Region呢？

coprocessorProxy由参数row控制，coprocessorExec由startkey和endkey控制。这里要强调一下，很多新手都会搞错一个概念，他们会认为startkey和endkey是就是Scan方法中的startRow和stopRow~~~，其实不然

org.apache.hadoop.hbase.client.Scan.Scan(byte[]startRow, byte[]stopRow)

Scan中的startRow和stopRow是控制Row上下标，也就是说Scan操作的对象是数据。而coprocessorExec的startkey和endkey的操作对象是Region，这个概念千万不能搞错~~

举个例子有一张表TB: startRow=1000000,endRow=2000000，一共100W条数据。现在把这100W数据平均分到10个Region上

Region1： 1000000--1100000

Region2： 1100001--1200000

Region3： 1200001--1300000

..............

Region10：1900001--2000000

现在我们根据Row的范围做一次Count统计

如果调用Scan做一次Client统计

String RowKey = "1050001";
String EndKey = "1100000";
HTable myTB = new HTable(conf, "TB");
Scan myScan = new Scan(RowKey.getBytes(),EndKey.getBytes());
ResultScanner rs = myTB.getScanner(myScan);
int Count = 0;
while(rs.hasnext())
	Count++;

最后的结果Count = 5W。

但是如果把coprocessorExec的startkey和endkey当成Scan中的startRow和stopRow来调用Endpoint，悲剧发生了~~

String RowKey = "1050001";
String EndKey  = "1100000";
//伪代码，真正的调用方式不是这样的
int Count = coprocessorExec(
 	Myprotocol.class,
	RowKey.getBytes()，
	EndKey.getBytes(),
 	new Batch.Call<Myprotocol, int>() {
public String call(Myprotocol counter)
	throws IOException {
		return MyScan();
	}
});

//Endpoint方法
int MyScan(){
	Scan myScan = new Scan();
	RegionCoprocessorEnvironment environment = (RegionCoprocessorEnvironment) getEnvironment();
	InternalScanner scanner = environment.getRegion().getScanner(myScan);
	int Count = 0;
	while(scanner.hasnext())
		Count ++;
	return Count;
}

最后结果：Count =10W，尽然扫描了整个Region1

~~~这是因为coprocessorExec的startkey和endkey定位对象是Region，只要startkey和endkey的区间内的任何一个ROW覆盖到了某个Region，那么该Region的所有数据都会被扫描一次，最后只会得到一个错误的结果。

官方的例子中，scan实例是在Endpoint函数中定义的，这很可能会误导很多新手。为了避免这种情况发生，我们只要在MyScan方法中加入一个Scan参数，Client定义好Scan的startRow和stopRow，并向MyScan传入该参数。

String RowKey = "1050001";
String EndKey  = "1100000";
Scan myScan = new Scan(RowKey.getBytes(),EndKey.getBytes());
//伪代码，真正的调用方式不是这样的
int Count = coprocessorExec(
		Myprotocol.class,
		RowKey.getBytes()，
		EndKey.getBytes(),
		new Batch.Call<Myprotocol, int>() {
			public String call(Myprotocol counter)
				throws IOException {
				return MyScan(myScan);
			}
});

//Endpoint方法
int MyScan(myScan){
	RegionCoprocessorEnvironment environment = (RegionCoprocessorEnvironment) getEnvironment();
	InternalScanner scanner = environment.getRegion().getScanner(myScan);
	int Count = 0;
		while(scanner.hasnext())
		Count ++;
	return Count;
}

这样就可以得到正确的统计值。

当然除了Scan，其他例如Get、Put、HTable甚至自定义类型都是可以作为参数传入的，这由业务决定。

我个人认为Endpoint作用不光是用来统计数据，还可以代替Scan方法用来查询明细数据，只不过开发人员需要自己去封装 List<Result>，有时我们甚至可以用Endpoint，去建立异步的二级索引和整理后台数据等工作。

今后会提供一些Coprocessor的实例源码，下期放上一个复杂的Endpoint实例讲解。

注：以上代码都是Java伪代码，不能直接Copy使用。

本文是CSDN-撸大湿原创，如要转载请注明出处，谢谢。

如有任何异议请留言，或去CSDN-Hadoop论坛找我，欢迎拍砖~

下期将重点讨论在不同的应用场景下，如何选择coprocessorProxy和coprocessorExec。

并结合自己写的源码的对这两个方法做详细的分析：玩转HBase:
Coprocessor Endpoint (2)：coprocessorProxy和coprocessorExec的合理运用

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航