您的位置：首页 > 其它

hbase分页的功能实现

2015-10-21 16:56 141 查看

hbase分页功能的几种实现方案。

分页功能是线上系统的常用功能，对hbase，有以下几个方案可以选择(抛砖引玉)。

假设要查第N页，1页大小为M

1 client分页，scan查到N*M条，过滤掉N*（M--1）条，返回M条。对于M,N较小时比较适合。

2 自定义Filter，该filter可以传递offset(server端需要过滤的记录条数)，在server端分页，注意，跨不同的region时需要重新计算该offset。

例子：第1个HRegion的请求传递该值为N*M-1，表示需要在server端过滤掉N*M--1条记录。当第1个HRegion返回时，需要知道该次请求在server端实际过滤了多少条记录(假设为Size条),

第2个HRegion的请求传递该值为（N*（M-1）)-Size。

3 缓存上次分页查询的最后一条，下次分页查询从这条（不包含)开始查。

4 查询条件固定的话，定时任务汇总表。

5 结合其他框架想办法。

少量数据的推荐使用的，使用了方案1。

————————————————————————————————————————————————

1、PG数据库（包括其他一些关系型数据库）据说在单表记录数超过100w时就会变得很慢。解决方法是分表，或者迁移到专注于处理海量数据的NoSQL。——我们选择了后者。

2、拿到HBase我做的第一件工作是性能测试，主要验证了两件事：
a）HBase对数据操作的响应速度与当前表中的数据量无关，但是与数据的split以及本地缓存等配置项有很大关系。比如rowKey的合理设计，使相关数据相邻存放；比如使用scan时setCatch(num)方法中num的取值。

b）HBase对数据操作的响应在毫秒级，满足我们前端显示的需要。

3、分页查询时，前端需要请求记录总数，用于计算总页数。然后再请求每页的内容，请求每页内容时两个主要参数(start,limit)。比如0，20；肯定是第一页数据，从第0条开始，请求20条数据。比如20，20；这就是第二页，从第20条开始请求20条数据，以此类推。

4、HBase获得记录总数很困难，浏览所有数据倒好说，我可以在数据库中存一下当前数据库中记录的总数。但如果是搜索功能怎么办？如果满足条件的记录有1亿条，我总不能先遍历一边记个数啊……听说在MapReduce层可以有办法完成总数的统计，以后有机会接触到我会研究一下写出来的。

5、既然HBase无法获得记录总数，那就采用那种不需要总页数的分页方式呗。比如微博、某些论坛那样，前端根本不去获取总记录数，只要知道后面还有没有数据就可以了，提供给用户“下一页”，或“下n页”的功能。我纠结与记录总数主要是因为之前UI控件的限制……

6、上述的分页展现形式类似于：用户浏览数据首页时，选页栏显示 1 2 3 4 5 6.....，当用户点到第5页时，选页栏显示 ... 3 4 5 6 7 8 ....。不提供用户随意输页号，也不提供最后一页的按钮。

7、HBase端处理时，肯定要用到scan，然后调用setFilter方法，使用pageFilter限制一下返回的记录条数。

8、我还设计了一种缓存机制，绑定每个登陆的用户，在用户浏览记录时，每个一定记录数（比如100条），记录一下这条记录的rowKey。这样在用户请求第100条到120条记录这一页时我的scan可以设置startRowKey为我刚才缓存的那个。这样可以避免把前面所有的数据scan出来后再逐条遍历去数数。

9、我使用了Spring最新提供的Spring Hadoop框架，这个框架为我管理了几乎所有的HBase Client资源，非常好用！我不用在scan完后手动调用close方法，我不用自己维护一个TablePool每次去选表，我不用自己创建Configuration实例，我不用自己去写将一条记录映射回实例的接口（实现当然还要自己写……，只要实现了RowMapper接口就可以了）。

这只是我目前在项目中自己摸索并使用的一种可行方案。

接下来打算补充一些关于搜素功能的实现思路，比如同时按时间范围、文件名、分类名、权限几个条件的搜索~

以及二级索引的实现方式，数据记录id自增的实现，数据定期定量删除等。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航