hbase分页的功能实现
2015-10-21 16:56
141 查看
hbase分页功能的几种实现方案。
分页功能是线上系统的常用功能,对hbase,有以下几个方案可以选择(抛砖引玉)。
假设要查第N页,1页大小为M
1 client分页,scan查到N*M条,过滤掉N*(M--1)条,返回M条。对于M,N较小时比较适合。
2 自定义Filter,该filter可以传递offset(server端需要过滤的记录条数),在server端分页,注意,跨不同的region时需要重新计算该offset。
例子:第1个HRegion的请求传递该值为N*M-1,表示需要在server端过滤掉N*M--1条记录。当第1个HRegion返回时,需要知道该次请求在server端实际过滤了多少条记录(假设为Size条),
第2个HRegion的请求传递该值为(N*(M-1))-Size。
3 缓存上次分页查询的最后一条,下次分页查询从这条(不包含)开始查。
4 查询条件固定的话,定时任务汇总表。
5 结合其他框架想办法。
少量数据的推荐使用的,使用了方案1。
————————————————————————————————————————————————
1、PG数据库(包括其他一些关系型数据库)据说在单表记录数超过100w时就会变得很慢。解决方法是分表,或者迁移到专注于处理海量数据的NoSQL。——我们选择了后者。
2、拿到HBase我做的第一件工作是性能测试,主要验证了两件事:
a)HBase对数据操作的响应速度与当前表中的数据量无关,但是与数据的split以及本地缓存等配置项有很大关系。 比如rowKey的合理设计,使相关数据相邻存放;比如使用scan时setCatch(num)方法中num的取值。
b)HBase对数据操作的响应在毫秒级,满足我们前端显示的需要。
3、分页查询时,前端需要请求记录总数,用于计算总页数。然后再请求每页的内容,请求每页内容时两个主要参数(start,limit)。比如0,20;肯定是第一页数据,从第0条开始,请求20条数据。比如20,20;这就是第二页,从第20条开始请求20条数据,以此类推。
4、HBase获得记录总数很困难,浏览所有数据倒好说,我可以在数据库中存一下当前数据库中记录的总数。但如果是搜索功能怎么办?如果满足条件的记录有1亿条,我总不能先遍历一边记个数啊……听说在MapReduce层可以有办法完成总数的统计,以后有机会接触到我会研究一下写出来的。
5、既然HBase无法获得记录总数,那就采用那种不需要总页数的分页方式呗。比如微博、某些论坛那样,前端根本不去获取总记录数,只要知道后面还有没有数据就可以了,提供给用户“下一页”,或“下n页”的功能。我纠结与记录总数主要是因为之前UI控件的限制……
6、上述的分页展现形式类似于:用户浏览数据首页时,选页栏显示 1 2 3 4 5 6.....,当用户点到第5页时,选页栏显示 ... 3 4 5 6 7 8 ....。不提供用户随意输页号,也不提供最后一页的按钮。
7、HBase端处理时,肯定要用到scan,然后调用setFilter方法,使用pageFilter限制一下返回的记录条数。
8、我还设计了一种缓存机制,绑定每个登陆的用户,在用户浏览记录时,每个一定记录数(比如100条),记录一下这条记录的rowKey。这样在用户请求第100条到120条记录这一页时我的scan可以设置startRowKey为我刚才缓存的那个。这样可以避免把前面所有的数据scan出来后再逐条遍历去数数。
9、我使用了Spring最新提供的Spring Hadoop框架,这个框架为我管理了几乎所有的HBase Client资源,非常好用!我不用在scan完后手动调用close方法,我不用自己维护一个TablePool每次去选表,我不用自己创建Configuration实例,我不用自己去写将一条记录映射回实例的接口(实现当然还要自己写……,只要实现了RowMapper接口就可以了)。
这只是我目前在项目中自己摸索并使用的一种可行方案。
接下来打算补充一些关于搜素功能的实现思路,比如同时按时间范围、文件名、分类名、权限几个条件的搜索~
以及二级索引的实现方式,数据记录id自增的实现,数据定期定量删除等。
分页功能是线上系统的常用功能,对hbase,有以下几个方案可以选择(抛砖引玉)。
假设要查第N页,1页大小为M
1 client分页,scan查到N*M条,过滤掉N*(M--1)条,返回M条。对于M,N较小时比较适合。
2 自定义Filter,该filter可以传递offset(server端需要过滤的记录条数),在server端分页,注意,跨不同的region时需要重新计算该offset。
例子:第1个HRegion的请求传递该值为N*M-1,表示需要在server端过滤掉N*M--1条记录。当第1个HRegion返回时,需要知道该次请求在server端实际过滤了多少条记录(假设为Size条),
第2个HRegion的请求传递该值为(N*(M-1))-Size。
3 缓存上次分页查询的最后一条,下次分页查询从这条(不包含)开始查。
4 查询条件固定的话,定时任务汇总表。
5 结合其他框架想办法。
少量数据的推荐使用的,使用了方案1。
————————————————————————————————————————————————
1、PG数据库(包括其他一些关系型数据库)据说在单表记录数超过100w时就会变得很慢。解决方法是分表,或者迁移到专注于处理海量数据的NoSQL。——我们选择了后者。
2、拿到HBase我做的第一件工作是性能测试,主要验证了两件事:
a)HBase对数据操作的响应速度与当前表中的数据量无关,但是与数据的split以及本地缓存等配置项有很大关系。 比如rowKey的合理设计,使相关数据相邻存放;比如使用scan时setCatch(num)方法中num的取值。
b)HBase对数据操作的响应在毫秒级,满足我们前端显示的需要。
3、分页查询时,前端需要请求记录总数,用于计算总页数。然后再请求每页的内容,请求每页内容时两个主要参数(start,limit)。比如0,20;肯定是第一页数据,从第0条开始,请求20条数据。比如20,20;这就是第二页,从第20条开始请求20条数据,以此类推。
4、HBase获得记录总数很困难,浏览所有数据倒好说,我可以在数据库中存一下当前数据库中记录的总数。但如果是搜索功能怎么办?如果满足条件的记录有1亿条,我总不能先遍历一边记个数啊……听说在MapReduce层可以有办法完成总数的统计,以后有机会接触到我会研究一下写出来的。
5、既然HBase无法获得记录总数,那就采用那种不需要总页数的分页方式呗。比如微博、某些论坛那样,前端根本不去获取总记录数,只要知道后面还有没有数据就可以了,提供给用户“下一页”,或“下n页”的功能。我纠结与记录总数主要是因为之前UI控件的限制……
6、上述的分页展现形式类似于:用户浏览数据首页时,选页栏显示 1 2 3 4 5 6.....,当用户点到第5页时,选页栏显示 ... 3 4 5 6 7 8 ....。不提供用户随意输页号,也不提供最后一页的按钮。
7、HBase端处理时,肯定要用到scan,然后调用setFilter方法,使用pageFilter限制一下返回的记录条数。
8、我还设计了一种缓存机制,绑定每个登陆的用户,在用户浏览记录时,每个一定记录数(比如100条),记录一下这条记录的rowKey。这样在用户请求第100条到120条记录这一页时我的scan可以设置startRowKey为我刚才缓存的那个。这样可以避免把前面所有的数据scan出来后再逐条遍历去数数。
9、我使用了Spring最新提供的Spring Hadoop框架,这个框架为我管理了几乎所有的HBase Client资源,非常好用!我不用在scan完后手动调用close方法,我不用自己维护一个TablePool每次去选表,我不用自己创建Configuration实例,我不用自己去写将一条记录映射回实例的接口(实现当然还要自己写……,只要实现了RowMapper接口就可以了)。
这只是我目前在项目中自己摸索并使用的一种可行方案。
接下来打算补充一些关于搜素功能的实现思路,比如同时按时间范围、文件名、分类名、权限几个条件的搜索~
以及二级索引的实现方式,数据记录id自增的实现,数据定期定量删除等。
相关文章推荐
- Weka简介
- Find Median from Data Stream
- 个人觉得比较好的 切使用的sublime text2 插件
- keyPress事件与KeyPressEventArgs
- Maven常用命令
- Nodejs创建HTTPS服务器
- 解析一个邮箱地址的合法性
- C语言中关于函数的简单编程题
- version `GOMP_4.0' not found, torch7
- Retrofit before
- UART端口测试方法及测试程序
- SQL Server ->> 在SQL Server中创建ASSEMBLY
- 联结表
- POJ 3253 Fence Repair (霍夫曼编码 + 最小堆)
- Memcache,Redis,MongoDB 数据库 缓存 mysql
- Android 高仿IOS加载数据时圆形的进度条
- fullpage.js与fullpage详解
- Ubuntu14.04使用VNC解决gnome-session-is-accelerated: No composite extension
- jquery end详解
- java判断操作系统是windows还是linux