您的位置:首页 > 大数据

大数据量分页(海量数据分页)的高效实现

2012-09-15 23:33 381 查看
海量数据分页,已经无法使用数据库自带的分页机制,比如MySQL的Limit,这会导致严重的性能问题,经过生产环境大数据量千万级数据量分页实现的的总结,目前为止我所使用的大数据量分页机制有两条:

1. 如果表中存在连续的数字列并为索引,那么通过页码即可计算出此字段的范围,直接作范围查询即可:
start = (page-1)*pagesize
end = page*pagesize
select * from table where id >start and id <=end

2. 对大量数据旧的分页数据,实际上是固定的,变化的仅仅是前面数页。那么将旧数据导出成一个特殊表,直接以页码为索引列,即可快速分页。

成功案例:有问必答网(120ask.com)的列表页,目前大约共3000万主题帖,每页显示30条记录,这样大约是100万页。将每页要显示的数据作成一个字段,页码及科室两个字段作主索引,因为业务要求要按科室及页码列出主题,同时科室分类存在层次关系,属性子科室的主题,也需要显示在父科室列表中,这样列表的总记录数实际上是超过3000万的,冗余度大约是2.5,即有7500万条记录,每页显示30,即总共大约有250万页。现在将数据表重新进行设计,每页要显示的数据,作为一条记录,这样此表仅仅就只有250万条记录,也就相当于250万条记录的数据表,可胜任7500万主题的分页需要。表结构大致如下:

page #当前记录的页码
classid #科室id
data #当前页要显示的数据 原始主题记录json化或php序列化后的字符串

但此方案的问题就是数据更新及删除的同步问题。建议是较新数据周期性(如每4小时)地重新整理,旧数据可使用较慢的周期(如每天)速度处理。同时删除帖子时应该先删除帖子内容,再使用异步队列机制处理数据的同步和更新。虽然带来维护上的麻烦,但有效地处理了大数据量分页显示的问题。

120ask.com列表页及帖子页,全部使用伪静态方式提供访问,最长的内科列表页,已经达到了30万页。
数据的存储使用三台Dell R610机器存储,每次对列表页或帖子页的访问,均需要从MySQL查询。目前已经胜任每日约900万次访问量。如果有任何疑惑,请联系zhangxugg@163.com。如果你有更好的办法,欢迎一起探讨。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐