您的位置：首页 > 其它

BerkeleyDB 多索引查询

2013-09-26 14:18 183 查看

由于性能原因，我们打算将关系型数据库转移到内存数据库中；在内存数据库产品的选型中，我们确定的候选对象有Redis和Berkeley DB；
Redis查询效率不错，并且支持丰富的数据存储结构，但不支持多索引，这样对于比较复杂的sql移植可能会造成数据膨胀；Berkeley DB只支持简单的Key/Value, 但支持多索引查询，对我们目前的应用来说，移植起来更有优势；

下面我们看看，如何为DB建立二级索引；
还是用例子来说明：
一张表中记录学生的信息；每个学生有个唯一的ID，这个id通常就是表的主键；
现在，我们希望通过学生的last_name来查询，这就需要建立二级索引；
注：用词约定：
* 本文提到的“数据库”是指Berkeley DB的database，相当于关系数据库的一个表。
作为SQL的常用表：
CREATE TABLE students(student_id CHAR(4) NOT NULL,lastname CHAR(15),
firstname CHAR(15), PRIMARY KEY(student_id)); CREATE INDEX lname ON students(lastname);
在Berkeley DB中，就是定义为如下结构：
?

插入数据
从开发者的角度来看，插入数据与第二个索引数据库无关，直接操作第一个数据库中即可：
?

删除数据
删除数据可以通过第一个索引（student_id）来删除，也可以通过第二个索引（last_name）来删除，无论使用哪个索引删除，被删除的都是第一个库中的真实数据；
eg：使用第一个索引删除：
?

eg：使用二级个索引删除：

?

这里需要注意的是，第二个索引并非唯一性索引，所以可能对应多条数据，执行删除操作，将删除所有对应的数据；

查询数据
使用第一个索引查询数据，使用DB->get()；
使用第二个索引查询数据，可使用DB->pget() 或者 DB->pget()
两者的区别就是，如果使用DB->pget() ，则会将查询到的数据对应的第一个索引key同时返回；（DBC->pget()也是这样）
这里给出两者的函数原型：
?

错误处理
在DS或CDS上更新二级索引时，可能会产生以下错误：
0
DB_BUFFER_SMALL
DB_NOTFOUND
DB_KEYEMPTY
DB_KEYEXIST
为了防止这些错误，在索引更新后，最好立刻删除这个二级索引，然后重建；
注意：DB_RUNRECOVERY 和 DB_PAGE_NOTFOUND属于严重级错误，一般不会发生；
如果Berkeley DB返回了这类错误，需要首先检查数据库的完整性（使用DB->verify())，确认没问题后再重建索引；

总结
一旦调用DB->associate() 将两个索引库关联起来，二级索引就成为第一数据库的另一个入口；
所有的更新操作都会影响与其关联的索引库；
在二级索引上，游标的操作函数都可正常使用；
需要指出的是，对于插入操作，BDB禁止通过二级索引来插入数据，因为那样的话，就没有方法为第一数据库指明主索引。应用程序，应该在第一个数据库上使用DB->put() or DBC->put()来插入数据；
可以对建立任意多个二级索引，BDB中对这方面没有限制；只要内存大小允许，以及文件描述符够用，理论上对于一个数据库可以建立任意多个二级索引；当然，索引不是越多越好，在数据更新时，索引的更新也是不小的代价；所以，设计阶段，对于索引的建立，需要精心的设计一二；
如果发现二级索引失效了，应该通过调用DB->remove()将其删除，同时，再调用一次DB->associate() 方法来生成新的索引；
如果二级索引库不再需要了，需要先关闭数据库句柄，DB->close()，再将其删除：DB->remove()；
关闭主索引库句柄时，会自动关闭所以与其关联的二级索引句柄；

更多参考
《Reference Guide for Berkeley DB》
http://docs.oracle.com/cd/E17076_03/html/index.html

Posted by: 大CC | 26SEP,2013
博客：blog.me115.com
微博：新浪微博

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： BerkeleyDB

相关文章推荐

新的分享

章节导航