您的位置:首页 > 其它

【信息检索导论】第4章 索引构建

2013-08-17 18:34 489 查看

第4章 索引构建

基于块的排序索引方法

 基于块的排序索引算法:
1. 将文档分割为几个大小相同的部分
2. 将每个部分的词项ID-文档ID排序
3. 将中间产生的临时排序结果存放到磁盘
4. 将所有的中间结果合并成最终的索引

内存式单遍扫描索引构建算法

内存式单遍扫描索引算法,使用词项而不是其ID,它将每个块的词典存入磁盘,对于下一个块则重新采用新的词典。

分布式索引构建方法

MapReduce

动态构建索引算法

最简单的索引更新方法是周期性地对文档集从头到尾开始索引重构
如果要求能够及时检测到新文档,那么可以同时保持两个索引:一个是大的索引,另一个的是小的用于存储新文档信息的辅助索引,后者保存在内存中。检索时可以同时遍历两个索引并将结果合并。每当辅助索引变得很大,就将它合并到主索引中。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: