【信息检索导论】第4章 索引构建
2013-08-17 18:34
489 查看
第4章 索引构建
基于块的排序索引方法
基于块的排序索引算法:1. 将文档分割为几个大小相同的部分
2. 将每个部分的词项ID-文档ID排序
3. 将中间产生的临时排序结果存放到磁盘
4. 将所有的中间结果合并成最终的索引
内存式单遍扫描索引构建算法
内存式单遍扫描索引算法,使用词项而不是其ID,它将每个块的词典存入磁盘,对于下一个块则重新采用新的词典。分布式索引构建方法
MapReduce动态构建索引算法
最简单的索引更新方法是周期性地对文档集从头到尾开始索引重构如果要求能够及时检测到新文档,那么可以同时保持两个索引:一个是大的索引,另一个的是小的用于存储新文档信息的辅助索引,后者保存在内存中。检索时可以同时遍历两个索引并将结果合并。每当辅助索引变得很大,就将它合并到主索引中。
相关文章推荐
- 信息检索导论——四、索引构建
- 信息检索笔记-索引构建
- 信息检索课程实验:构建索引并实现对文档集合的检索
- 信息检索导论——五、索引压缩
- 信息检索之索引构建
- Luence 4.4 Jcseg分词器构建索引以及检索测试
- 索引构建情况分析、mongoDB安全(四)
- 信息检索导论2
- ElasticSearch索引构建速度调优
- mongodb 运行状况,索引构建分析
- 有关Lucene的问题(8):用Lucene构建实时索引的文档更新问题
- 构建实时索引
- 慕课网《MongoDB入门篇》课程 第4章 mongoDB常见的查询索引
- Lucene构建索引
- 《Spark机器学习》第4章--构建基于Spark的推荐引擎
- ElasticSearch学习笔记-索引构建
- 构建索引 《第二篇》
- 【信息检索导论】第12章 基于语言建模的信息检索模型
- 构建HBase二级索引和工具----学习笔记
- 基于Heritrix+Lucene的搜索引擎构建(4)——索引建立