【信息检索导论】第3章 词典及容错式检索
2013-08-17 18:29
369 查看
第3章 词典及容错式检索
本章介绍的倒排索引再对词典部分进行了一层索引。词典搜索的数据结构
词典的经典数据结构:1. 哈希表
2. 搜索树,trie树,B树
通配符查询
尾通配符 – 基于搜索树首通配符 – 反向B树,原来B树中的每个从根到叶子路径所代表的词项全部反过来写
同时使用B树和反向B树,可以处理更一般的单通配符查询
一般的通配符查询
构建轮排索引,其中对扩展词的每个旋转结果都构造一个指针来指向原始词项。支持通配符查询的k-gram索引
在k-gram索引结构中,其词典由词汇表中所有词项的所有k-gram形式构成,每个倒排记录表作为由包含该k-gram的词项构成。etr -> beetroot -> metric -> petrify -> retrival
拼写校正
拼写校正的两个方法:1. 基于编辑距离,DP算法
2. 基于k-gram重合度
基于发音的校正技术
对于每个词项,进行一个语音哈希操作。常见的soundx算法相关文章推荐
- 信息检索之词典及容错式检索
- 信息检索导论学习笔记(3)——词典及容错式检索
- 信息检索导论学习笔记 -- 第二章:词项词典及倒排记录表
- 信息检索导论学习笔记(2)——词项词典及倒排记录表
- 【信息检索导论】第2章 词项词典及倒排记录表
- 信息检索导论:第二章 词项词典及倒排记录表 学习笔记
- 信息检索导论学习笔记(7)-文档评分、词项权重计算
- 【信息检索导论】第13章 文本分类及朴素贝叶斯方法
- 微分方程、动力系统与混沌导论 第3章 平面系统的相图[书摘]
- 【信息检索导论】第14章 - 第18章
- 信息检索导论1
- 信息检索导论2
- 信息检索导论学习笔记(8)-向量空间模型
- 信息检索导论(第一章) 布尔检索
- 信息检索导论:第一章 布尔检索 学习笔记
- 【信息检索导论】第1章 布尔检索
- 信息检索导论-第七章 一个完整搜索系统中的评分计算
- 信息检索导论 第二章 阅读笔记
- 信息检索导论学习笔记(6)-文档评分,词项权重计算及向量空间模型
- 信息检索导论学习笔记 --第一章 布尔检索