您的位置:首页 > 其它

【信息检索导论】第3章 词典及容错式检索

2013-08-17 18:29 369 查看

第3章 词典及容错式检索

本章介绍的倒排索引再对词典部分进行了一层索引。

词典搜索的数据结构

词典的经典数据结构:
1. 哈希表
2. 搜索树,trie树,B树

通配符查询

尾通配符 – 基于搜索树
首通配符 – 反向B树,原来B树中的每个从根到叶子路径所代表的词项全部反过来写
同时使用B树和反向B树,可以处理更一般的单通配符查询

一般的通配符查询

构建轮排索引,其中对扩展词的每个旋转结果都构造一个指针来指向原始词项。

支持通配符查询的k-gram索引

在k-gram索引结构中,其词典由词汇表中所有词项的所有k-gram形式构成,每个倒排记录表作为由包含该k-gram的词项构成。
etr -> beetroot -> metric -> petrify -> retrival

拼写校正

拼写校正的两个方法:
1. 基于编辑距离,DP算法
2. 基于k-gram重合度

基于发音的校正技术

对于每个词项,进行一个语音哈希操作。常见的soundx算法
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: