您的位置:首页 > 其它

倒排索引--搜索引擎基础

2018-01-07 16:02 204 查看
单词-文档矩阵

单词\文档文档1文档2文档3
单词1
单词2
倒排索引

基本概念

其实是对单词-文档的一种具体存储形式。包括单词词典和倒排文件。

单词词典: 文档集合中出现过的单词组成的字符串集合。
单词为索引单位,包含单词信息和指向倒排列表的指针。

倒排列表:基本单位是倒排项,包含出现某个单词的文本列表以及在文档中的位置信息。

倒排文件:顺序存储各个单词的倒排列表,以文本形式存储在磁盘中。




实例

单词频率:单词在某个文档中出现次数
文档频率:有多少文档包含含个单词


单词频率、文档频率和出现位置信息的倒排索引





内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: