全文检索:倒排索引的理解
2016-06-27 14:26
239 查看
一.定义:是基于单词-文档矩阵的一种存储形式,它描述了一个term词项集合和文档集合之间具有映射关系的数据结构。
1. term词项集合列表:定义要搜索的一些词。
2. 词项文档映射集合列表:定义单词id,单词,单词在文档中的位置,单词出现的频率,文档出现的频率等信息。
文档列表
词项集合 词项文档映射表
以单词“公司”为例,其单词编号为1,文档频率为2,代表整个文档集合中有两个文档包含这个单词,对应的倒排列表为:{(1;1;<16>),(3;1;<23>)},其含义为在文档1和文档3出现过这个单词,单词频率都为1,单词“公司”在两个文档中的出现位置是16,23”。
注意:记录单词频率信息、文档频率信息的好处:
而利用单词频率信息、文档频率信息即可以对这些候选搜索结果进行排序,计算文档和查询的相似性,按照相似性得分由高到低排序输出,此即为搜索系统的部分内部流程。
二,使用倒排索引的优点:
4000
1.可以根据单词快速获取包含这个单词的文档列表,提高查询效率。
1. term词项集合列表:定义要搜索的一些词。
2. 词项文档映射集合列表:定义单词id,单词,单词在文档中的位置,单词出现的频率,文档出现的频率等信息。
文档列表
词项集合 词项文档映射表
以单词“公司”为例,其单词编号为1,文档频率为2,代表整个文档集合中有两个文档包含这个单词,对应的倒排列表为:{(1;1;<16>),(3;1;<23>)},其含义为在文档1和文档3出现过这个单词,单词频率都为1,单词“公司”在两个文档中的出现位置是16,23”。
注意:记录单词频率信息、文档频率信息的好处:
而利用单词频率信息、文档频率信息即可以对这些候选搜索结果进行排序,计算文档和查询的相似性,按照相似性得分由高到低排序输出,此即为搜索系统的部分内部流程。
二,使用倒排索引的优点:
4000
1.可以根据单词快速获取包含这个单词的文档列表,提高查询效率。
相关文章推荐
- POJ 3417 LCA+DFS
- Permissions 0644 for ‘/root/.ssh/id_rsa’ are too open处理
- Quartz的cron表达式
- springmvc异常处理-全局异常处理器开发
- CAGradientLayer实现"滑动来解锁"动画效果
- [置顶] Java项目二:通讯录管理系统
- 面试题15:查找链表中倒数第k个结点
- React Native 开发
- MySQL中删除重复数据的简单方法,mysql删除重复数据
- matlab mse函数
- jquery的链式操作以及事件绑定
- UIBarButtonItem的一个分类,用户快速创建一个UIBarButtonItem
- [从头读历史] 第270节 诗经 王风
- Leetcode-8-String to Integer(atoi) C++
- spark on yarn运行scala单词统计程序出错
- Android 常用平台Jar包
- Android文件存储方式
- java中异步多线程超时导致的服务异常
- SQL Cursor 基本用法
- leetcode maximum gap