初探IR [1] 向量空间模型 Vector Space Model
2008-05-31 14:35
801 查看
向量空间模型
这是信息检索中的最基本的方法之一。用在向量空间模型(Vector Space Model)中。向量空间模型在信息检索的应用中经常用到。
举个列子:
例如,现在有一组文档d1, d2, d3, 我们要在其中搜索 “Car Insurance”。对于Car和Insurance这两个词,我们知道它们在文档上的权重,如下:
d1 d2 d3
Car 0.13 0.8 0.99
Insurance 0.99 0.6 0.13
我们把这张表映射到一个二维的平面上,X轴Insurance,Y轴为Car。将d1,d2,d3以从原点出发的向量的形式标注在平面上,就可以看到三个向量。
而查询向量q为(0.71,0.71)(Normalized)。我们将q这个向量和其他三个向量做比较,同q夹角最小的那个文档向量就是我们要找的和“Car Insurance“相关性最大的文档。
向量相似度
我们使用文档同查询之间的余弦相似度或归一相关系数(Normalized Correlation Coefficient)来计算查询向量和文档向量之间的相似程度。
2 b continued...
这是信息检索中的最基本的方法之一。用在向量空间模型(Vector Space Model)中。向量空间模型在信息检索的应用中经常用到。
举个列子:
例如,现在有一组文档d1, d2, d3, 我们要在其中搜索 “Car Insurance”。对于Car和Insurance这两个词,我们知道它们在文档上的权重,如下:
d1 d2 d3
Car 0.13 0.8 0.99
Insurance 0.99 0.6 0.13
我们把这张表映射到一个二维的平面上,X轴Insurance,Y轴为Car。将d1,d2,d3以从原点出发的向量的形式标注在平面上,就可以看到三个向量。
而查询向量q为(0.71,0.71)(Normalized)。我们将q这个向量和其他三个向量做比较,同q夹角最小的那个文档向量就是我们要找的和“Car Insurance“相关性最大的文档。
向量相似度
我们使用文档同查询之间的余弦相似度或归一相关系数(Normalized Correlation Coefficient)来计算查询向量和文档向量之间的相似程度。
2 b continued...
相关文章推荐
- Solr相似度名词:VSM(Vector Space Model)向量空间模型
- Vector Space Model (向量空间模型)
- 向量空间模型(VSM:Vector space model)
- Vector Space Model (向量空间模型)
- [译]Vector space model(向量空间模型)
- 从频率到意义:语义向量空间模型(2)(From Frequency to Meaning: Vector Space Models of Semantics)
- 向量空间模型(VSM:Vector Space M…
- 从频率到意义:语义向量空间模型(1)(From Frequency to Meaning: Vector Space Models of Semantics)
- 从频率到意义:语义向量空间模型(3)(From Frequency to Meaning: Vector Space Models of Semantics)
- 从频率到意义:语义向量空间模型(4)(From Frequency to Meaning: Vector Space Models of Semantics)
- Oracle EBS 表空间模型 - “Oracle Applications Tablespace Model(OATM)”
- Lucene学习之计算相似度模型VSM(Vector Space Model)
- [IR课程笔记]向量空间模型(Vector Space Model)
- Lucene in action 笔记 term vector——针对特定field建立的词频向量空间,不存!不会!影响搜索,其作用是告诉我们搜索结果是“如何”匹配的,用以提供高亮、计算相似度,在VSM模型中评分计算
- 转:Lucene之计算相似度模型VSM(Vector Space Model) : tf-idf与交叉熵关系,cos余弦相似度
- 向量空间模型(Vector Space Model)
- Generalized Vector Space Model
- 第六章 文档评分、词项权重计算及向量空间模型
- 简简单单的说明向量空间模型(VSM)
- Java8内存模型—永久代(PermGen)和元空间(Metaspace)