向量空间模型(VSM) (转)
2010-01-07 14:24
411 查看
向量空间模型将文档映射为一个特征向量V(d)=(t1,ω1(d);…;tn, ωn(d)),其中ti(i=1,2, …,n)为一列互不雷同的词条项,ωi(d)为ti在d中的权值, 一般被定义为ti在d中出现频率tfi(d)的函数,即 。
在信息检索中常用的词条权值计算方法为 TF-IDF 函数,其中N为所有文档的数目,ni为含有词条ti的文档数目。TF-IDF公式有很多变种,下面是一个常用的TF-IDF公式: 根据TF-IDF公式,文档集中包含某一词条的文档越多,说明它区分文档类别属性的能力越低,其权值越小;另一方面,某一文档中某一词条出现的频率越高,说明它区分文档内容属性的能力越强,其权值越大。
两文档之间的相似度可以用其对应的向量之间的夹角余弦来表示,即文档di,dj的相似度可以表示为
进行查询的过程中,先将查询条件Q进行向量化,主要依据布尔模型:
当ti在查询条件Q中时,将对应的第i坐标置为1,否则置为0,即
从而文档d与查询Q的相似度为
根据文档之间的相似度,结合机器学习的一些算法如神经网络算法,K-近邻算法和贝叶斯分类算法等,可以将文档集分类划分为一些小的文档子集。
在查询过程中,可以计算出每个文档与查询的相似度,进而可以根据相似度的大小,将查询的结果进行排序。
向量空间模型可以实现文档的自动分类和对查询结果的相似度排序,能够有效提高检索效率;它的缺点是相似度的计算量大,当有新文档加入时,则必须重新计算词的权值。
文章来自:”http://hi.baidu.com/my%5Flough/blog/item/ed82560017191b82e850cdcf%2Ehtml
相关文章推荐
- 改进后的向量空间模型(VSM)
- 文本特征抽取的向量空间模型(VSM)和TF/IDF方法
- Lucene 4.0 原理与代码分析 - 相似度评分算法之向量空间模型(VSM)
- 向量空间模型(VSM)在文档相似度计算上的简单介绍
- VSM向量空间模型
- 向量空间模型(VSM:Vector Space M…
- 简简单单的说明向量空间模型(VSM)
- 向量空间模型(VSM)
- 向量空间模型(VSM:Vector space model)
- [转]向量空间模型(VSM)在文档相似度计算上的简单介绍
- 向量空间模型(VSM)
- 改进后的向量空间模型(VSM)
- 向量空间模型(vsm) 简介
- 向量空间模型(VSM)一种文本相似度算法
- Solr相似度名词:VSM(Vector Space Model)向量空间模型
- Lucene in action 笔记 term vector——针对特定field建立的词频向量空间,不存!不会!影响搜索,其作用是告诉我们搜索结果是“如何”匹配的,用以提供高亮、计算相似度,在VSM模型中评分计算
- Kmeans 聚类之建立文档向量模型(VSM)
- TF-IDF、向量空间模型和余弦相关度
- 新手学信息检索4:向量空间模型与相似度计算
- [译]Vector space model(向量空间模型)