信息检索概率模型
2014-03-19 13:25
801 查看
基本的概率模型(简单概率模型):
将文档分为两个部分:第一个是和查询语句相关的,第二个和查询非相关的
与查询语句相关的P(D|R) document related
与查询语句不相关的P(D|NR) document unrelated
代码实现思想:
如果
P(D|R)/ P(D|NR)> 1 则提取文档
如果
P(D|R)/P(D|NR)<1 ,则不提取文档
其他则返回查询语句不存在在文档组合当中
二元独立概率模型:(BIM)
Binary Independence Model
假设:
(1) 单个词在文档是独立的,那就不是条件概率
(2)假设是binary vectors,分为1和0,1是相关,0是非相关,vector 包括term incident vector(词语),如果x=0则是不相关(在文档),x=1就是相关(不在文档)
所以相关的概率为
P(R=1| x,q)= P(x|R=1,q) × P(R=1,q)/ P(x|q) 贝叶斯公式 原公式为 P(R=1| x,q)×P(x|q) = P(x|R=1,q) × P(R=1,q)
计算的概率为在相关文档中,document的term vector到底和查询相关性的概率有多大
P(R=0| x,q)= P(x|R=0,q) × P(R=0,q)/ P(x|q) 贝叶斯公式
计算的是在非相关文档中,document的term vector到底和查询语句的想关心有多大
按照第一个简单的概率模型计算
odds=P(D|R)/ P(D|NR)
Odd=P(R=1| x,q)/P(R=0| x,q)
第一步分可以转换为:
prior probability of retrieving a relevant or nonrelevant document for a query ~q
根据查询提取相关或者非相关的文档的概率;
第二部分可以转换为:
probability that if a relevant or nonrelevant document is retrieved, then that document’s representation is ~x
第二个公式表示,根据查询语句q,提取出相关的文档,x 在文档的概率;
所以公式可以进一步的整理为:
pt: x在相关文档且与查询相关的概率 , 1-pt就是在x没有在文档里但是与查询相关的概率
ut: x在不相关文档的概率,1-ut是在不在相关文档里也不和文档相关的概率
所以公式简化为:
把最后两个公式相乘等于常数1,所以只剩下第一项
将文档分为两个部分:第一个是和查询语句相关的,第二个和查询非相关的
与查询语句相关的P(D|R) document related
与查询语句不相关的P(D|NR) document unrelated
代码实现思想:
如果
P(D|R)/ P(D|NR)> 1 则提取文档
如果
P(D|R)/P(D|NR)<1 ,则不提取文档
其他则返回查询语句不存在在文档组合当中
二元独立概率模型:(BIM)
Binary Independence Model
假设:
(1) 单个词在文档是独立的,那就不是条件概率
(2)假设是binary vectors,分为1和0,1是相关,0是非相关,vector 包括term incident vector(词语),如果x=0则是不相关(在文档),x=1就是相关(不在文档)
所以相关的概率为
P(R=1| x,q)= P(x|R=1,q) × P(R=1,q)/ P(x|q) 贝叶斯公式 原公式为 P(R=1| x,q)×P(x|q) = P(x|R=1,q) × P(R=1,q)
计算的概率为在相关文档中,document的term vector到底和查询相关性的概率有多大
P(R=0| x,q)= P(x|R=0,q) × P(R=0,q)/ P(x|q) 贝叶斯公式
计算的是在非相关文档中,document的term vector到底和查询语句的想关心有多大
按照第一个简单的概率模型计算
odds=P(D|R)/ P(D|NR)
Odd=P(R=1| x,q)/P(R=0| x,q)
第一步分可以转换为:
prior probability of retrieving a relevant or nonrelevant document for a query ~q
根据查询提取相关或者非相关的文档的概率;
第二部分可以转换为:
probability that if a relevant or nonrelevant document is retrieved, then that document’s representation is ~x
第二个公式表示,根据查询语句q,提取出相关的文档,x 在文档的概率;
所以公式可以进一步的整理为:
pt: x在相关文档且与查询相关的概率 , 1-pt就是在x没有在文档里但是与查询相关的概率
ut: x在不相关文档的概率,1-ut是在不在相关文档里也不和文档相关的概率
所以公式简化为:
把最后两个公式相乘等于常数1,所以只剩下第一项
相关文章推荐
- 【信息检索导论】第11章 概率检索模型
- 4.3 概率判别式模型
- ML实验:高斯概率密度模型
- 认知的概率模型(ESSLLI教程) - 第三部分译文 - 推理模式
- 概率主题模型简介,LDA基本思想
- 概率语言模型 Probabilistic Language Modeling (一) --- 整体简介
- MIT自然语言处理第三讲:概率语言模型(第四、五、六部分)
- 机器学习中的两个概率模型
- [未读] 概率语言模型及其变形系列(2)-LDA及Gibbs Sampling
- 机器学习中的概率模型和概率密度估计方法及VAE生成式模型详解之六(第3章 之 VI/VB算法)
- 【综述】(MIT博士)林达华老师-"概率模型与计算机视觉”
- 高尔顿钉板概率模型的实现
- 概率主题模型简介 Introduction to Probabilistic Topic Models
- 概率主题模型资源
- 转:概率主题模型简介 --- ---David M. Blei所写的《Introduction to Probabilistic Topic Models》的译文
- 最大熵模型与最大似然概率
- 几种概率模型
- 概率语言模型及其变形系列(1)-PLSA及EM算法
- 机器学习中的贝叶斯方法---先验概率、似然函数、后验概率的理解及如何使用贝叶斯进行模型预测(1)
- 概率模型与计算机视觉