您的位置：首页 > 数据库

信息检索概率模型

2014-03-19 13:25 801 查看

基本的概率模型（简单概率模型）：

将文档分为两个部分：第一个是和查询语句相关的，第二个和查询非相关的

与查询语句相关的P(D|R) document related

与查询语句不相关的P(D|NR) document unrelated

代码实现思想：

如果

P(D|R)/ P(D|NR)> 1 则提取文档

如果

P(D|R)/P(D|NR)<1 ,则不提取文档

其他则返回查询语句不存在在文档组合当中

二元独立概率模型：（BIM)

Binary Independence Model

假设：

(1) 单个词在文档是独立的，那就不是条件概率

(2)假设是binary vectors，分为1和0，1是相关，0是非相关，vector 包括term incident vector(词语），如果x=0则是不相关（在文档），x=1就是相关（不在文档）

所以相关的概率为

P(R=1| x,q)= P(x|R=1,q) × P(R=1,q)/ P(x|q) 贝叶斯公式原公式为 P(R=1| x,q)×P(x|q) = P(x|R=1,q) × P(R=1,q)

计算的概率为在相关文档中，document的term vector到底和查询相关性的概率有多大

P(R=0| x,q)= P(x|R=0,q) × P(R=0,q)/ P(x|q) 贝叶斯公式

计算的是在非相关文档中，document的term vector到底和查询语句的想关心有多大

按照第一个简单的概率模型计算

odds=P(D|R)/ P(D|NR)

Odd=P(R=1| x,q)/P(R=0| x,q)

第一步分可以转换为：

prior probability of retrieving a relevant or nonrelevant document for a query ~q

根据查询提取相关或者非相关的文档的概率；

第二部分可以转换为：

probability that if a relevant or nonrelevant document is retrieved, then that document’s representation is ~x

第二个公式表示，根据查询语句q，提取出相关的文档，x 在文档的概率；

所以公式可以进一步的整理为：

pt: x在相关文档且与查询相关的概率， 1-pt就是在x没有在文档里但是与查询相关的概率

ut： x在不相关文档的概率，1-ut是在不在相关文档里也不和文档相关的概率

所以公式简化为：

把最后两个公式相乘等于常数1，所以只剩下第一项

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 布林搜索数据库 idf

相关文章推荐

新的分享

章节导航