信息检索中常用的评价指标:MAP,nDCG,ERR,F-measure
2017-12-11 11:14
519 查看
知识点文本检索常用的评价指标:MAP、nDCG、ERR、F-score/F-measure以及附加的Precision、Recall、AveP、CG、DCG、IDCG、MRR、cascade models
而ROC曲线及其度量指标AUC主要用于分类和识别
准确率(精确度)是指检索得到的文档中相关文档所占的比例,公式如下:
precision=|{relevant documents}∩{retrieved documents}||{retrieved documents}|
precision@10表示检索10个文档中包含相关所占的比例,即:|{retrieved documents}| = 10。
召回率是指所有相关文档中被检索到的比例,公式如下:
recall=|{relevant documents}∩{retrieved documents}||{relevant documents}|
由前面可知,准确率和召回率都只能衡量检索性能的一个方面,最理想的情况肯定是准确率和召回率都比较高。当我们想提高召回率的时候,肯定会影响准确率,所以可以把准确率看做是召回率的函数,即:P=f(R),也就是随着召回率从0到1,准确率的变化情况。那么就可以对函数P=f(R)在R上进行积分,可以求P的期望均值。公式如下:
AveP=∫10P(r)dr=∑k=1nP(k)Δ(k)=∑nk=1(P(k)×rel(k))number of relevant documents
其中rel(k)表示第k个文档是否相关,若相关则为1,否则为0,P(k)表示前k个文档的准确率。 AveP的计算方式可以简单的认为是:
AveP=1R×∑r=1Rrposition(r)
其中R表示相关文档的总个数,position(r)表示,结果列表从前往后看,第r个相关文档在列表中的位置。比如,有三个相关文档,位置分别为1、3、6,那么AveP=13×(11+23+36)。在编程的时候需要注意,位置和第i个相关文档,都是从1开始的,不是从0开始的。
AveP意义是在召回率从0到1逐步提高的同时,对每个R位置上的P进行相加,也即要保证准确率比较高,才能使最后的AveP比较大。
通常会用多个查询语句来衡量检索系统的性能,所以应该对多个查询语句的AveP求均值(the mean of average precision scores),即公式:
MAP=∑Qq=1AveP(q)Q
在MAP计算公式中,文档只有相关不相关两种,而在nDCG中,文档的相关度可以分多个等级进行打分。
表示前p个位置累计得到的效益,公式如下:
CGp=∑i=1preli
其中reli表示第i个文档的相关度等级,如:2表示非常相关,1表示相关,0表示无关,-1表示垃圾文件。
由于在CGp的计算中对位置信息不敏感,比如检索到了三个文档相关度依次是{3,-1,1}和{-1,1,3},显然前面的排序更优,但是它们的CG相同,所以要引入对位置信息的度量计算,既要考虑文档的相关度等级,也要考虑它所在的位置信息。假设每个位置按照从小到大的排序,它们的价值依次递减,如:可以假设第i个位置的价值是1log2(i+1),那么排在第i个位置的文档所产生的效益就是reli×1log2(i+1)=relilog2(i+1)。公式如下:
DCGp=∑i=1prelilog2(i+1)=rel1+∑i=2prelilog2(i+1)
另一种比较常用的,用来增加相关度影响比重的DCG计算方式是:
DCGp=∑i=1p2reli−1log2(i+1)
IDCG是理想情况下的DCG,即对于一个查询语句和p来说,DCG的最大值。公式如下:
IDCGp=∑i=1|REL|2reli−1log2(i+1)
其中|REL|表示,文档按照相关性从大到小的顺序排序,取前p个文档组成的集合。也就是按照最优的方式对文档进行排序。
由于每个查询语句所能检索到的结果文档集合长度不一,p值的不同会对DCG的计算有较大的影响。所以不能对不同查询语句的DCG进行求平均,需要进行归一化处理。nDCG就是用IDCG进行归一化处理,表示当前DCG比IDCG还差多大的距离。公式如下:
nDCGp=DCGpIDCGp
这样每个查询语句的nDCGp就是从0到1,不同查询语句之间就可以做比较,就可以求多个查询语句的平均nDCGp。
NDCG@10、NDCG@20分别表示求p为10和20的时候的nDCG。
reciprocal rank是指,第一个正确答案的排名的倒数。MRR是指多个查询语句的排名倒数的均值。公式如下:
MRR=1|Q|∑i=1|Q|1ranki
其中ranki表示第i个查询语句的第一个正确答案的排名。
之前的评分模型虽然考虑了位置自身的价值信息和位置上文档的相关度信息,但是没有考虑文档之间的相关性信息。一种考虑是,一个文档是否被用户点击和排在它前面的文档有很大的关系,比如排在前面的文档都是不相关文档,那么它被点击的概率就高,如果排它前面的文档都是非常相关的文档,那么它被点击的概率就很低。Cascade Models假设用户从排名由高到底依次查看文档,一旦文档满足了用户的需求,则停止查看后续的文档。用Ri表示用户只看在位置i上的文档后就不在需要查看其它文档的概率,显然文档的相关度越高,Ri越大。那么用户在位置i停止的概率公式如下:
PPr=∏i=1r−1(1−Ri)Rr
区别RR是计算第一个相关文档的位置的倒数,ERR表示用户的需求被满足时停止的位置的倒数的期望。首先是计算用户在位置r停止的概率PPr,如下所示:
PPr=∏i=1r−1(1−Ri)Rr
其中Ri是关于文档相关度等级的函数,可以选取如下的函数:
Ri=R(gi)=2g−12gmax,g∈{0,1,…⋯,gmax}
那么ERR的计算公式如下:
ERR=∑r=1nφ(r)PPr=∑r=1n1rPPr=∑r=1n1r∏i=1r−1(1−Ri)Rr
更通用一点,ERR不一定计算用户需求满足时停止的位置的倒数的期望,可以是其它基于位置的函数φ(r),只要满足φ(0)=1,且φ(r)→0随着r→∞。比如DCG中的φ(r)=1log2(r+1)。
一种同时考虑准确率和召回率的指标。公式如下:
F=2×precision×recall(precision+recall)
可以看出F的取值范围从0到1。另外还有一种F的变体如下所示:
Fβ=(1+β2)×(precision×recall)(β2×precision+recall)
常用的两种设置是F2和F0.5,前者中recall重要程度是precision的两倍,后者则相反,precision重要程度是recall的两倍。 http://blog.csdn.net/u010138758/article/details/69936041
而ROC曲线及其度量指标AUC主要用于分类和识别
一,MAP
Precision(P):
准确率(精确度)是指检索得到的文档中相关文档所占的比例,公式如下:precision=|{relevant documents}∩{retrieved documents}||{retrieved documents}|
precision@10表示检索10个文档中包含相关所占的比例,即:|{retrieved documents}| = 10。
Recall(R):
召回率是指所有相关文档中被检索到的比例,公式如下:recall=|{relevant documents}∩{retrieved documents}||{relevant documents}|
Average precision(AveP):
由前面可知,准确率和召回率都只能衡量检索性能的一个方面,最理想的情况肯定是准确率和召回率都比较高。当我们想提高召回率的时候,肯定会影响准确率,所以可以把准确率看做是召回率的函数,即:P=f(R),也就是随着召回率从0到1,准确率的变化情况。那么就可以对函数P=f(R)在R上进行积分,可以求P的期望均值。公式如下:AveP=∫10P(r)dr=∑k=1nP(k)Δ(k)=∑nk=1(P(k)×rel(k))number of relevant documents
其中rel(k)表示第k个文档是否相关,若相关则为1,否则为0,P(k)表示前k个文档的准确率。 AveP的计算方式可以简单的认为是:
AveP=1R×∑r=1Rrposition(r)
其中R表示相关文档的总个数,position(r)表示,结果列表从前往后看,第r个相关文档在列表中的位置。比如,有三个相关文档,位置分别为1、3、6,那么AveP=13×(11+23+36)。在编程的时候需要注意,位置和第i个相关文档,都是从1开始的,不是从0开始的。
AveP意义是在召回率从0到1逐步提高的同时,对每个R位置上的P进行相加,也即要保证准确率比较高,才能使最后的AveP比较大。
Mean average precision(MAP):
通常会用多个查询语句来衡量检索系统的性能,所以应该对多个查询语句的AveP求均值(the mean of average precision scores),即公式:MAP=∑Qq=1AveP(q)Q
二,nDCG
在MAP计算公式中,文档只有相关不相关两种,而在nDCG中,文档的相关度可以分多个等级进行打分。
Cumulative Gain(CG):
表示前p个位置累计得到的效益,公式如下:CGp=∑i=1preli
其中reli表示第i个文档的相关度等级,如:2表示非常相关,1表示相关,0表示无关,-1表示垃圾文件。
Discounted cumulative gain(DCG):
由于在CGp的计算中对位置信息不敏感,比如检索到了三个文档相关度依次是{3,-1,1}和{-1,1,3},显然前面的排序更优,但是它们的CG相同,所以要引入对位置信息的度量计算,既要考虑文档的相关度等级,也要考虑它所在的位置信息。假设每个位置按照从小到大的排序,它们的价值依次递减,如:可以假设第i个位置的价值是1log2(i+1),那么排在第i个位置的文档所产生的效益就是reli×1log2(i+1)=relilog2(i+1)。公式如下:DCGp=∑i=1prelilog2(i+1)=rel1+∑i=2prelilog2(i+1)
另一种比较常用的,用来增加相关度影响比重的DCG计算方式是:
DCGp=∑i=1p2reli−1log2(i+1)
Ideal DCG(IDCG):
IDCG是理想情况下的DCG,即对于一个查询语句和p来说,DCG的最大值。公式如下:IDCGp=∑i=1|REL|2reli−1log2(i+1)
其中|REL|表示,文档按照相关性从大到小的顺序排序,取前p个文档组成的集合。也就是按照最优的方式对文档进行排序。
Normalize DCG(nDCG):
由于每个查询语句所能检索到的结果文档集合长度不一,p值的不同会对DCG的计算有较大的影响。所以不能对不同查询语句的DCG进行求平均,需要进行归一化处理。nDCG就是用IDCG进行归一化处理,表示当前DCG比IDCG还差多大的距离。公式如下:nDCGp=DCGpIDCGp
这样每个查询语句的nDCGp就是从0到1,不同查询语句之间就可以做比较,就可以求多个查询语句的平均nDCGp。
NDCG@10、NDCG@20分别表示求p为10和20的时候的nDCG。
三,ERR
Mean reciprocal rank (MRR) :
reciprocal rank是指,第一个正确答案的排名的倒数。MRR是指多个查询语句的排名倒数的均值。公式如下:MRR=1|Q|∑i=1|Q|1ranki
其中ranki表示第i个查询语句的第一个正确答案的排名。
Cascade Models :
之前的评分模型虽然考虑了位置自身的价值信息和位置上文档的相关度信息,但是没有考虑文档之间的相关性信息。一种考虑是,一个文档是否被用户点击和排在它前面的文档有很大的关系,比如排在前面的文档都是不相关文档,那么它被点击的概率就高,如果排它前面的文档都是非常相关的文档,那么它被点击的概率就很低。Cascade Models假设用户从排名由高到底依次查看文档,一旦文档满足了用户的需求,则停止查看后续的文档。用Ri表示用户只看在位置i上的文档后就不在需要查看其它文档的概率,显然文档的相关度越高,Ri越大。那么用户在位置i停止的概率公式如下:PPr=∏i=1r−1(1−Ri)Rr
Expected reciprocal rank (ERR) :
区别RR是计算第一个相关文档的位置的倒数,ERR表示用户的需求被满足时停止的位置的倒数的期望。首先是计算用户在位置r停止的概率PPr,如下所示:PPr=∏i=1r−1(1−Ri)Rr
其中Ri是关于文档相关度等级的函数,可以选取如下的函数:
Ri=R(gi)=2g−12gmax,g∈{0,1,…⋯,gmax}
那么ERR的计算公式如下:
ERR=∑r=1nφ(r)PPr=∑r=1n1rPPr=∑r=1n1r∏i=1r−1(1−Ri)Rr
更通用一点,ERR不一定计算用户需求满足时停止的位置的倒数的期望,可以是其它基于位置的函数φ(r),只要满足φ(0)=1,且φ(r)→0随着r→∞。比如DCG中的φ(r)=1log2(r+1)。
四,F-score/F-measure
F-score/F-measure :
一种同时考虑准确率和召回率的指标。公式如下:F=2×precision×recall(precision+recall)
可以看出F的取值范围从0到1。另外还有一种F的变体如下所示:
Fβ=(1+β2)×(precision×recall)(β2×precision+recall)
常用的两种设置是F2和F0.5,前者中recall重要程度是precision的两倍,后者则相反,precision重要程度是recall的两倍。 http://blog.csdn.net/u010138758/article/details/69936041
相关文章推荐
- 信息检索中常用的评价指标:MAP,nDCG,ERR,F-measure
- 信息检索系统常用的评价指标(准确率,召回率,F1,MAP,NDCG)
- 信息检索的评价指标介绍——MAP,NDCG
- 信息检索(IR)的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC
- 信息检索(IR)的评价指标介绍-准确率、召回率、F1、mAP、ROC、AUC
- 信息检索(IR)的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC
- 信息检索(IR)的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC
- 信息检索的评价指标(Precision, Recall, F-score, MAP)
- 信息检索(IR)的评价指标介绍-准确率、召回率、F1、mAP、ROC、AUC
- 信息检索(IR)的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC
- 信息检索(IR)的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC
- 信息检索的评价指标(Precision, Recall, F-score, MAP、ROC、AUC)
- 信息检索的评价指标(Precision, Recall, F-score, MAP)
- 数据分析,信息检索,分类体系中常用指标简明解释——关于准确率、召回率、F1、AP、mAP、ROC和AUC
- 信息检索的评价指标(Precision, Recall, F-score, MAP、ROC、AUC)
- 信息检索(IR)的评价指标介绍-准确率、召回率、F1、mAP、ROC、AUC
- 信息检索(IR)的评价指标介绍-准确率、召回率、F1、mAP、ROC、AUC
- 信息检索(IR)的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC
- 信息检索(IR)的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC
- 信息检索(IR)的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC