您的位置:首页 > 其它

基于用户投票的排名算法:威尔逊区间

2017-08-23 16:28 399 查看


基于用户投票的排名算法:威尔逊区间

1 威尔逊区间

排名算法就比较清晰了:

  第一步,计算每个项目的"好评率"(即赞成票的比例)。

  第二步,计算每个"好评率"的置信区间(以95%的概率)。

  第三步,根据置信区间的下限值,进行排名。这个值越大,排名就越高。

1927年,美国数学家 Edwin Bidwell Wilson提出了一个修正公式,被称为"威尔逊区间",很好地解决了小样本的准确性问题。

  


在上面的公式中,

表示样本的"赞成票比例",n表示样本的大小,

表示对应某个置信水平的z统计量,这是一个常数,可以通过查表或统计软件包得到。一般情况下,在95%的置信水平下,z统计量的值为1.96。

威尔逊置信区间的均值为

  


它的下限值为

  


可以看到,当n的值足够大时,这个下限值会趋向

。如果n非常小(投票人很少),这个下限值会大大小于

。实际上,起到了降低"赞成票比例"的作用,使得该项目的得分变小、排名下降。

2 置信区间

Pr(c1<=μ<=c2)=1-α

α是显著性水平(例:0.05或0.10)

100%*(1-α)指置信水平(例:95%或90%)

表达方式:interval(c1,c2)——置信区间。

转载自:http://www.ruanyifeng.com/blog/2012/03/ranking_algorithm_wilson_score_interval.html
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: