推荐系统的评价指标总结
2016-05-04 21:58
429 查看
评价一个推荐系统的好坏的重要性不用多少。本文的总结非常的全面,相信读者通过阅读本文以及本文参考的文献可以对推荐系统的评价指标有比较全面的掌握。
对推荐系统的研究一个重要的环节是如何评价一个推荐算法的好坏。关于推荐系统评价的研究很多,文献[1,2,3]在不同程度对评价方法进行了总结。评价方法分为离线评估,用户调查,在线评估。由于用户调查和在线评估代价要求高,目前大多数的研究采用的是离线测试。其中文献[3]总结了离线评价中用到的指标,包括准确度指标、基于排序加权的指标、覆盖率、多样性和新颖性等。本文的研究工作采用了几种离线评估指标。将其归纳为准确性指标和非准确性指标。下面分别给予简单介绍。
为了方便描述评价指标,下表对后面会用到的符号进行简单说明。
1)准确率[3]。推荐列表中用户喜欢的物品所占的比例。针对单个用户u的推荐准确率:
整个系统的准确率为:
2)召回率[3]。测试集中有多少用户喜欢的物品出现在推荐列表中。针对单个用户u的推荐召回率:
整个系统的召回率为:
IntraSimilarity值越大,说明用户的推荐列表内的物品之间总体平均相似度越高,也就是系统整体的个体多样性越低。
2)新颖性[4]。评估新颖性最简单的方法是计算推荐列表中物品的平均流行度:
整个系统的新颖性为:
2)覆盖率[6]。覆盖率测量的是推荐系统推荐给所有用户的物品数占总物品数的比例。
【参考文献】
[1] Sarwar B, G. Karypis, JKonstan,et al. Item-based Collaborative Filtering Recommendation Algorithms. In: Proceedings of the 10th International WWW Conference. New York:ACM,2001,285-295.
[2] Zanker M, Felfernig A, Friedrich G. Recommender systems: an introduction[M]. Cambridge:Cambridge University Press, 2011,124-142.
[3] 朱郁筱, 吕琳媛.推荐系统评价指标综述.电子科技大学学报,
2012, 41(2): 163-175.
[4] L.-T. Weng,Y. Xu, Y. Li et al. Improving recommendation novelty based on topic taxonomy. In: IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent Agent Technology. Washington: ACM, 2007, 115–118.
[5]C.Ziegler, S.M. McNee, J. A. Konstan et al. Improving recommendation lists through topic diversification. In: Proceedings of the 14th International Conference on World Wide Web. Chiba: ACM, 2005, 22-32.
[6] Ge M, Delgado-Battenfeld,Jannach D. Beyond accuracy: Evaluating recommender systems by coverage and serendipity. In:RecSys (2010): the 2010 ACM conference on Recommender systems. Barcelona:ACM,2010,257-260.
对推荐系统的研究一个重要的环节是如何评价一个推荐算法的好坏。关于推荐系统评价的研究很多,文献[1,2,3]在不同程度对评价方法进行了总结。评价方法分为离线评估,用户调查,在线评估。由于用户调查和在线评估代价要求高,目前大多数的研究采用的是离线测试。其中文献[3]总结了离线评价中用到的指标,包括准确度指标、基于排序加权的指标、覆盖率、多样性和新颖性等。本文的研究工作采用了几种离线评估指标。将其归纳为准确性指标和非准确性指标。下面分别给予简单介绍。
为了方便描述评价指标,下表对后面会用到的符号进行简单说明。
1 准确性指标
准确性指标是推荐系统中最重要的指标。最常使用的准确性指标包括准确率和召回率。1)准确率[3]。推荐列表中用户喜欢的物品所占的比例。针对单个用户u的推荐准确率:
整个系统的准确率为:
2)召回率[3]。测试集中有多少用户喜欢的物品出现在推荐列表中。针对单个用户u的推荐召回率:
整个系统的召回率为:
2 非准确性指标
推荐系统中,除了推荐准确性外,还有其他一些重要的指标。包括推荐的多样性、新颖性、惊喜度和覆盖率等等。本文将这些指标统称为非准确性指标。其中非准确性指标又可以分为用户级非准确性指标和系统级非准确性指标。2.1.用户级非准确性指标
1)个体多样性。用户的推荐列表列内的所有物品的平均相似度[2]:其中similarity(i,j)可以本博主的另一篇博文《推荐系统中的相似度计算方法总结》介绍的相似度计算方法来计算。求系统中所有用户的推荐列表列内的所有物品的平均相似度的平均值得到整体(推荐列表)列内相似度:
IntraSimilarity值越大,说明用户的推荐列表内的物品之间总体平均相似度越高,也就是系统整体的个体多样性越低。
2)新颖性[4]。评估新颖性最简单的方法是计算推荐列表中物品的平均流行度:
整个系统的新颖性为:
2.2.系统级的非准确性指标
1)整体多样性[5]。采用推荐列表间的相似度,也就是用户的推荐列表间的重叠度来定义整体多样性。2)覆盖率[6]。覆盖率测量的是推荐系统推荐给所有用户的物品数占总物品数的比例。
【参考文献】
[1] Sarwar B, G. Karypis, JKonstan,et al. Item-based Collaborative Filtering Recommendation Algorithms. In: Proceedings of the 10th International WWW Conference. New York:ACM,2001,285-295.
[2] Zanker M, Felfernig A, Friedrich G. Recommender systems: an introduction[M]. Cambridge:Cambridge University Press, 2011,124-142.
[3] 朱郁筱, 吕琳媛.推荐系统评价指标综述.电子科技大学学报,
2012, 41(2): 163-175.
[4] L.-T. Weng,Y. Xu, Y. Li et al. Improving recommendation novelty based on topic taxonomy. In: IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent Agent Technology. Washington: ACM, 2007, 115–118.
[5]C.Ziegler, S.M. McNee, J. A. Konstan et al. Improving recommendation lists through topic diversification. In: Proceedings of the 14th International Conference on World Wide Web. Chiba: ACM, 2005, 22-32.
[6] Ge M, Delgado-Battenfeld,Jannach D. Beyond accuracy: Evaluating recommender systems by coverage and serendipity. In:RecSys (2010): the 2010 ACM conference on Recommender systems. Barcelona:ACM,2010,257-260.
相关文章推荐
- 自动释放池简单原理
- MyBatis嵌套查询column传多个参数描述
- 第三百九十一、二、三、四、五、六、七天 how can I 坚持
- “南通大学教务管理系统微信公众号” 用户体验分析
- Leetcode - Isomorphic Strings
- FFMPEG
- C#连接数据库的方法
- 模拟BootStrap的弹框功能
- 数据库建表时字段长度
- 19.Remove Nth Node From End of List(7.54%)
- 环信sdk与支付宝的冲突
- 【arduino】通过Esp8266-01模块实现的WiFi通信(3)使用TCP协议进行局域网通信(client篇)
- LeetCode---PowerOfTwo、PowerOfThree、 PowerOfFour解题分析
- 对MobSF的源码进行分析
- 百马百石
- for迭代求折纸超过珠峰高度
- Spark ZooKeeper数据恢复
- Java中的private、protected、public和default的区别
- [POJ1155]TELE(树形dp)
- android--线程池