Pearson相关系数与推荐系统
2009-11-19 10:42
232 查看
Pearson相关系数用来衡量两个数据集合之间的相似性。比如在一个关于电影的资料网站中,很多用户都可能对其中的电影进行打分。Pearson相关系数可以用来帮助更好的找到兴趣相似的用户,从而进行相关的推荐。这种推荐的基本思路是如果A和B兴趣相似,那么A喜欢看的,B就有很大可能会喜欢看,就可以把A的喜欢看的推荐给B。
假设电影库中5部电影,A和B都对其中的部分进行了打分(5分为满分),A的分数是[3, 2, -, 1, 4],B的分数是[5, 3, 3, -, 5],其中“-”表示未打分。那么A和B的Pearson相关系数是0.866,说明两个人的兴趣是比较相似的。
Pearson相关系数的一个优点是可以避免评分等级膨胀(grade inflation)的问题,也就是说有的用户可能倾向于对所有的电影都给比较高的分数,而有的用户则会比较苛刻,给分都比较低。对于这种情况,Pearson相关系数可以处理。
Pearson相关系数的具体计算公式为:
一个简单的例子:
X是[1, 2, 3],Y是[2, 5, 6],结果是0.9608。
假设电影库中5部电影,A和B都对其中的部分进行了打分(5分为满分),A的分数是[3, 2, -, 1, 4],B的分数是[5, 3, 3, -, 5],其中“-”表示未打分。那么A和B的Pearson相关系数是0.866,说明两个人的兴趣是比较相似的。
Pearson相关系数的一个优点是可以避免评分等级膨胀(grade inflation)的问题,也就是说有的用户可能倾向于对所有的电影都给比较高的分数,而有的用户则会比较苛刻,给分都比较低。对于这种情况,Pearson相关系数可以处理。
Pearson相关系数的具体计算公式为:
一个简单的例子:
X是[1, 2, 3],Y是[2, 5, 6],结果是0.9608。
相关文章推荐
- 利用 Runtime 监控 Java 系统资源 推荐
- windows server2008破解密码不用系统光盘 推荐
- 推荐系统工作总结-简介篇
- Linux 系统故障分析与排查 推荐
- 虚拟机XP系统---扩展磁盘空间 推荐
- 推荐系统:技术、评估及高效算法 第7章
- <六>、Hadoop Web项目--网上商城推荐系统
- 推荐系统概述1
- [推荐系统]个性化推荐的十大挑战
- 推荐系统实战(一)
- 智能布线系统,“智”在何方 推荐
- 推荐系统之UserCF2:用户对商品的感兴趣程度
- 推荐系统——协同过滤学习
- GPFS通用并行文件系统之python自动部署gpfs集群 推荐
- SCOM 2007 R2监控系统安装部署(一)SCOM简介及安装SQL Server 2008 R2 数据库 推荐
- 推荐系统的循序进阶读物(从入门到精通)
- SVD在推荐系统中的应用
- 推荐系统之矩阵分解
- 推荐个.Net的论坛系统 - Discuz!NT
- 华硕搭建Exchange2007企业邮箱系统方案 推荐