您的位置:首页 > 其它

用户相似度衡量

2016-04-12 21:40 183 查看
  在机器学习中,通常会碰到相似度衡量的问题,而且广泛用于数据挖掘的分类和聚类中,描述个体之间的差异大小的方式有很多,这篇博客总结的比较全面:http://blog.csdn.net/sp_programmer/article/details/40889103

  

  然而具体到衡量用户相似度的问题的时候,不一定所有的衡量距离的方法效果都好。

  

  目前主要有三种度量用户间相似性的方法,分别是:余弦相似性、相关相似性以及修正的余弦相似性。

  ①余弦相似性(Cosine):用户一项目评分矩阵可以看作是n维空间上的向量,对于没有评分的项目将评分值设为0,余弦相似性度量方法是通过计算向量间的余弦夹角来度量用户间相似性的。设向量i和j分别表示用户i和用户j在n维空间上的评分,则用基于协同过滤的电子商务个性化推荐算法研究户i和用户j之间的相似性为:

  ②修正的余弦相似性 (AdjustedCosine):余弦相似度未考虑到用户评分尺度问题,如在评分区间[1一5]的情况下,对用户甲来说评分3以上就是自己喜欢的,而对于用户乙,评分4以上才是自己喜欢的。通过减去用户对项的平均评分,修正的余弦相似性度量方法改善了以上问题。用几表示用户i和用户j共同评分过的项集合,Ii和寿分别表示用户i和用户j评分过的项集合,则用户i和用户j之间的相似性为:

  ③相关相似性(Correlation)此方法是采用皮尔森(Pearson)相关系数来进行度量。

  摘自知乎:https://www.zhihu.com/question/21824291/answer/20537560

  除了上述的方法,根据文献资料来看,spearman秩相关系数或者均方差也能用于计算用户间的接近程度。

  然而实验结果分析,对于基于用户的推荐系统,pearson相关系数对比其他的方法更胜一筹。不过后来发现的基于物品的推荐技术,余弦相似度比pearson相关系数表现更好(摘自《推荐系统》)。

  

  
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: