您的位置:首页 > 其它

基于物品的协同过滤(item-based collaborative filtering)

2016-12-11 22:09 525 查看
姓名:wagsyang

日期:星期四, 08. 十二月 2016 08:26下午

简介

本书是集体智慧编程一书的学习笔记。


之前我们已经完成了基于用户的协同过滤的推荐算法,它的思想是将所有的用户和自己对比,显然对于小数据集还是可以忍受的,但是对于大量或巨量的用户数据集,这种实时进行相似度计算即耗时又耗力。

有没有更好的计算方法呢?有,就是我们不再基于用户,我们基于物品。基于用户的时候,来了一个人,就同剩下的全部人比较,实时运算伤不起。基于物品的时候,来了一个人,我们就看他最近看过什么或买过什么(物品),我们计算该物品同剩下的其它全部物品进行相似度比较,找出相似度高的推荐给他。

这里你又会说,这不是一样要实时运算吗。其实不然,我们可以提前就计算好每个物品和它相似度高的物品,仓库里的每个物品都这样算一遍,把结果存储起来。来了个人的时候,我们根据它买过看过的物品,在存储的数据里调用这些买过看过物品相似度高的物品(已经计算过)推荐给他就好了。这样不就好了。

数据集和相似度准则

同基于用户的协同过滤

#基于物品的推荐
critics={\
'Lisa Rose':{'lady in water':2.5,'snakes on a plane':3.5,'just my luck':3.0,'superman returns':3.5,'you,me and dupree':2.5,'the night listener':3.0},
'Gene Seymour':{'lady in water':3.0,'snakes on a plane':3.5,'just my luck':1.5,'superman returns':5.0,'you,me and dupree':3.5,'the night listener':3.0},
'Michael Phillips':{'lady in water':2.5,'snakes on a plane':3.0,'superman returns':
4000
3.5,'the night listener':4.0},
'Claudia Puig':{'snakes on a plane':3.5,'just my luck':3.0,'superman returns':4.0,'the night listener':4.5},
'Mick Lasalle':{'lady in water':3.0,'snakes on a plane':4.0,'just my luck':2.0,'superman returns':3.0,'you,me and dupree':2.0,'the night listener':3.0},
'Jack Matthews':{'lady in water':3.0,'snakes on a plane':4.0,'superman returns':5.0,'you,me and dupree':3.5,'the night listener':3.0},
'Toby':{'snakes on a plane':4.5,'superman returns':4.0,'you,me and dupree':1.0}}
from math import sqrt
#欧几里德距离
def sim_distance(prefs,p1,p2):
si={}
# find common items
for item in prefs[p1]:
if item in prefs[p2]:  si[item]=1
if len(si)==0:  return 0
#cal the distance
sum_of_sqr=sum([pow(prefs[p1][item]-prefs[p2][item],2) for item in si])
return 1/(1+sqrt(sum_of_sqr))
#皮尔逊相关度
def sim_pearson(prefs,p1,p2):
si={}
for item in prefs[p1]:
if item in prefs[p2]: si[item]=1
if len(si)==0: return 0
sum1=sum([prefs[p1][item] for item in si])
sum2=sum([prefs[p2][item] for item in si])
sum1sq=sum([pow(prefs[p1][item],2) for item in si])
sum2sq=sum([pow(prefs[p2][item],2) for item in si])
psum=sum([prefs[p1][item]*prefs[p2][item] for item in si])
num=psum-sum1*sum2/len(si)
den=sqrt((sum1sq-pow(sum1,2)/len(si))*(sum2sq-pow(sum2, 2)/len(si)))
if den==0:
return 0
return num/den


基于用户——>基于物品

可以代码复用,只需要将人和物品对调即可。

#物品与人员互相调换
def transformprefs(prefs):
result={}
for person in prefs:
for item in prefs[person]:
result.setdefault(item,{})
# 人、物对调
result[item][person]=prefs[person][item]
return result

#最相关的N个person,这里仅仅是函数定义,实际传入参数为物品
def topmatchs(prefs,person,n=5,similarity=sim_pearson):
scores=[(similarity(prefs,person,other),other) for other in prefs if other!=person]
scores.sort(reverse=True)
return scores[0:n]

#构建物品比较数据集合,即,每个item有n个最相关的其它item
def calculatesimilaryitems(prefs,n=10):
itemsim={}
itemprefs=transformprefs(prefs)
c=0
for item in itemprefs:
c+=1.0
if c%100==0:print('%d/%d' %(c,len(itemprefs)))
scores=topmatchs(itemprefs,item,n=n,similarity=sim_pearson)
itemsim[item]=scores
return itemsim


获得推荐

以上部分可以单独提前运行,并存储结果。现在来了一个用户,它有若干买过或看过的物品,我们调用存储的数据库,找到与他买过看过的物品有很高相关度的物品。

例如:我们看过Snake,Superman,Dupree,并有我们给的评分。基于我们看过的这三个电影,查找存储数据库,找到与每个电影(Snake,Superman,Dupree)的相似度高的其它所有或部分排名靠前的相关电影,这里是Night,Lady,Luck。

影片评分NightR.xNightLadyR.xLadyLuckR.xLuck
Snakes4.50.1820.8180.2220.9990.1050.474
Superman4.00.1030.4120.0910.3630.0650.258
Dupree1.00.1480.1480.40.40.1820.182
Total1.3781.7620.941
Sim.sum0.4330.7130.352
Total/Sim.Sum3.1832.4732.598
然后,TotalSim.Sum=∑i=1n相似度i∗电影评分i∑相似度i=电影推荐评分(1)

#来了个新用户,获得推荐
def getrecommendations(prefs,itemsim,user):
totalsim={}
simsum={}
for item,ratio in prefs[user].items():
for similarity,item2 in itemsim[item]:
if item2 in prefs[user]: continue
totalsim.setdefault(item2,0)
totalsim[item2]+=similarity*ratio
simsum.setdefault(item2,0)
simsum[item2]+=similarity
rankings=[(total/simsum[item],item) for item ,total in totalsim.items()]
rankings.sort(reverse=True)
return rankings


总结

一个电影根据相似度准则>这个电影的相关电影及其相关度该网站中的每个电影>每个电影的相关电影及其相关度异步计算存储>电影相关性数据库

我&我看过的电影查找数据库>得到相关电影及其相关度按公式(1)排名>推荐排名第一的电影
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐