推荐系统~~~噪声用户(未完待续)
2012-12-29 20:30
232 查看
最初的时候,只是单纯的认为恶意评分的用户才是推荐系统中要主要检测出的,忽略了其实有些噪声用户,胡乱评分的用户也对推荐系统影响推荐准确度。 这段时间,自己没事瞎琢磨的,论文方向选择的是关于推荐系统中托攻击检测的研究,推荐系统方面也看过几篇论文,不过,对于“托”攻击检测则不是很多。“托攻击”顾名思义就是一些虚假的用户,类似生活中“托儿”。在日益激烈的电子商务网站的竞争中,推荐系统给网站带来了较大的利益,但是一些不法商家利用推荐系统算法的漏洞,采用批量注入一些虚假用户,这些用户的评分跟正常用户的评分相似,因而在计算用户相似度的时候,很容易进入用户的近邻圈中,由于虚假用户对目标项目采取评高分(“推攻击”)或者低分(“核攻击”),因为正常用户对目标项目的推荐评分将发生偏差,检测出这些虚假用户对推荐系统来讲很重要,保持良好的电子商务竞争环境。
检测手段也很多,从06年的KDD CUP论文到现在已经有好多论文提出方法来检测攻击。
从动机上来说,生产商为了使自己生产的商品能够畅销,总是希望推荐系统能够频繁推荐自己的商品,而减少或不推荐竞争对手的产品。某些不良生产商为了达到这个目的,不是想办法提高自己产品的质量,而是采取欺骗手法来提高推荐系统推荐自己产品的频率。
由于推荐系统是基于相似用户或相似商品来产生推荐列表的,同时它也是一个需要用户参与的开放系统,恶意用户可以把自己编造的用户概貌输入到推荐系统的概貌集中,那么在推荐的时候就很可能把这些编造用户当作相似用户,然后把编造用户的偏好当作目标用户的偏好 。
一个攻击概貌是个m维的向量,其中m是推荐系统的项目数。把一个概貌分成三个部分:装填项目部分、未评分项目部分和目标项目部分。未评分项目是指不填评分值的项目。设推荐系统的最高评分值是Rmax,最低评分值是Rmin,则目标项评分预定值Rm在推攻击时为最高分Rmax,而核攻击时为最低分Rmin。
未完待续-----
这里贴出一位博主写的简单基于用户近邻的协同过滤算法,测试了一下,可以更清楚的了解具体细节:
希望对攻击检测感兴趣的朋友可以联系我,大家一起学习嘛,呵呵,我也是菜鸟,虚心求教~Q:349721489
检测手段也很多,从06年的KDD CUP论文到现在已经有好多论文提出方法来检测攻击。
从动机上来说,生产商为了使自己生产的商品能够畅销,总是希望推荐系统能够频繁推荐自己的商品,而减少或不推荐竞争对手的产品。某些不良生产商为了达到这个目的,不是想办法提高自己产品的质量,而是采取欺骗手法来提高推荐系统推荐自己产品的频率。
由于推荐系统是基于相似用户或相似商品来产生推荐列表的,同时它也是一个需要用户参与的开放系统,恶意用户可以把自己编造的用户概貌输入到推荐系统的概貌集中,那么在推荐的时候就很可能把这些编造用户当作相似用户,然后把编造用户的偏好当作目标用户的偏好 。
一个攻击概貌是个m维的向量,其中m是推荐系统的项目数。把一个概貌分成三个部分:装填项目部分、未评分项目部分和目标项目部分。未评分项目是指不填评分值的项目。设推荐系统的最高评分值是Rmax,最低评分值是Rmin,则目标项评分预定值Rm在推攻击时为最高分Rmax,而核攻击时为最低分Rmin。
未完待续-----
这里贴出一位博主写的简单基于用户近邻的协同过滤算法,测试了一下,可以更清楚的了解具体细节:
from operator import itemgetter, attrgetter from math import sqrt def load_data(): filename_user_movie = 'uccc.data' filename_movieInfo = 'u.item' user_movie = {} for line in open(filename_user_movie): (userId, itemId, rating, timestamp) = line.strip().split('\t') user_movie.setdefault(userId,{}) user_movie[userId][itemId] = float(rating) movies = {} for line in open(filename_movieInfo): (movieId, movieTitle) = line.split('|')[0:2] movies[movieId] = movieTitle return user_movie, movies def average_rating(user): average = 0 for u in user_movie[user].keys(): average += user_movie[user][u] average = average * 1.0 / len(user_movie[user].keys()) return average def calUserSim(user_movie): # build inverse table for movie_user movie_user = {} for ukey in user_movie.keys(): for mkey in user_movie[ukey].keys(): if mkey not in movie_user: movie_user[mkey] = [] movie_user[mkey].append(ukey) # calculated co-rated movies between users C = {} for movie, users in movie_user.items(): for u in users: C.setdefault(u,{}) for n in users: if u == n: continue C[u].setdefault(n,[]) C[u] .append(movie) # calculate user similarity (perason correlation) userSim = {} for u in C.keys(): for n in C[u].keys(): userSim.setdefault(u,{}) userSim[u].setdefault(n,0) average_u_rate = average_rating(u) average_n_rate = average_rating(n) part1 = 0 part2 = 0 part3 = 0 for m in C[u] : part1 += (user_movie[u][m]-average_u_rate)*(user_movie [m]-average_n_rate)*1.0 part2 += pow(user_movie[u][m]-average_u_rate, 2)*1.0 part3 += pow(user_movie [m]-average_n_rate, 2)*1.0 part2 = sqrt(part2) part3 = sqrt(part3) if part2 == 0: part2 = 0.001 if part3 == 0: part3 = 0.001 userSim[u] = part1 / (part2 * part3) return userSim def getRecommendations(user, user_movie, movies, userSim, N): pred = {} interacted_items = user_movie[user].keys() average_u_rate = average_rating(user) sumUserSim = 0 for n, nuw in sorted(userSim[user].items(),key=itemgetter(1),reverse=True)[0:N]: average_n_rate = average_rating(n) for i, nrating in user_movie .items(): # filter movies user interacted before if i in interacted_items: continue pred.setdefault(i,0) pred[i] += nuw * (nrating - average_n_rate) sumUserSim += nuw for i, rating in pred.items(): pred[i] = average_u_rate + (pred[i]*1.0) / sumUserSim # top-10 pred pred = sorted(pred.items(), key=itemgetter(1), reverse=True)[0:20] return pred if __name__ == "__main__": # load data user_movie, movies = load_data() # Calculate user similarity userSim = calUserSim(user_movie) # Recommend pred = getRecommendations('1', user_movie, movies, userSim, 20) # display recommend result (top-10 results) for i, rating in pred: print 'film: %s, rating: %s' % (movies[i], rating)
希望对攻击检测感兴趣的朋友可以联系我,大家一起学习嘛,呵呵,我也是菜鸟,虚心求教~Q:349721489
相关文章推荐
- 推荐系统--用户行为和实验设计
- 数据挖掘:用户推荐系统技术深度揭秘
- Libimseti的用户推荐系统
- 实战智能推荐系统(6)-- 用户行为分析
- 实战智能推荐系统(6)-- 用户行为分析
- 实战智能推荐系统(7)-- 基于用户的协同过滤算法
- Linux系统安全——用户账户技巧 推荐
- 推荐系统之基于用户的协调过滤
- 《推荐系统》基于标签的用户推荐系统
- 推荐系统 ---用户兴趣向量计算一
- Linux系统下的用户磁盘配额 推荐
- Hadoop 2.6 使用MapReduce实现基于用户的推荐系统
- 推荐系统那点事 —— 什么是用户画像?
- 5类系统推荐算法,告诉你用户需要什么
- 推荐系统那点事 —— 什么是用户画像?
- 蛙蛙推荐:偶做的用户管理系统
- 推荐系统:基于用户和基于物品的协同过滤算法的比较
- 基于物品的协作性过滤推荐系统(为用户推荐影片)
- 【RS】CoupledCF:在推荐系统深度协作过滤中学习显式和隐式的用户物品耦合
- 推荐系统实践-利用用户行为数据