您的位置：首页 > 其它

推荐系统~~~噪声用户（未完待续）

2012-12-29 20:30 232 查看

最初的时候，只是单纯的认为恶意评分的用户才是推荐系统中要主要检测出的，忽略了其实有些噪声用户，胡乱评分的用户也对推荐系统影响推荐准确度。这段时间，自己没事瞎琢磨的，论文方向选择的是关于推荐系统中托攻击检测的研究，推荐系统方面也看过几篇论文，不过，对于“托”攻击检测则不是很多。“托攻击”顾名思义就是一些虚假的用户，类似生活中“托儿”。在日益激烈的电子商务网站的竞争中，推荐系统给网站带来了较大的利益，但是一些不法商家利用推荐系统算法的漏洞，采用批量注入一些虚假用户，这些用户的评分跟正常用户的评分相似，因而在计算用户相似度的时候，很容易进入用户的近邻圈中，由于虚假用户对目标项目采取评高分（“推攻击”）或者低分（“核攻击”），因为正常用户对目标项目的推荐评分将发生偏差，检测出这些虚假用户对推荐系统来讲很重要，保持良好的电子商务竞争环境。

检测手段也很多，从06年的KDD CUP论文到现在已经有好多论文提出方法来检测攻击。

从动机上来说，生产商为了使自己生产的商品能够畅销，总是希望推荐系统能够频繁推荐自己的商品，而减少或不推荐竞争对手的产品。某些不良生产商为了达到这个目的，不是想办法提高自己产品的质量，而是采取欺骗手法来提高推荐系统推荐自己产品的频率。

由于推荐系统是基于相似用户或相似商品来产生推荐列表的，同时它也是一个需要用户参与的开放系统，恶意用户可以把自己编造的用户概貌输入到推荐系统的概貌集中，那么在推荐的时候就很可能把这些编造用户当作相似用户，然后把编造用户的偏好当作目标用户的偏好。

一个攻击概貌是个m维的向量，其中m是推荐系统的项目数。把一个概貌分成三个部分:装填项目部分、未评分项目部分和目标项目部分。未评分项目是指不填评分值的项目。设推荐系统的最高评分值是Rmax，最低评分值是Rmin，则目标项评分预定值Rm在推攻击时为最高分Rmax，而核攻击时为最低分Rmin。

未完待续-----

这里贴出一位博主写的简单基于用户近邻的协同过滤算法，测试了一下，可以更清楚的了解具体细节：

from operator import itemgetter, attrgetter  
from math import sqrt  
  
  
def load_data():  
      
    filename_user_movie = 'uccc.data'  
    filename_movieInfo = 'u.item'  
  
  
    user_movie = {}  
    for line in open(filename_user_movie):  
        (userId, itemId, rating, timestamp) = line.strip().split('\t')  
        user_movie.setdefault(userId,{})  
        user_movie[userId][itemId] = float(rating)  
          
    movies = {}  
    for line in open(filename_movieInfo):  
        (movieId, movieTitle) = line.split('|')[0:2]  
        movies[movieId] = movieTitle  
      
    return user_movie, movies  
  
  
def average_rating(user):  
    average = 0  
    for u in user_movie[user].keys():   
        average += user_movie[user][u]  
    average = average * 1.0 / len(user_movie[user].keys())  
    return average  
  
  
def calUserSim(user_movie):  
  
  
    # build inverse table for movie_user  
    movie_user = {}  
    for ukey in user_movie.keys():  
        for mkey in user_movie[ukey].keys():  
            if mkey not in movie_user:  
                movie_user[mkey] = []  
            movie_user[mkey].append(ukey)  
  
  
    # calculated co-rated movies between users  
    C = {}  
    for movie, users in movie_user.items():  
        for u in users:  
            C.setdefault(u,{})  
            for n in users:  
                if u == n:  
                    continue  
                C[u].setdefault(n,[])  
                C[u]
.append(movie)  
            
    
  
    # calculate user similarity (perason correlation)  
    userSim = {}  
    for u in C.keys():  
          
        for n in C[u].keys():  
              
            userSim.setdefault(u,{})  
            userSim[u].setdefault(n,0)  
          
            average_u_rate = average_rating(u)  
            average_n_rate = average_rating(n)  
              
            part1 = 0  
            part2 = 0  
            part3 = 0  
            for m in C[u]
:  
  
  
                part1 += (user_movie[u][m]-average_u_rate)*(user_movie
[m]-average_n_rate)*1.0  
                part2 += pow(user_movie[u][m]-average_u_rate, 2)*1.0  
                part3 += pow(user_movie
[m]-average_n_rate, 2)*1.0  
                  
            part2 = sqrt(part2)  
            part3 = sqrt(part3)  
            if part2 == 0:  
                part2 = 0.001  
            if part3 == 0:  
                part3 = 0.001   
            userSim[u]
 = part1 / (part2 * part3)     
    return  userSim 
  
def getRecommendations(user, user_movie, movies, userSim, N):  
    pred = {}  
    interacted_items = user_movie[user].keys()  
    average_u_rate = average_rating(user)  
    sumUserSim = 0  
    for n, nuw in sorted(userSim[user].items(),key=itemgetter(1),reverse=True)[0:N]:  
        average_n_rate = average_rating(n)  
        for i, nrating in user_movie
.items():  
            # filter movies user interacted before  
            if i in interacted_items:  
                continue  
            pred.setdefault(i,0)  
            pred[i] += nuw * (nrating - average_n_rate)  
        sumUserSim += nuw  
  
  
    for i, rating in pred.items():  
        pred[i] = average_u_rate + (pred[i]*1.0) / sumUserSim  
          
    # top-10 pred  
    pred = sorted(pred.items(), key=itemgetter(1), reverse=True)[0:20]  
    return pred    
  
  
if __name__ == "__main__":  
  
    
  
  
    # load data  
    user_movie, movies = load_data()  
      
         
    # Calculate user similarity  
    userSim = calUserSim(user_movie)
    
    
  
  
    # Recommend  
    pred = getRecommendations('1', user_movie, movies, userSim, 20)  
  
  
    # display recommend result (top-10 results)  
    for i, rating in pred:  
       print 'film: %s,  rating: %s' % (movies[i], rating)

希望对攻击检测感兴趣的朋友可以联系我，大家一起学习嘛，呵呵，我也是菜鸟，虚心求教~Q：349721489

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航