《利用Python进行数据分析》笔记---第2章--MovieLens 1M数据集
2017-08-01 10:14
239 查看
写在前面的话:
实例中的所有数据都是在GitHub上下载的,打包下载即可。地址是:http://github.com/pydata/pydata-book
还有一定要说明的:
我使用的是Python2.7,书中的代码有一些有错误,我使用自己的2.7版本调通。# coding: utf-8 import pandas as pd unames = ['user_id','gender','age','occupation','zip'] users = pd.read_table('D:\Source Code\pydata-book-master\ch02\movielens\users.dat', sep='::', header=None, names=unames) rnmaes = ['user_id','movie_id','rating','timestamp'] ratings = pd.read_table('D:\Source Code\pydata-book-master\ch02\movielens\\ratings.dat', sep='::', header=None, names=rnmaes) mnames = ['movie_id','title','genres'] movies = pd.read_table('D:\Source Code\pydata-book-master\ch02\movielens\movies.dat', sep='::', header=None, names=mnames) users[:5] ratings[:5] movies[:5] ratings data = pd.merge(pd.merge(ratings, users), movies) data.ix[0] mean_rating = data.pivot_table('rating', index='title', columns='gender', aggfunc='mean') mean_rating[:5] ratings_by_title = data.groupby('title').size() ratings_by_title[:10] active_titles = ratings_by_title.index[ratings_by_title >= 250] active_titles mean_rating = mean_rating.ix[active_titles] mean_rating top_female_rating = mean_rating.sort_index(by='F', ascending=False) top_female_rating[:10] mean_rating['diff'] = mean_rating['M'] - mean_rating['F'] sorted_by_diff = mean_rating.sort_index(by='diff') sorted_by_diff[:15] sorted_by_diff[::-1][:15] ratings_std_by_title = data.groupby('title')['rating'].std() ratings_std_by_title = ratings_by_title.ix[active_titles] ratings_std_by_title.order(ascending=False)[:10] ratings_std_by_title
相关文章推荐
- 《利用Python进行数据分析》笔记---第2章--来自bit.ly的1.usa.gov数据
- 浪潮优派培训Java笔记:第2章 数据类型
- 《利用Python进行数据分析》第9章 groupby技术和数据聚合笔记
- 第2章-1 利用Python进行数据分 学习笔记
- 高性能JavaScript 笔记之 第2章 数据访问
- Spark中组件Mllib的学习11之使用ALS对movieLens中一百万条(1M)数据集进行训练,并对输入的新用户数据进行电影推荐
- Java笔记:第2章 数据类型
- 利用Python进行数据分析---ch02《MovieLens 1M数据集(下)》读书笔记
- 基于深度学习的推荐算法实现(以MovieLens 1M数据 为例)
- SQL Server 2005数据挖掘与商业智能完全解决方案_笔记-第2章 构建简单的BI应用:福马特商业
- 《利用Python进行数据分析》笔记---第6章数据加载、存储与文件格式
- 利用python进入数据分析之MovieLens_1M数据分析
- 《php和mysql web开发》笔记——第2章数据的存储与检索
- MovieLens 1M之python数据分析练习
- 《利用Python进行数据分析》笔记---第2章--1880-2010年间全美婴儿姓名
- Python进行数据分析(二)MovieLens 1M 数据集
- 用pandas处理MovieLens 1m 数据集
- 《利用Python进行数据分析》笔记---第7章数据规整化:清理、转换、合并、重塑
- 《利用Python进行数据分析》笔记---第9章数据聚合与分组运算
- 《Spark机器学习》笔记——基于MovieLens数据集使用Spark进行电影数据分析