电影数据集总结:Netflix、MovieLens、LDOS-CoMoDa、AdomMovie
2015-03-10 18:49
1501 查看
数据集:
1.Netflix描述:包含Netflix上48万多个随机选取的匿名用户,对于1万7千多部电影的1兆多个电影评分
时间:1988.10~2005.11
内容:
包括training set,movie titles,probe set,qualifying set等文件。
Trainning set包含4个特征值:电影ID、用户ID、评分(1~5)、日期;
Movie titles包含3个特征值:电影ID、上映年份、电影标题;
Probe set用于测试,包含2个特征值;电影ID、用户ID。
引用的论文:
[1].pdf]Matrix factorization techniques for recommender systems.2009
[2]Modeling relationships at multiple scales to improve accuracy of large recommender systems.2007
[3]Factorization meets the neighborhood a multifaceted collaborative filtering model
2.MovieLens
描述:按大小分成3部分
100k:943个用户对于1682电影的100,000个评分;每个用户至少评级20部电影;包含用户的人口统计信息(年龄,性别,职业,邮编)
时间:1997.9.19~1998.4.22
包含u.data、u.info、u.item、u.genre、u.user、u.occupation几个文件
U.data: 用户id 、项目 id 、 评分、 时间戳
U.info: 用户数量、项目数量、评分数量
U.item: 电影id、电影标题、上映日期、光碟上映日期、IMDb URL、流派
U.genre: 流派
U.user: 用户id、年龄、性别、职位、邮编
1M: 6,040个用户对于3,900部电影的1,000,209个评分
时间:2000年
包含ratings.dat、users.dat、movies.dat
Ratings.dat: 用户id、电影id、评分(1~5)、时间标签
Users.dat: 性别、年龄、职位、邮编
Movies.dat: 电影id、标题、流派
100M:71567个用户对于10681部电影的10000054个评分
包含 movies.dat, ratings.dat 和 tags.dat.
Tags.dat:用户id、电影id、标签(tag)、时间戳
3.LDOS-CoMoDa
(1)基本情况
(2)统计情况:
用户年龄段大多数集中在16至35岁之间;
大多数电影得到2至3个评分;
文件每一行结构如下:
UserID,itemID,rating,age,sex,city,country,time,daytype,season,location,weather,social,endEmo,dominantEmo,mood,physical,desicion,interaction,director,
movieCountry,movieLanguage,movieYear,genre1,genre2,genre3,actor1,actor2,actor3,budget
来源:http://212.235.187.145/spletnastran/raziskave/um/comoda/comoda.php
每列的数值范围:
LDOS - CoMoDa dataset_____________________
Data fields:versionDate: date of the dataset versionuserID (15 - 200, some missing)itemID (1 -4138, some missing)rating (1-5)user's ageuser's sex (1=male, 2= female)user's cityuser's countrytime (1-4)daytype (1-3)season (1-4)location (1-3) weather (1-5)social (1-7)
endEmo(1-7)dominantEmo (1-7) mood (1-3) physical (1-2) decision (1-2) interaction (1-2)movie directormovie's countrymovie's languagemovie's yeargenre1genre2genre3actor1actor2actor3movie's budget
上下文属性:_______________________
Context variables:time : Morning, Afternoon, Evening, Nightdaytype : Working day, Weekend, Holidayseason : Spring, Summer, Autumn, Winterlocation : Home, Public place, Friend's houseweather : Sunny / clear, Rainy, Stormy, Snowy, Cloudysocial : Alone, My partner, Friends, Colleagues, Parents, Public, My familyendEmo : Sad, Happy, Scared, Surprised, Angry, Disgusted, NeutraldominantEmo : Sad, Happy, Scared, Surprised, Angry, Disgusted, Neutral
mood : Positive, Neutral, Negativephysical : Healthy, Ill decision : User decided which movie to watch, User was given a movieinteraction : first interaction with a movie, n-th interaction with a movie Context values in the database corespond to this order.(for example: daytype-> 1 = Working day, 2 = Weekend, 3 = Holiday
_______________________
Missing value:-1
4.AdomMovie
相关文章推荐
- 数据挖掘-MovieLens数据集_电影推荐_亲和性分析_Aprioro算法
- 《Spark机器学习》笔记——基于MovieLens数据集使用Spark进行电影数据分析
- 数据挖掘-matlab实现基于MovieLens数据集的协同过滤电影推荐系统
- 《Spark机器学习》笔记——基于MovieLens数据集使用SparkMLib机器学习库构建电影推荐引擎
- 数据挖掘-MovieLens数据集_电影推荐_亲和性分析_Aprioro算法
- Spark中组件Mllib的学习11之使用ALS对movieLens中一百万条(1M)数据集进行训练,并对输入的新用户数据进行电影推荐
- [zz]QuickTime电影(Movie)
- 伯伯2010年终总结 [ 程序 | 电影 | 书籍 | 游玩 ... ]
- QuickTime电影(Movie)文件格式
- 静态分析实验数据集总结[1]
- Windows Movie Maker 无法将电影保存到指定位置
- 伯伯2008年终总结[ 旅游 | 电影 | 文章 | C# | Javascript | CSS ]
- ASP.NET MVC3 快速入门-第七节 在Movie(电影)模型与数据表中添加一个字段
- flash actionscript MovieClip(电影剪辑)控制
- ArcEngine中数据集创建、保存方法总结
- The two different ending of the movie butterfly effect----电影蝴蝶效应的两个不同结局
- DataAdapter数据集DataSet和数据库的同步(5):总结
- 关于IMDB,-------Internet Movie Database(互联网电影数据库)
- The dialogues of classic movie-经典电影对白
- 伯伯2008年终总结[ 旅游 | 电影 | 文章 | C# | Javascript | CSS ]