机器学习--第八讲--项目:预测桌游评论
2016-10-28 00:00
316 查看
1.桌游评论
最近,桌游又卷土重来,更深入的是,越来越多的战略桌游,比如Settlers of Catan,受到了巨大的欢迎。一个受欢迎的网站BoardGameGeek对这些类型的桌游进行了讨论和评述。
在这个项目中,你将会研究一个包含80000个桌游和他们相关的反馈分数。这组数据是 Sean Beck通过BoardGameGeek网站抓取的,并编译成CSV 形式。数据集被保存为board_games.csv,可以在这里here.下载。
如果你在任何地方遇到问题,可以到我们的解决问题板块here来咨询。
这里是数据集的前5行信息:
每一行代表了一种桌游,并且带有桌游的描述统计信息,连同反馈信息。这里有一些有趣的列名:
name--桌游的名字
playingtime-玩游戏时间(由制造商提供)
minplaytime--玩游戏的最少时间(由制造商提供)
maxplaytime--玩游戏的最多时间(有制造商提供)
minage---推荐的最小玩游戏年龄
users_rated----评价游戏的用户数
average_rating---用户给予游戏的平均评级(0-10)
total_weights---用户评判的“重量”数量,weight是BoardGameGeek创造的一种主观测量方式。他是涉及一个游戏有多有趣。 Here's 这里是它的所有解释。
average_weigh---所有主观权重的平均分(0-5)
机器学习一个有趣的任务也许就是使用其他列来预测average_rating。数据集包含相当多的错误值,并且很多行都没有评估,分数是0。为了让预测更加容易,你需要先把数据集合的这些错误都移除。
。通过Pandas库来读取board_games.csv数据框架,然后命名为board_games
。打印出board_games中的前几行,仔细观察数据
。使用数据框架的dropna方法以及把axis设置为0,来移除任何包含错误值的行。
。移除board_games里任何users_rated等于0的行。每个没有反馈的行也都删掉。
import pandas as pd
board_games=pd.read_csv("board_games.csv")
board_games=board_games.dropna(axis=0)
board_games=board_games[board_games["users_rated"]>0]
board_games.head()
最近,桌游又卷土重来,更深入的是,越来越多的战略桌游,比如Settlers of Catan,受到了巨大的欢迎。一个受欢迎的网站BoardGameGeek对这些类型的桌游进行了讨论和评述。
在这个项目中,你将会研究一个包含80000个桌游和他们相关的反馈分数。这组数据是 Sean Beck通过BoardGameGeek网站抓取的,并编译成CSV 形式。数据集被保存为board_games.csv,可以在这里here.下载。
如果你在任何地方遇到问题,可以到我们的解决问题板块here来咨询。
这里是数据集的前5行信息:
每一行代表了一种桌游,并且带有桌游的描述统计信息,连同反馈信息。这里有一些有趣的列名:
name--桌游的名字
playingtime-玩游戏时间(由制造商提供)
minplaytime--玩游戏的最少时间(由制造商提供)
maxplaytime--玩游戏的最多时间(有制造商提供)
minage---推荐的最小玩游戏年龄
users_rated----评价游戏的用户数
average_rating---用户给予游戏的平均评级(0-10)
total_weights---用户评判的“重量”数量,weight是BoardGameGeek创造的一种主观测量方式。他是涉及一个游戏有多有趣。 Here's 这里是它的所有解释。
average_weigh---所有主观权重的平均分(0-5)
机器学习一个有趣的任务也许就是使用其他列来预测average_rating。数据集包含相当多的错误值,并且很多行都没有评估,分数是0。为了让预测更加容易,你需要先把数据集合的这些错误都移除。
。通过Pandas库来读取board_games.csv数据框架,然后命名为board_games
。打印出board_games中的前几行,仔细观察数据
。使用数据框架的dropna方法以及把axis设置为0,来移除任何包含错误值的行。
。移除board_games里任何users_rated等于0的行。每个没有反馈的行也都删掉。
import pandas as pd
board_games=pd.read_csv("board_games.csv")
board_games=board_games.dropna(axis=0)
board_games=board_games[board_games["users_rated"]>0]
board_games.head()
相关文章推荐
- Airbnb欺诈预测机器学习模型设计:准确率和召回率的故事 发表于2015-07-15 16:14| 3926次阅读| 来源AirBNB/Data| 1 条评论| 作者Ariana Radianto
- 机器学习(2)-项目 1: 预测波士顿房价
- 项目二:使用机器学习(SVM)进行基因预测
- Udacity机器学习入门项目5:预测波士顿房价
- 机器学习(1)-项目 0: 预测泰坦尼克号乘客生还率
- 机器学习项目实战:泰坦尼克号获救预测
- [zz]机器学习开源项目mahout+用其开发推荐引擎
- 简单Blog项目笔记之七:文章的评论
- 项目工期和成本预测-挣值技术
- 控件学习IOS开源项目(1)之RatingView星级评论控件学习
- maven建立集中预测项目
- 机器学习开源项目
- 带着项目学PHP第八讲 - ecshop中index.dwt文件分析
- Stanford机器学习---第八讲. 支持向量机SVM
- 项目工期和成本预测-挣值技术(摘)
- IOS开源项目(1)之RatingView星级评论控件学习
- MyEclipse修改页面模板(JSP和HTML等) 分类: WEB项目应用 2010-01-31 00:03 698人阅读 评论(1) 收藏
- linux下项目开发中防止重复定义和重复包含的方法 分类: 嵌入式开发学习 2011-06-12 23:45 1393人阅读 评论(0) 收藏
- Mahout 0.3: 机器学习开源项目
- 移植项目的规模分析和测试指标的预测