阿里大数据比赛
2015-01-18 19:06
176 查看
测试数据:
链接: http://pan.baidu.com/s/1pJI3Bzd 密码: r3vp
本赛题适用于season1 和season 2的比赛,season 3 为线上赛(season 2 赛后公布题目)。
在天猫,每天都会有数千万的用户通过品牌发现自己喜欢的商品,品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户4个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。
用户对任意商品的行为都会映射为一行数据。其中所有商品ID都已汇总为商品对应的品牌ID。用户和品牌都分别做了一定程度的数据抽样,且数字ID都做了加密。所有行为的时间都精确到天级别(隐藏年份)。
我们希望参赛队的预测, 预测的品牌准确率越高越好,也希望覆盖的用户和品牌越多越好,所以用最常用的准确率与召回率作为排行榜的指标。
准确率:
注:
N 为参赛队预测的用户数
pBrandsi为对用户i 预测他(她)会购买的品牌列表个数
hitBrandsi对用户i预测的品牌列表与用户i真实购买的品牌交集的个数
召回率:
注:
M 为实际产生成交的用户数量
bBrandsi为用户i 真实购买的品牌个数
hitBrandsi预测的品牌列表与用户i真实购买的品牌交集的个数
最后我们用F1-Score 来拟合准确率与召回率,并且大赛最终的比赛成绩排名以F1得分为准。
1) 数据获取格式:
参赛者通过大赛官网报名成功后,可以直接下载数据到本地,直接使用。(下载地址在参赛者的个人中心)
2) 数据说明:
提供的原始文件有大约4M左右,涉及1千左右天猫用户,几千个天猫品牌,总共10万多条的行为记录。用户4种行为类型(Type)对应代码分别为:
点击:0;购买:1;收藏:2;购物车:3
3) 提交评分方式:
参赛者将预测的用户存入文本文件中,格式如下:
user_id \t brand_id , brand_id , brand_id \n
上传的结果文件名字不限(20字以内),文件必须为txt格式。
如图:
将预测结果文件上传至大赛官网结果提交入口即可。(提交结果入口在参赛者的个人中心)
得福在infoQ上天猫推荐算法的演讲:http://www.infoq.com/cn/presentations/tianmao-recommendation-algorithm-practice
本文转载自:http://blog.csdn.net/xbwer/article/details/35865465
链接: http://pan.baidu.com/s/1pJI3Bzd 密码: r3vp
赛题介绍
本赛题适用于season1 和season 2的比赛,season 3 为线上赛(season 2 赛后公布题目)。在天猫,每天都会有数千万的用户通过品牌发现自己喜欢的商品,品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户4个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。
我们会开放如下数据类型:
字 段 | 字段说明 | 提取说明 |
---|---|---|
user_id | 用户标记 | 抽样&字段加密 |
Time | 行为时间 | 精度到天级别&隐藏年份 |
action_type | 用户对品牌的行为类型 | 包括点击、购买、加入购物车、收藏4种行为 (点击:0 购买:1 收藏:2 购物车:3) |
brand_id | 品牌数字ID | 抽样&字段加密 |
评估指标
我们希望参赛队的预测, 预测的品牌准确率越高越好,也希望覆盖的用户和品牌越多越好,所以用最常用的准确率与召回率作为排行榜的指标。准确率:
注:
N 为参赛队预测的用户数
pBrandsi为对用户i 预测他(她)会购买的品牌列表个数
hitBrandsi对用户i预测的品牌列表与用户i真实购买的品牌交集的个数
召回率:
注:
M 为实际产生成交的用户数量
bBrandsi为用户i 真实购买的品牌个数
hitBrandsi预测的品牌列表与用户i真实购买的品牌交集的个数
最后我们用F1-Score 来拟合准确率与召回率,并且大赛最终的比赛成绩排名以F1得分为准。
不同赛季使用数据说明
Season 1赛季数据
1) 数据获取格式:参赛者通过大赛官网报名成功后,可以直接下载数据到本地,直接使用。(下载地址在参赛者的个人中心)
2) 数据说明:
提供的原始文件有大约4M左右,涉及1千左右天猫用户,几千个天猫品牌,总共10万多条的行为记录。用户4种行为类型(Type)对应代码分别为:
点击:0;购买:1;收藏:2;购物车:3
3) 提交评分方式:
参赛者将预测的用户存入文本文件中,格式如下:
user_id \t brand_id , brand_id , brand_id \n
上传的结果文件名字不限(20字以内),文件必须为txt格式。
如图:
将预测结果文件上传至大赛官网结果提交入口即可。(提交结果入口在参赛者的个人中心)
得福在infoQ上天猫推荐算法的演讲:http://www.infoq.com/cn/presentations/tianmao-recommendation-algorithm-practice
本文转载自:http://blog.csdn.net/xbwer/article/details/35865465
相关文章推荐
- 阿里大数据比赛sesson2_RF&GBRT(下)
- 阿里大数据比赛总结
- 阿里大数据比赛排名获取2
- 阿里数据挖掘比赛总结
- 阿里大数据比赛总结
- 阿里大数据比赛sesson2_RF&GBRT(上)
- 阿里大数据比赛排名获取2
- USACO历年比赛的数据和解题报告
- hadoop数据[Hadoop] 实际应用场景之 - 阿里
- USACO历年比赛的数据和解题报告
- 鼠鼠爱比赛—13年大数据比赛汇总
- 阿里大数据业务平台两年发展历程
- nokogiri 足球比赛数据
- 【转】百度腾讯阿里,其大数据优劣势与策略分析
- RecSys的Yelp推荐比赛数据简单分析
- 【分享】2011~2013.5全球所有足球比赛比分数据以及足彩各公司盘口
- 2013阿里技术嘉年华:阿里数据同步前世今生
- 以数据资源为中心的阿里云计算在阿里金融见到实力啦!~
- 阿里Hadoop集群架构及服务体系,更多数据参考....
- 阿里80亿贷款细节曝光 并购背后图谋大数据