kaggle首秀之intel癌症预测(续篇)
2017-07-11 20:41
363 查看
之前写了这篇文章。现在把他搬到知乎live上了。书非借不能读也,因此搞了点小费用,如果你觉得贵,加我微信我给你发红包返回给你。
最近的空余时间拿去搞kaggle了, 好久没更新文章了。今天写写kaggle首秀的一段baseline吧。
这个题目是intel的癌症预测。我之前本来是想打谷歌的视频多标签分类的,但是那个数据量大,需要用谷歌云,然后呢,需要用双币信用卡注册,结果我的双币信用卡没有开通国外账户,考虑到安全性(去年我一个同事的信用卡直接在澳大利亚被盗刷),就换成了这个比赛了。
这个比赛很简单,就是图片分类,根据医院的癌症检测图片,将其分成1-2-3类。
好像很简单?我一开始也是这样认为的。结果发现有很多坑。我有好几次提交都是倒数。完全找不到北。究其原因:这个数据量其实比较小,然后就是图片样本空间较丰富,还有就是三个种类有时候分类的界限其实没那么清晰的。
弱弱的我卯足了劲玩了一个晚上的花招,周末开始搞的,今天提交了一个版本。排到了第18名,算是一个baseline吧。目前好像有几百个队伍的样子。
附上排行榜链接。
https://www.kaggle.com/c/intel-mobileodt-cervical-cancer-screening/leaderboard
一个截图:
网站上也说从1.005提升到0.75813是一个great job。姑且算作一个baseline吧。
知乎的链接
https://www.zhihu.com/lives/868157097320280064
最近的空余时间拿去搞kaggle了, 好久没更新文章了。今天写写kaggle首秀的一段baseline吧。
这个题目是intel的癌症预测。我之前本来是想打谷歌的视频多标签分类的,但是那个数据量大,需要用谷歌云,然后呢,需要用双币信用卡注册,结果我的双币信用卡没有开通国外账户,考虑到安全性(去年我一个同事的信用卡直接在澳大利亚被盗刷),就换成了这个比赛了。
这个比赛很简单,就是图片分类,根据医院的癌症检测图片,将其分成1-2-3类。
好像很简单?我一开始也是这样认为的。结果发现有很多坑。我有好几次提交都是倒数。完全找不到北。究其原因:这个数据量其实比较小,然后就是图片样本空间较丰富,还有就是三个种类有时候分类的界限其实没那么清晰的。
弱弱的我卯足了劲玩了一个晚上的花招,周末开始搞的,今天提交了一个版本。排到了第18名,算是一个baseline吧。目前好像有几百个队伍的样子。
附上排行榜链接。
https://www.kaggle.com/c/intel-mobileodt-cervical-cancer-screening/leaderboard
一个截图:
网站上也说从1.005提升到0.75813是一个great job。姑且算作一个baseline吧。
知乎的链接
https://www.zhihu.com/lives/868157097320280064
相关文章推荐
- 基于机器学习多种方法的kaggle竞赛入门之手写数字的图像识别预测
- 用sklearn(scikit-learn)的LogisticRegression预测titanic生还情况(kaggle)
- Kaggle 商品销量预测季军方案出炉,应对时间序列问题有何妙招
- 【Kaggle笔记】预测Imdb电影评分(随机森林)
- 数据科学工程师面试宝典系列之二---Python机器学习kaggle案例:泰坦尼克号船员获救预测
- Kaggle房价预测:数据预处理——练习
- kaggle入门-Bike Sharing Demand自行车需求预测
- 如何利用自组织竞争网络进行患者癌症发病预测
- Intel众核架构芯片首秀 单颗破万亿次计算
- 自动预测保险理赔:机器学习之特征预处理(Kaggle保险索赔竞赛案例)
- Kaggle竞赛(lecture 1-2 入门)Titanic生存预测
- Kaggle竞赛 —— 房价预测 (House Prices)
- 贝叶斯分类实例(Kaggle比赛之『旧金山犯罪分类预测』)
- 机器学习系列(18)_Kaggle债务违约预测冠军经验分享
- 【笔记】AI100-Kaggle竞赛_2017年房价预测
- kaggle竞赛入门:titanic数据预测学习(翻译)
- 教程 | Kaggle网站流量预测任务第一名解决方案:从模型到代码详解时序预测
- kaggle之数字序列预测
- Kaggle实战——泰坦尼克生存预测大赛
- Kaggle 入门(NLP)——基于新闻语料预测股票涨跌