您的位置：首页 > 大数据 > 人工智能

通用AI问世！AlphaZero8小时完爆围棋、国际象棋、日本将棋 | 重磅

2017-12-07 00:00 746 查看

▼
大型年度AI人物评选——2017中国AI英雄风云榜已于12月4日在乌镇张榜，12月18日在北京国贸三期举行颁奖典礼。

榜单评选出年度技术创新人物TOP 10；商业创新人物TOP 10，获取完整榜单请关注网易智能公众号（ID：smartman163），回复关键词“评奖”。
本文系网易智能工作室出品
聚焦AI，读懂下一个大时代

【网易智能讯12月7日消息】日前，DeepMind团队发表了最新论文，提出了全新的强化学习算法AlphaZero，它是一种可以从零开始，通过自我对弈强化学习在多种任务上达到超越人类水平的新算法，堪称“通用棋类AI”。

据了解，AlphaZero算法可以再8个小时训练击败李世石版本AlphaGo；12小时训练击败世界顶级的国际象棋程序Stockfish；14小时训练击败世界顶级将棋程序Elmo。这是DeepMind团队继AlphaGo Zero的研究问世之后，带给我们的又一全新算法，它是“更通用的版本”。

此外，我们看到这次的AlphaZero与AlphaGo Zero有几点不同，首先AlphaGo Zero是在假设结果为赢/输二元的情况下，对获胜概率进行估计和优化。而AlphaZero会将平局或其他潜在结果纳入考虑，对结果进行估计和优化。其次，AlphaGo和AlphaGo Zero会转变棋盘位置进行数据增强，而AlphaZero不会。第三，AlphaZero只维护单一的一个神经网络，这个神经网络不断更新，而不是等待迭代，四，AlphaZero中，所有对弈都重复使用相同的超参数，因此无需进行针对特定某种游戏的调整。

论文地址：https://arxiv.org/pdf/1712.01815.pdf

添加小助手加入交流群
点击如下关键词查看往期内容
人物专访 沈向洋 | 于尔根 | 洪小文 | 李德毅 | 尤瓦尔 | 哈萨比斯 | 宋继强 | 杨强 | 余凯 | 邓志东 | 芮勇 | 戴文渊 | 石博盟 | 韦东 | 黄学东

行业特稿 抢滩智能音箱（上） | 抢滩智能音箱（下） | 自动驾驶行业素描（上） | 自动驾驶行业素描（下） | 机器翻译技术与应用

重磅报告 麦肯锡（二） | AlphaBeta
& ABC | 埃森哲 | 英国政府 | Internet
Society | Forrester | VertoAnalytics | 麦肯锡（一） | 苹果公司 | 耶鲁大学

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航