您的位置:首页 > 编程语言 > Go语言

新AlphaGo这么强!36小时从0自学成大师,100:0把李世乭版秒成渣渣 | Nature论文

2017-10-19 00:00 232 查看

李林 千平 发自 凹非寺

量子位 出品 | 公众号 QbitAI




“它最终超越了我们所有预期”。

DeepMind团队又放惊天消息。

简单地说,AlphaGo又有了重大进步。DeepMind把这个新版本的围棋AI称为AlphaGo Zero。之所以这样命名,是因为这个AI完全从零开始,自我学习下围棋,完全脱离人类知识。

以前其他版本的AlphaGo,都经过人类知识的训练,它们被告知人类高手如何下棋。而最新发布的AlphaGo Zero使用了更多原理和算法,从0开始,使用随机招式,40天后成为围棋界的绝世高手。真真正正的自学成才。

新的AlphaGo Zero使用了一种全新的强化学习方式,从0基础的神经网络开始,与搜索算法结合,不断进化调整、迭代升级。AlphaGo Zero的不同之处在于:

除了黑白棋子,没有其他人类教给AlphaGo Zero怎么下棋。而之前的AlphaGo包含少量人工设计的特征。

AlphaGo Zero只用了一个神经网络,而不是两个。以前AlphaGo是由“策略网络”和“价值网络”来共同确定如何落子。

AlphaGo Zero依赖神经网络来评估落子位置,而不使用rollouts——这是其他围棋程序使用的快速、随机游戏,用来预测哪一方会获胜。

创新工场AI工程院副院长王咏刚用“大道至简”四个字评价新版的AlphaGo Zero。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: