DeepMind新发布通用算法AlphaZero ,通用AI还远么?
2017-12-07 19:04
351 查看
今天,在 AlphaGo Zero 论文发布的一个多月之后,在我们觉得 AlphaGo Zero 已经成为尽善尽美的围棋之神的时候,DeepMind 又悄悄地放出了一篇新论文。这次
DeepMind 去掉了「AlphaGo Zero」中表示围棋的「Go」,这是一个更通用的、能下各种棋类的、而且在围棋中的表现更上一层楼的通用强化学习模型,「AlphaZero」。
AlphaZero 是 AlphaGo Zero 的通用化进化版本,它继续保持了 AlphaGo Zero 中不需要人工特征、利用深度神经网络从零开始进行强化学习、结合蒙特卡洛树搜索的特点,然后更新网络参数,减小网络估计的比赛结果和实际结果之间的误差,同时最大化策略网络输出动作和蒙特卡洛树搜索可能性之间的相似度。
AlphaZero:一种可以从零开始,通过自我对弈强化学习在多种任务上达到超越人类水平的新算法。据称,新的算法经过不到 24 小时的训练后,可以在国际象棋和日本将棋上击败目前业内顶尖的计算机程序(这些程序早已超越人类世界冠军水平),也可以轻松击败训练
3 天时间的 AlphaGo Zero。
AlphaZero 与 AlphaGo Zero 之间的具体区别有以下几个:
AlphaGo Zero 会预计胜率,然后优化胜率,其中只考虑胜、负两种结果;AlphaZero 会估计比赛结果,然后优化达到预计的结果的概率,其中包含了平局甚至别的一些可能的结果。
由于围棋规则是具有旋转和镜像不变性的,所以专为围棋设计的 AlphaGo Zero 和通用的 AlphaZero 就有不同的实现方法。AlphaGo Zero 训练中会为每个棋局做 8 个对称的增强数据;并且在蒙特卡洛树搜索中,棋局会先经过随机的旋转或者镜像变换之后再交给神经网络评估,这样蒙特卡洛评估就可以在不同的偏向之间得到平均。国际象棋和日本象棋都是不对称的,以上基于对称性的方法就不能用了。所以 AlphaZero 并不增强训练数据,也不会在蒙特卡洛树搜索中变换棋局。
在 AlphaGo Zero 中,自我对局的棋局是由所有之前的迭代过程中出现的表现最好的一个版本生成的。在每一次训练迭代之后,新版本棋手的表现都要跟原先的表现最好的版本做对比;如果新的版本能以超过 55% 的胜率赢过原先版本,那么这个新的版本就会成为新的「表现最好的版本」,然后用它生成新的棋局供后续的迭代优化使用。相比之下,AlphaZero 始终都只有一个持续优化的神经网络,自我对局的棋局也就是由具有最新参数的网络生成的,不再像原来那样等待出现一个「表现最好的版本」之后再评估和迭代。这实际上增大了训练出一个不好的结果的风险。
AlphaGo Zero 中搜索部分的超参数是通过贝叶斯优化得到的。AlphaZero 中直接对所有的棋类使用了同一套超参数,不再对每种不同的棋做单独的调节。唯一的例外在于训练中加在先前版本策略上的噪声的大小,这是为了保证网络有足够的探索能力;噪声的大小根据每种棋类的典型可行动作数目做了成比例的缩放。
总结
在人类把棋类作为人工智能研究的重要关卡以来的几十年间,研究者们开发出的下棋算法几乎总是避免不了人工特征和为具体的棋类做的特定性优化。如今,完全无需人工特征、无需任何人类棋谱、甚至无需任何特定优化的通用强化学习算法 AlphaZero 终于问世,而且只需要几个小时的训练时间就可以超越此前最好的算法甚至人类世界冠军,这是算法和计算资源的胜利,更是人类的顶尖研究成果。DeepMind 愿景中能解决各种问题的通用 AI,看起来也离我们越来越近了。
论文链接:https://arxiv.org/abs/1712.01815
相关文章推荐
- AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
- 【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
- 【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
- 【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
- 【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋
- 【五子棋AI循序渐进】发布一个完整的有一定棋力的版本(含源码)
- eyemore发布全球首款AI视觉专用成像芯片,能否助推AI视觉产业跃迁?丨Xtecher 观察
- 比特币突破9000美元;世界首个机器公民想组建家庭;谷歌DeepMind宣布利用 AI 治疗乳腺癌丨价值早报
- 观点 | Keras之父谈人工智能:通用AI不会出现,超人类智能更不存在
- 胡伟武访谈---龙芯"1号通用CPU的成功发布
- 通用AI问世!AlphaZero8小时完爆围棋、国际象棋、日本将棋 | 重磅
- iphone开发之用lipo合并模拟器库和真机库,发布一个通用的静态库
- 【五子棋AI循序渐进】发布一个完整的有一定棋力的版本(含源码)
- 一代BPU,两款处理器,余凯发布地平线AI芯片:左手智能驾驶,右手摄像头
- 阿里云发布超级智能ET大脑 成全球产业AI拓荒者
- 张钹院士:AI科学突破的前夜,教授们应当看到什么? 雷锋网AI 科技评论:12 月 27 日 雷锋网去清华蹭了一个研讨会,主题是「从阿尔法 Go 到通用人工智能]
- 微软发布ie8 beta1测试版 支持通用网络标准
- 史上首次 AI 合唱!微软小冰 & 朱主爱发布合唱版《好想你》
- DeepMind 研发的围棋 AI AlphaGo 是如何下棋的?
- 【重磅】新智元推出百万级AI智库资讯互动平台,AI World2017世界人工智能大会TOP10大奖榜单发布