您的位置:首页 > 运维架构 > 网站架构

DeepMind新智能体架构Unicorn:持续学习能力胜过多个基准智能体

2018-02-27 00:00 393 查看
安妮 编译自 arXiv
量子位 出品 | 公众号 QbitAI
出于未知原因,DeepMind为自己研究起的名字总饱含诗意,在学术界中显得尤为画风清奇。比如“彩虹”?,比如“独角兽”?。前者,是去年10月DeepMind投递到AAAI 2018的六种DQN混血论文;后者,是我们今天要介绍的主角。近日,DeepMind提出了命名为“独角兽(Unicorn)”的智能体架构,它展示出厉害的持续学习能力,已经胜过很多基准智能体。这是怎样实现的呢?研究人员表示,独角兽通过利用并行的off-policy学习策略,统一表示和学习多种策略,才达到了这样的表现。

 DeepMind曾经的研究——一个会跑酷的小人

何为持续学习?

持续学习(Continual learning),指的是智能体借助已经获得的知识和技能,从经验中学习持续的任务流的一种方法。这种设置的主要特点是,它有潜力成为一个完全独立的智能体,可以增强构建自己的能力,解决丰富和复杂环境中的挑战,而无需人类提供的数据集、任务边界或奖励设置等的干预。因为智能体的能力在增长,所以它会去考虑复杂性持续增长的任务。理想的持续学习智能体应该能:(A)解决多项任务(B)当任务相关时表现出协同效应(C)处理任务之间深度依赖的结构

独角兽的特征

在这篇题为Unicorn: Continual learning with a universal, off-policy agent的论文中,DeepMind的研究人员Daniel J. Mankowitz等人提出了一种新型的独角兽智能体架构,可以显示上述这三种性能。独角兽架构有三个显著特征:(1)它是一种用单一网络同时学习多任务中价值函数的新方法(2)同时,利用样例有效的off-policy更新通过任务分享经验(3)当然,还结合了最先进的并行智能体架构,有效扩大经验的生成和学习下图显示的是研究人员提出的持续学习领域。在图中可以看到,智能体在满是物体的丰富的3D环境中进行导航,并且借助了第一人称视角的视觉输入。

[b]△ 上图指的是持续学习领域:在DM Lab的丰富环境中(左图)找到并按特定顺序拾取钥匙、锁和箱子(右图)的表现,偏离特定顺序将会被重置(虚线)。下图指的是独角兽的表现:和最终在最佳基线(glutton虚线)上的表现相比,研究人员提出的方法快速胜任了四个子任务。相对能力在分阶段增强,从简单(钥匙)到困难(箱子),最困难的任务能力增长幅度最大[/b]使这个领域变得最为挑战的是,物体需要以特定的顺序收集起来。例如,箱子只有在智能体已经收集了钥匙、锁和门的情况下才起作用。这就意味着,在大多数探索任务中,箱子这种高度依赖型任务的反馈非常稀疏,并且不能直接学习。幸运的是,独角兽智能体始终在解决领域内的这类问题,并且通过分享经验和重新利用任务中的表现和技能输出基线。

想了解更多实验过程,可移步论文原文~地址给你:https://arxiv.org/abs/1802.08294作者系网易新闻·网易号“各有态度”签约作者


加入社群量子位AI社群13群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot5入群;
此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。
进群请加小助手微信号qbitbot5,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。


量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: