谷歌新智能体Dreamer将亮相NeurIPS 2019，数据效率比前身PlaNet快8个小时

来源：雷锋网

在具有挑战性的环境中，一些人工智能系统通过利用过去经验所提供的世界表象来实现目标。研究人员将这些应用推广到新的情况，使它们能够在以前从未遇到过的环境中完成任务。

事实证明，强化学习——一种使用奖励来推动软件策略朝着目标前进的训练技术——特别适合学习总结agent经验的世界模型，并通过扩展来促进新行为的学习。

近日，来自Google、Alphabet子公司DeepMind和多伦多大学的研究人员发表了一篇名为《梦想控制：通过潜意识的学习行为》的新研究，他们开发了一个增强型学习智能体Dreamer，通过内化一个世界模型，并通过通过潜在的“想象力”来提前计划选择行动。

他们说，Dreamer不仅适用于任何学习目标，而且在数据效率、计算时间以及最终性能方面都超过了现有的方法。

在它的整个生命周期中，无论是交错还是并行，Dreamer都会学习一个latent dynamics model（潜在动力学模型），以预测动作和观察结果的回报。在这种情况下，“latent dynamics model”是指从图像输入中学习并执行计划以收集新经验的模型。

“潜在”表示它依赖于隐藏状态或潜在状态的紧凑序列，这使它能够学习更多抽象的表示形式，例如对象的位置和速度。使用编码器组件，有效地将来自输入图像的信息集成到隐藏状态中，然后及时地将隐藏状态向前投影以预测图像和奖励。

上图：Dreamer完成一个摆动钟摆的任务。中间显示45步预测

Dreamer使用了一个多部分的latent dynamics model，这个模型的结构有些复杂。“表示”位对观察和动作进行编码，而“过渡”位则在没有看到会引起观察的情况下预见状态。第三个组件（奖励组件）根据给定的模型状态来投影奖励，而行为模型将实施学习的策略并旨在预测可解决想象的环境的行为。最终，价值模型评估行动模型实现的预期想象奖励，而观察模型提供反馈信号。

上图：梦想家在迷宫中导航。中间显示45步预测。

在一系列实验中，研究人员测试了Dreamer在DeepMind Control Suite中的20个视觉控制任务上的效果。DeepMind Control Suite是一种用于评估机器学习驱动的代理的仿真软件。他们首先使用Nvidia V100图形芯片和10个处理器内核来训练它，每次培训运行一次，他们说控制套件上每106个环境步骤花费了9个小时。（相比之下，Google的Dreamer前身PlaNet花了17个小时才达到了类似的性能。）