DeepMind 发布新架构让AI 边玩游戏边强化学习 | 2分钟论文

雷锋网按：这里是，雷锋字幕组编译的Two minutes paper专栏，每周带大家用碎片时间阅览前沿技术，了解AI领域的最新研究成果。

原标题 DeepMind's AI Masters Even More Atari Games | Two Minute Papers

翻译 | 熊逸凡字幕 | 凡江

论文标题：IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures

▷每周一篇2分钟论文视频解读

众所周知，强化学习是一种算法，我们可以用它在环境中选择一系列的行动来达到最高分数。这种算法有很多种应用，在这里我们单独拿电子游戏出来做例子，是因为它能够呈现给玩家多种多样的挑战。DeepMind 实验室为了更加直观地进行研究，使用第一视角来玩3D游戏。DeepMind实验室有一个简单却很灵活的API，可以让训练对象学习不同的任务，该实验室的游戏引擎功能强大，运行速度飞快，适用各种研究场景。

DeepMind 发布新架构让AI 边玩游戏边强化学习 | 2分钟论文

在强化学习过程中，我们通常有一个任务目标（比如学习后空翻）和一个我们想要训练好的对象。在本篇论文中，我将介绍的这个项目，是DeepMind对于改进强化学习的一次尝试。通过训练，使一个对象能完成比以往多得多种类的任务，这显然意味着我们需要获得更多的训练数据‍，以及为最高效地处理这些数据作好准备。

DeepMind 发布新架构让AI 边玩游戏边强化学习 | 2分钟论文

这个新技术是基于之前DeepMind发布了的构架，先前的构架 A3C（即异步的优势行动者评论家算法）将一些执行单元置于游戏中，每个单元都掌握玩这个游戏当前的策略。之后，这些单元独立地进行游戏，并周期性地停止游戏，以此来分享关于当前策略的可行部分和不可行的部分。

DeepMind 发布新架构让AI 边玩游戏边强化学习 | 2分钟论文

这种IMPALA架构（Importance Weighted Actor-Learner Architecture）有两个关键性的改变——

（1）第一个是在中间有个学习单元，执行单元不与它分享游戏中哪些做法可行，哪些不可行，而是它们与它分享经验。之后，这个集中的学习单元会想出一个关于所有这些数据的合理结论。想象一下，如果一个队伍里的每个足球运动员都去告诉教练，自己在球场上尝试的哪些方法奏效，这样的确可以有作用，但是有别于只是得到这些方法，我们可以把每个队员各自的经验通过蜂群思想结合起来，然后可以得到更多更高质量的信息。

（2）另一个关键性不同是，传统强化学习会先将游戏进行一定步骤，然后停下来进行学习过程。而使用论文中的方法，我们将游戏进行和学习过程分离开来，因此就有可能发展出一种能够同时连续进行两个过程的算法。这也引发了新的问题，推荐看一下论文里特别是关于叫做V-Trace的新的off-policy校正方法的部分，当在30个不同等级和大量Atari游戏的测试中，这种新方法比起之前基于A3C架构的表现翻了一倍，这也是极好的。同时，数据使用效率也至少是十倍于后者。它产生的知识更容易被应用到其他任务中。

DeepMind 发布新架构让AI 边玩游戏边强化学习 | 2分钟论文