棋类大战中惨败的人类，现在想要在电子游戏上扳回一局 | Arxiv Insights

棋类大战中惨败的人类，现在想要在电子游戏上扳回一局 | Arxiv Insights 雷锋网：喜欢机器学习和人工智能，却发现埋头苦练枯燥乏味还杀时间？油管频道 Arxiv Insights 每周精选，从技术视角出发，带你轻松深度学习。

翻译/ 曹晨

校对/ 凡江

整理/ 廖颖

雷锋网本期Arxiv Insights围绕一篇名为《研究电子游戏中人类的先验信息》（Investigating Human Priors For Playing Video Games)展开。论文提出的核心问题是：为什么人类擅长通关电子游戏？作者发现其中一个关键点是，人类能够利用强大的先验能力快速决策、快速通关。

视频解读

人类1分钟通关的游戏，机器要花37小时

以“营救公主”的益智游戏为例，游戏通关方式是，需要营救者爬上梯子到达最顶端，越过敌人救出公主，对普通玩家来说，整个操作过程只需要1分钟时间。但如果用现阶段最先进的增强学习算法进行游戏，就算是最有效的一类算法也大约需要4百万帧来训练。（要连续通关，这个数量的帧数是必须的）

现在我们以时间为单位，来重新计算这些帧数。假设你运行的游戏是每秒30帧左右，那么400万帧就相当于一个人不间断地玩37个小时左右的游戏。这样算下来，机器花费的时间大约是人类闯关所需时间的2000倍。

棋类大战中惨败的人类，现在想要在电子游戏上扳回一局 | Arxiv Insights

为什么人类擅长处理新的复杂环境？

很显然你会说，这是因为人类有很多已知的先验信息。比如，我们知道梯子是需要爬的，所以我们避开梯子。但关键问题不在信息数量，而在于信息的重要度和影响力：不同的先验信息重要程度会有所不同吗？我们能否量化这些先验信息所带来的影响？

在最近几年中，机器学习取得了非常显著的进步，增强学习也取得了显著的进步。这些进步大部分来自于类似谷歌的 DeepMind OpenAI 以及在人工智能研究前沿中声名鹊起的大学。

棋类大战中惨败的人类，现在想要在电子游戏上扳回一局 | Arxiv Insights

这些进展表明我们能够训练agent，使它在动态环境中能学习到非常复杂的行为。agent使用了一种信号，我们称之为奖励信号。不同于监督学习，需要告知agent在给定情况下应该采取什么行动。这种agent可以在环境中按照其想要的方式自由行动。但是它有一个信号，即之前提到的奖励信号，奖励信号试图随着时间的推移，不断优化agent，使其达到最优值。

这些算法在各式各样的场景中，表现非常出色。这样的成就甚至让很多人提出，我们可能看到了泛化人工智能早期的萌芽。尽管已取得一些可观的成就，要使机器达到与人类水平相近的学习能力，还有很长的路要走。

机器学习究竟差在哪？

目前的算法擅长于泛化学习(general learning)，但它们存在样本利用率(sample efficiency)差的问题。这个问题意味着，在它们能够分清什么行为是当前环境所需要的之前，你必须给agent很多训练帧。还需要说明，算法和人类表现的不同之处，大部分研究者并没有提到嵌入式知识(embedded knowledge)，即人们带到新的任务中的知识。这些知识使得我们找寻特定问题的最优解法能比我们目前拥有的任何算法都快速。

如果你还了解些心理学，我们就知道，新生婴儿实际上是有模仿倾向的。如果一个父亲伸出他的舌头，虽然孩子没有意识到发生了什么，但是我们经常会看见婴儿模仿这个动作。这个事实说明有些信息是嵌入在我们基因中的。同样我们有强烈的倾向去注意人脸。因此，对于新生婴儿而言，如果给他很多很多图片，他们总是会首先盯着人脸看。

棋类大战中惨败的人类，现在想要在电子游戏上扳回一局 | Arxiv Insights

而还有一些人类的先验信息是没有存储到我们基因中的，但我们会在年轻的时候去学习。其中一个案例就是客体永久性(object permanence)。客体永久性表明一个事实：如果你有一个给定的物体，突然将该物体隐藏起来，我们还是认为物体在那儿。

客体永久性这个概念经常出现在两个月左右大小的人类婴儿。然而在黑猩猩和其他猴类，这种现象出现得更快更早。因此你可以看到，一只和人类婴儿相同年龄的猴子，对于猴子来说，客体永久性的概念已经表现出来了。为了检测不同人类先验信息的出现和影响，研究者们设计了个游戏，他们故意用随机结构替换了游戏中的一些物体。这个想法其实是，如果处理得巧妙，你实际上可以掩盖某些形式的先验信息。然后再通过人类玩家的表现变化来分辨，哪些形式的先验知识实际上对完成游戏是关键的。

人类赢了，靠的是先验信息

在继续讨论之前，我希望你们所有人都来试玩一下这个游戏，并且尝试其中一个调整过的游戏版本，去看看如果你没有了先验信息，玩下去是多么困难。没有重新映射任何结构的原始游戏，一个正常人需要大约1.4分钟来闯关。

棋类大战中惨败的人类，现在想要在电子游戏上扳回一局 | Arxiv Insights

研究者对游戏的第一个调整是改变了对象的语义，他们将可以看见的一把钥匙或一扇门替换了，玩家只能简单地看到一种统一颜色的正方形。这样做其实是拿走了我们关于对象属性的先验知识。我们很显然能发觉，在游戏的初始版本中，所有玩家需要先去拿钥匙，然后去开门。而在重新映射了结构的游戏中就不是这样了。这明显地展示了人们使用他们关于对象先验信息来引导他们的行为。

在重新映射结构的游戏中，平均游戏时间从1.4分钟上升至大约4.4分钟。在调整的第二个游戏版本中，研究者决定简单地在一个版本基础上，再隐藏物体的位置。于是，现在所有玩家能自由移动的位置已经被统一颜色的正方形掩藏起来了。在这个版本游戏中，人类玩家闯关所需的平均间上升到9分钟。我们不知道对象在哪儿，但我们仍非常清楚地形是什么样的，比如我们知道平台在哪儿，也知道晶格作用是什么。

棋类大战中惨败的人类，现在想要在电子游戏上扳回一局 | Arxiv Insights

在新版本游戏中，他们又重新映射了所有的这些结构，我们把这种行为叫做去除功能可见性(affordance removal)。这证明了去除功能可见性并不像移除对象语义那样糟糕。最后研究者决定试试游戏的骨灰级模式，于是他们将重力感应旋转了90度，交换了左和右的控制键。此外，他们还重新映射了所有的功能可见性结构。

这说明我们找到了关键点，因此通过定量比较这些调整的游戏版本给人们闯关时间所带来的影响，研究者们列出了一些人类已知道的先验信息，以及这些先验信息对于解决一个任务来说的重要性。

从结果我们能看出端倪，比如简单的判断物体对于解决复杂环境来说非常关键。接下来，研究者们就做了非常有趣的事：他们使用了最先进的增强学习算法，该算法称为A3C(Asynchronous Advantage Actor-Critic)，通过这个算法来尝试经过同样处理的调整后游戏版本——这些版本都是之前人类玩家见过的。结果证明增强学习agent没有任何问题，无论在调整的版本，哪怕是游戏版本中所有的物体结构都被重新映射了，增强学习agent需要大约相同数量的训练帧来解决这部分问题。

棋类大战中惨败的人类，现在想要在电子游戏上扳回一局 | Arxiv Insights