让智能体合作，谷歌团队提出自然语言的产生方法 | ICLR 2017

雷锋网AI科技评论按：ICLR 2017 于4月24-26日在法国土伦举行，雷锋网(公众号：雷锋网)AI科技评论的编辑们也将前往法国带来一线报道。期间，雷锋网也将围绕会议议程及论文介绍展开一系列的覆盖和专题报道，敬请期待。

当前主流的训练自然语言系统的方法是将它们暴露在大量语言文字中。这种被动学习的方法对于发展互动型机器，例如可会话的智能体，是存在有很多问题的。在ICLR 2017会议上，Angeliki Lazaridou等研究者在oral paper论文《Multi-agent cooperation and the emergence of (natural) language》提出一个基于多个智能体的语言学习的架构。研究人员在参考游戏的环境中研究这种学习方法。

在这些游戏中，一个发送者和一个接收者可以看到一组图像。发送者得知其中一个是目标，然后必须从一个固定的随机单词表中发送一个信息。而接受者将依靠这个信息来识别目标。由此，智能体出于交流的需要，发展出它们自己的交流语言。研究人员还展示出仅通过简单的结构就可以让两个网络学习在参考游戏中配合。他们后续还研究了怎样改变游戏环境来在游戏中引入“单词的意义”，以便更好的表达直观的图片语义属性。另外，研究人员还展示了一个简单的将智能体代码带入自然语言的方法。这些步骤对于发展能够与人类有效沟通的机器来讲都是很有必要的。

以下是雷锋网AI科技评论据论文内容进行的部分编译。

本文介绍了基于多智能体合作交流游戏（multi-agent coordination communication games）研究的第一步。这些游戏将智能体置于简单的环境中，在那里，它们需要发展处一种语言去互相协调，并获得回报。重要的是，这些智能体在最开始是一片空白的，但是通过一起在游戏中合作，它们在彼此上发展和引导出一种自然语言。

研究人员从使用语言的最基本的挑战开始，即在双智能体游戏的上下文中引用事物。专注于两个问题。首先，白板智能体是否成功通信。其次，什么环境特点导致类似人类语言代码的产生。以两种方式评估后一个问题。首先，智能体是否将一般概念属性（例如广泛的对象类别（而不是低级视觉属性））与它们学会使用的符号相关联。其次，研究在线实验中，智能体的“词汇使用”是否能被人类部分解释。更进一步，如何改变环境，使紧急语言更加可被解读。研究人员既强调环境的重要性（游戏设置），但同时专注于使用多个智能体的更简单的环境，从而强制它们自主进行智能化。因此研究人员将重点关注智能体之间的合作，以此来促进学习，同时减少对注释数据的需求。

本文中使用的参考游戏的一般框架如下：包括K个玩家，玩家必须执行的任务/游戏，使玩家能够相互通信的通信协议V，以及分配给玩家的收益作功能性的明确的目标。

1. 存在由向量表示的一组图像，从这个集合中随机绘制两个图像，其中一个选择为“目标”。

2. 有两个玩家，一个发送者和一个接收者，都看到图像，但发送者可以接收输入，即明确目标。

3.存在大小为K的词汇V，发送者选择一个符号发送给接收者。

4. 接收者不知道目标，但是看到发送者的符号，并尝试猜测目标图像。

5.如果接收者猜对目标，两个玩家都会获得1的回报，否则回报为0。

智能体玩家：发送者和接收者都是简单的前馈网络。对于发送者，研究人员尝试了图1所示的两种体系结构。发送者架构都以此顺序将目标（图1中标有绿色正方形）和干扰表示作为输入，以隐含的方式通知其中某一图像是目标（接收者，则是以随机顺序看到两个图像）。

图1：智能体玩家的架构

不可知发送者是将原始图像向量映射到“游戏特定”嵌入空间的通用神经网络，然后是S形非线性，将完全连接的权重应用于嵌入级联以在词汇符号上产生分数。

知情的发送者首先将图像嵌入“游戏专用”空间。然后通过将它们视为不同的通道来对图像嵌入应用1-D卷积。知情的发送者使用两个卷积来对两个图像嵌入进行维度，其次是S形非线性。所得到的特征图通过另一个过滤器组合，以产生词汇符号的分数。

对于由语言的离散本质驱动的发送者，研究人员强制实现了通信协议离散化的强大的通信瓶颈。顶部（词汇）层上的激活被转换为吉布斯分布（具有温度参数α），然后从所得到的概率分布中对单个符号s进行采样。接收者以随机顺序将目标和干扰图像向量作为输入，以及由发送者产生的符号（作为词汇表上的一个热向量）。它将图像和符号嵌入到自己的“游戏特定”空间中。然后计算符号和图像嵌入之间的点积。理想情况下，对于符号较好表示的图像，点相似度应该更高。两个点的结果被转换成Gibbs分布，并且接收者通过从所得到的分布中进行采样将“点”指向图像。

研究人员设置了以下超参数，无需调整：嵌入维度：50，已知发件人应用于嵌入的过滤器数量：20，Gibbs分布的温度：10。两个词汇大小：10 和 100个符号。

实验结果

了解新出现的语义的一种方式是观察符号与它们所指的图像集之间的关系。图像中的物体被分为20个更广泛的类别。如果智能体收敛到符号的较高级语义，我们预期属于同一类别的对象将激活相同的符号，例如，当目标图像描绘刺刀和枪时，发送者将使用相同的符号符号指的是他们，而牛和枪不应该分享一个符号。

为了量化这一点，研究人员通过在目标图像包含它们时最常激活的符号对对象进行分组来形成聚类。然后，通过测量其纯度来评估所得簇的质量。纯度是集群“质量”的标准衡量标准。将观察到的纯度与从符号分配到对象的随机排列获得的分数进行比较。表1显示，在所有情况下，纯度远非完美，但是显着高于机会。同时还可以确认，知情的发送者正在产生比不可知发送者更符合语义的符号。

表1：50K训练游戏后的测试结果。使用单词列显示在测试阶段至少产生一次的不同词汇符号的数量。与匹配观察到的符号使用情况下的模拟机会符号分配相比，所有纯度值都非常显着（p <0：001）。粗糙度纯度列显示观察到的和预期纯度之间的差异。

不过，可以看到，不同的发送者架构之间存在一些差异。图2（左图）显示了作为前5000次训练的函数的测试集样本的性能。智能体融合的相当快，但知情的发信者比不可知发送者更快地达到更高的水平。

图2：左：传播成功作为训练迭代的一个函数，可以看到知情的发送者比不可知发送者收敛速度更快。右：示例符号使用矩阵的频谱：前几个维度只捕获部分方差，表明由知情发送者使用更多的符号而不仅仅是因为同义词。

了解新出现的语义的一种方式是观察符号与它们所指的图像集之间的关系。图像中的物体被分为20个更广泛的类别。如果智能体收敛到符号的较高级语义，则预期属于同一类别的对象将激活相同的符号，例如，当目标图像描绘刺刀和枪时，发送者将使用相同的符号符号指的是他们，而牛和枪不应该分享一个符号。

为了测试符号使用是否反映了视觉空间的语义。研究人员通过对数据集中所有类别图像的CNN fc表示进行平均来构建每个对象的向量表示。通过t-SNE映射将这些平均对象向量映射到2维，并且对发送者用于包含相应对象的图像的符号进行颜色编码。图3（左）显示了当前实验的结果。可以看到在CNN空间中接近的对象与相同的符号（相同的颜色）相关联。然而，仍然有相当多的变化。

图3：由知情发送者分配给他们的多数符号进行彩色编码的对象fc矢量的t-SNE图。显示一个随机子集的对象类名称。左：表1第4行的配置。右：表2的第2行。

然后研究人员转向一种简单的方式来调整游戏设置，以鼓励智能体进一步追求高级语义。即通过消除“常识”的某些方面，来排除智能体的使用。例如，删除与输入图像的细节有关的事实，从而迫使智能体使用更抽象的属性。表2显示了各种配置的结果。可以看到智能体仍然能够协调。在图3（右）中，重复基于t-SNE的视觉嵌入之间出现的关系和在此新实验中用于引用它们的单词之间的关系时，这种效果更清楚。

表2：使用图像级目标播放参考游戏：50K训练后测试结果。列在表1中。所有纯度值在p <0：001时显着。

智能体通过监督的图像标记任务交互地开发其通信协议，其中发送者必须学习分配对象的传统名称。这样一来，发送者自然会被鼓励使用这些具有常规含义的名称，以便在玩游戏时区分目标图像，因此代码语言就可以自然的被人类解读。

受监督的目标对通信成功没有负面影响：经过10k次的培训试验（相当于5k次的参考游戏试验），智能体仍然能够进行充分的协调。发送者在训练后使用的符号多于之前的任何实验，符号纯度显着提高到70％（obs-机会纯度差异也增加到37％）。并且许多符号现在已经变得直接可解释，这归功于它们与标签的直接对应。研究人员对代码的可解释性进行调查后发现，68％的实验数据可以被人类正确解读。虽然远非完美，但可以发现对单独数据集的监督学习确实为与人的沟通提供了一些基础，这超出了在监督阶段学到的常规词语表示。

从质量上看，当发件者在其所拥有的单词和图像的内容之间建立了一种“转喻”的连接时，发送者主体间的通信很成功。图4显示了一个例子，其中发送者产生海豚来指示显示一段海洋的图片，以及一片土地的栅栏。

图4：ReferItGame集合中的示例对，由发件人生成的字。将图像目标定位为绿色。

结果证实，相当简单的神经网络智能体可以学习在参与游戏中协调沟通。研究人员还得到在设置中智能体捕获图像中描绘的对象的一般概念属性，而不是低级视觉属性。并且通过将游戏与监督任务相结合，展示了以自然语言沟通的方式。

在未来的工作中，他们还想进一步研究如何确保紧急通信保持接近人类自然语言。应将预测性学习作为智能体的重要组成部分，重点在于教授他们语言的结构特性（例如词汇选择，语法或风格）。然而，学习语言的功能驱动方面，例如如何进行对话也是重要的，互动游戏是实现这一目标的有成果的方法。

ICLR委员会最终决定

评论：作者展现了一些关于使用多个智能体，参照游戏而出现语言的一些初步结果。这种学习在强化和监督分类之间交替出现。优点：这是一篇相关的，新颖的论文。缺点：实验有些简单/受限。

决定：接受（Oral）

匿名审稿人1

评分：7，不错的论文，接受

评论：阅读的很愉快，感谢。

优点：本文解决了理解2个代理之间的沟通的一个非常关键的问题。随着越来越多的强化学习的应用的开发，这种方法使我们回到了一个基本的问题：机器的问题解决方法与人类相似。

这个任务很简单，因此可以使后期学习分析更直观。

有趣的是，知情智能体如何利用多个符号传输消息，然而不可知智能体仅依赖于2个符号。

缺点：如果发送的2张图像来自不同类别，则任务有效地归结为图像分类。使用的符号实际上是第二个智能体学习分配给任一图像的图像类。无论如何，这种方法归结为转移学习问题，可能比加强学习算法更快地进行训练。

匿名审稿人2

评分：7，不错的论文，接受

评论：通过在交互式参考通信游戏中放置多个代理来训练自然语言系统是非常好的。正如作者所说，以前有一些（虽然看起来不是很多）使用多代理游戏来教授交流的工作，但这似乎是一个值得追求的方向。此外，论文中提出的实验中，在这些游戏和某些监督学习之间切换的方法似乎是非常有成果的。

注意：为了“清晰”，我认为图1中的一些网络连接已被省略。然而，鉴于相当高度定制的架构和第3部分中稍微难以描述的描述，简写图仅增加了混乱。该图可能需要微调，但至少（特别是如果我误会了！），必须添加一个标题来帮助读者解释这个图。

总体来说，架构是很好的，并且在各种各样的方面似乎是非常有效/有用的，结果是合理的，我期望这个工作将会有一些有趣的变化。

值得注意的是，虽然我很自信已经理解了这篇论文，但我并不觉得我对最密切相关的文献非常熟悉，以准确地评估这一工作在这方面的地位。

匿名审稿人3

评分：7，不错的论文，接受

评论：在本文中，在两个智能体中提出了参考游戏。两个智能体观察两个图像。被称为发送方的第一个智能体接收二进制目标变量（t），并且必须向称为接收方的第二个智能体发送一个符号（消息），以便该智能体可以识别目标。如果接收方智能体可以准确预测目标，这两个智能体都会得到奖励。本文提出将智能体参数化为神经网络 – 将图像的预训练表征为特征向量，并使用REINFORCE进行训练。在这种设置中，显示智能体收敛到最优策略，并且他们所学习的通信（例如，从发送方发送到接收者的符号代码）具有一些有意义的概念。除此之外，本文还介绍了基于不同图像类的游戏变体的实验。在这种情况下，智能体似乎学习更有意义的概念。最后，提出了多游戏设置，其中发送者智能体在先玩游戏和播放监督学习任务（分类图像）之间交替。毫不奇怪，当锚定到监督的学习任务时，象征性的通信具有更有意义的概念。

在多智能体设置中学习共享的通信表达是一个有趣的研究方向。与标准的监督学习或单一智能体强化学习任务相比，这是一项艰巨的任务，这个任务从一个比较简单的任务开始是有道理的。据我所知，首先学习两个智能体之间的沟通方式，然后将这种沟通带入人类语言的方式是新颖的。正如作者所说，这可能是标准序列到序列模型的替代范例，其倾向于集中在语言的统计特性而不是其功能方面。我相信提出的任务和框架的贡献，以及所传达的通信的分析和可视化是今后工作的有益垫脚石。因此，我认为论文应该被接受。

雷锋网版权文章，未经授权禁止转载。详情见。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/82851.html

让智能体合作，谷歌团队提出自然语言的产生方法 | ICLR 2017

实验结果

ICLR委员会最终决定

相关推荐

发表回复