受启于做梦，DeepMind 提出压缩 Transformer，并开源书本级数据集PG-19

受启于做梦，DeepMind 提出压缩 Transformer，并开源书本级数据集PG-19 雷锋网AI科技评论按：DeepMind最近提出一种新的长程记忆模型——Compressive Transformer（压缩Transformer），这种模型基于Transformer模型做了调整，通过增添压缩记忆模块，有效增加了模型的记忆长度。

而另一方面，为了提升对基于长程记忆的推理问题的研究，DeepMind的研究人员也开发了一个书籍级别的语言数据集PG-19。这个新的基准是目前已有的长时记忆基准的两倍还多，包含的上下文文本是长程语言模型基准测试WikiText-103的10倍以上。

论文链接：https://arxiv.org/pdf/1911.05507.pdf

PG-19开源链接：https://github.com/deepmind/pg19

在过去二十年的时间里，人工神经网络在记忆这一方面有了长足的进展。

被称为长短时记忆（Long Short-Term-Memory，LSTM）的递归神经网络（RNN）是目前最早、应用最为广泛的记忆结构之一。LSTM以数字向量的形式维护一个紧凑的内存，通过门控读、写和遗忘操作来访问和修改这个内存。它最初是在一套综合任务上开发的，包括学习一串bit的逻辑操作。不过现在它已经被广泛应用在所有的序列数据模型当中了。

LSTM，以及许多现在所使用的RNNs，存在一个巨大的缺点，就是容量问题。最初设计这些结构的目的是为了，使每个单元的内存都可以影响其他单元，并且具有科学系的权重。但这导致系统的计算效率非常低下，模型中可学习参数的数量会随内存大小的增加呈平方地增加，例如内存64KB的LSTM，会产生8GB的参数。

如何绕过这一记忆容量瓶颈，成为一个严峻的问题。

DeepMind的研究人员曾提出过一种新的架构，可微分神经计算机(DNC)，它用更大的内存矩阵来扩充LSTM，以此来解决这些缺陷。

在我们看东西时，我们的眼睛会聚焦于视觉场景中的相关物体。例如，你可能会花更多的时间注意朋友的面部表情，而不是注意他们的鞋子。

DNC采用了类似的方法，使用一个「注意力操作」从这个内存矩阵中读取数据。

在DNC中，内存模型可以处理过去的特定事件/数据。这种注意力操作需要固定数量的参数，而与内存大小无关，因此可以显著提高模型的内存容量。

随着 DNC的开发，带有附加注意力机制的递归神经网络在翻译和问题回答领域显示出了巨大的潜力。这些模型能够使用两种内存结构进行推理，一种是小型且紧凑的LSTM内存，一种是大型的外部内存。

不过，最近谷歌Google Brain 的研究人员提出了一种Transformer模型，它可以去除掉 LSTM，只利用注意力来传输信息。

Transformer 最初是应用在机器翻译任务上，性能明显优于递归神经网络。

随后Transformer被广泛应用到NLP的的其他任务当中，例如问答、文本摘要、情感分析等。过去一年，因为Transformer，这些方面取得了巨大的进步。

但这些模型仍然存在一个缺点，即它们会把所有的信息都存储起来，这样在每一个时间步上所消耗的计算成本和存储成本都非常大。

我们的大脑显然不是这样做的，我们不会像摄像机那样，把我们一生当中接收到的所有信息存储起来。而是会根据相关性、惊喜度、危险性、重复次数等因素来选择、过滤、整合所有的输入刺激。换句话说，我们会把一生的经历压缩成一组亮点记忆，帮助我们来理解过去，以及更好地预测未来。

这就是如何压缩的问题。

之前有一些工作通过稀疏访问机制来尝试压缩注意力中的计算消耗。但稀疏注意力方法并不能解决存储问题，而且通常需要定制的稀疏核才能有效地实现。

1、压缩Transformer

据雷锋网(公众号：雷锋网)AI科技评论了解，DeepMind为此提出了 Compressive Transformer模型（压缩 Transformer）。

简单来说，这是Transformer的一个简单变种，将过去隐藏激活（past hidden activations ，记忆）映射到一个更小的压缩表示集（压缩记忆）中。在记忆和压缩记忆上，压缩Transformer会使用相同的注意力机制，来学习查询它的短期颗粒记忆和长期粗记忆。