谷歌研发能处理多域多任务的机器学习模型——MultiModel

我们知道，人工智能领域虽然发展迅速，但大部分机器学习的系统都是针对特定的学习任务存在的，例如会下棋的AlphaGo，识别人脸的图像识别模型，识别语音语义的智能语音助手等等。这些机器学习的系统都只面向特定的任务，目前很少有模型能真正突破狭义机器学习的限制，有能力学习多种不同领域任务。

近日雷锋网了解到，谷歌在博客上发表了文章，提出了自己研发的新机器学习系统MultiModel，一个有能力处理多个任务的机器学习模型。这一模型由多伦多大学计算机科学机器学习小组研究员ÅukaszKaiser，Google Brain Team高级研究科学家Aidan N. Gomez 联合发布，以下是雷锋网(公众号：雷锋网)对MultiModel文章的翻译：

在过去十年里，深度学习的应用和表现都是以惊人的速度高速发展着。然而，目前这一领域的神经网络架构对于特定的应用领域都是高度集中化的，一直有一个重要的问题仍然没有被解决：领域之间的融合，能否有助于统一模型在多个领域都表现良好？

今天，谷歌研究院提出了MultiModel，这是一个在视觉，语言和音频网络任务中都表现良好的的神经网络架构，它能够同时解决跨越多个领域的多个问题，包括图像识别，翻译和语音识别。尽管在Google翻译也曾经使用过Google多语种神经机器翻译系统，在解决多任务领域有所进步，但MultiModel是首先将视觉，音频和语言理解融入单一网络的机器学习模型。

MultiModel处理多领域的灵感来自于人类大脑，人类大脑是如何将不同模式（如声音，视觉或味觉）的感官输入转化为单一的表达形式，并以语言或动作的形式给予反馈的呢？通过模拟大脑对这些模式和对它们所进行的转换，MultiModel有很多的子网络，用于音频，图像或文本等特定形态的任务，MultiModel由编码器，输入/输出混合器和解码器组成共享模型，如下图所示。

谷歌研发能处理多域多任务的机器学习模型——MultiModel

MultiModel结构：小型特定子网络与共享编码器，I / O混合器和解码器一起工作。每个小花瓣代表一种形态，转化为内在的表征（source：googleblog）

MultiModel能够同时学习八种不同的任务：它可以检测图像中的物体，提供字幕，识别语音，翻译四种语言，同时进行语法解析。给定的输入和一个非常简单的信号一起，该信号决定了我们要求的输出形式。

在设计MultiModel时，很明显有一些研究领域（视觉，语言和音频）的某些元素，对于模型在相关任务中取得成功是及其重要的。谷歌研究院证明，这些计算原语（如卷积，注意力或专家混合层）可以显着提高模型在原本应用领域的性能，同时不会影响MultiModel在其他任务中的性能。MultiModel不仅可以在多个任务联合训练上取得良好的表现，而且在数量有限的任务上，也可能实际提高性能。令我们感到惊讶的是，即使这些任务来自完全不同的领域，这种现象（性能提高）仍然存在。例如，图像识别任务可以提高语言任务的性能。

重要的是，虽然MultiModel没有刷新最优性能记录，但它确实提供了一种新的思维，增加了团队对神经网络中多域多任务学习的了解，以及通过引入辅助任务（auxiliary task）来解决在数据有限时训练模型的问题。在机器学习中有一种说法：“最好的正则化方法就是引入更多的数据”；而在MultiModel中，这些数据可以通过多领域获取，因此比以前获取数据要更加容易。 MultiModel表明，与其他任务相结合的训练可以获得良好的效果，并能够在数据有限的情况下提供模型的性能。

关于多域机器学习的许多疑问尚待研究，谷歌研究院将继续致力于优化Multimodel，提高它的性能。为了使这项研究能够更快发展，MultiModel将在Tensor2Tensor库中开发。谷歌研究院认为，对来自多个领域的数据进行联合训练的协同模式将成为深度学习的下一个研究方向，并将最终突破狭义训练网络的限制。

via research.googleblog, 雷锋网编译

雷锋网版权文章，未经授权禁止转载。详情见。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/126129.html

谷歌研发能处理多域多任务的机器学习模型——MultiModel

相关推荐

发表回复