雷锋网(公众号:雷锋网) AI 科技评论消息,微软亚洲研究院(MSRA)刘铁岩团队近日在arXiv上传了一篇论文,论文标题为“Dual Supervised Learning”(对偶监督学习)。据了解,这篇论文已经被即将于今年8月举行的ICML接受。论文中展示了对偶监督学习的机器学习范式在机器双语翻译、图像分类与生成、情感分析与分析三组任务中都可以为原模型带来明显的提升。
ICML2017论文:对偶监督学习
另一方面,去年微软亚研有一篇NIPS论文“Dual Learning for Machine Translation”(用于机器翻译的对偶学习),雷锋网硬创公开课也曾邀请到论文作者之一的微软亚研主管研究员秦涛博士给大家做了详细的分享( 微软亚洲研究院秦涛:对偶学习的对称之美,秦涛博士同样也是今年新论文的作者之一)。
秦涛博士作客雷锋网硬创公开课
那么,NIPS2016论文的“对偶学习”与今年ICML2017论文的“对偶监督学习”有何异同点?对没有接触过的读者,对偶学习又是怎样的一种范式?雷锋网 AI 科技评论在本文中会先介绍和回顾对偶学习,然后再讲解对偶监督学习的新特点。
NIPS2016论文介绍的新范式——“对偶学习”
在 AI 发展面临的关于数据、时间、解释性、协作性的众多挑战中,对偶学习的提出主要是为了解决依赖大量数据的问题。相比标签传播(Label Propagation)、多任务学习(Multi-task Learning)、迁移学习(Transfer Learning)这样利用数据相似性的解决方法,对偶学习(Dual Learning)利用的是 AI 任务中自然出现的对称性。比如:
-
机器翻译,有英翻中和中翻英的对称;
-
语音处理,需要语音转文字(语音识别),也有文本转语音(语音合成)的任务;
-
图像理解,图像描述(image captioning)与图像生成 (image generation)是一个对称的过程;
-
对话任务,问题回答(Question answering)与问题生成(Question generation);
-
搜索引擎,文本匹配查询(Query-document matching)与广告关键词推荐服务(Query/keyword suggestion)
如上这些任务以往都是单独训练的,而且要利用大量的有标签数据才能训练。那么如果考虑到任务的对称性,一个英文句子被翻译成英文,再从中文翻译成英文,还能跟一开始的句子非常相近的话,就可以认为“英翻中”和“中翻英”两个翻译器都表现很好;而且所用的句子还可以是无标签的。
NIPS2016对偶学习论文的模型示意图
如图就是对偶学习的模型示意图,主任务 f 把无标注英文句子 x 翻译为中文 y,对偶任务 g 把中文 y 翻译回中文 x'。模型从过程中得到两个反馈,一个部分反馈是来自懂中文的智能体,评价中文 y 的翻译质量如何;另一个反馈是来自懂英文的智能体,比较 x 和 x' 获得反馈。这样,一个流程结束以后,模型就可以获得完整反馈。
NIPS2016对偶学习论文的策略梯度示意图
有了反馈,就可以把强化学习的一些方法直接用于训练更新模型 f 和 g 。论文中所用的方法为策略梯度 policy gradient,对主任务 f 和对偶任务 g 求梯度,增加好的行为出现的概率,降低不好的行为出现的概率。
另一方面,由于只有单一输入,由两个智能体自己产生反馈,不需要把翻译结果与输入对应的标签对比,所以这是一种无监督学习方法。
对偶学习的效果如何呢? 在使用了1200万个双语标注句的英法翻译实验中,相比于2016年时效果最好的基于深度神经网络的机器翻译算法(Neural Machine Translation),对偶学习只需要其中10%的双语数据就可以达到NMT采用了全部数据进行训练的准确度。训练所需数据量可以减少90%,很好地达成了预期效果。
NIPS对偶学习论文的训练结果示意图
根据秦涛博士介绍,对偶学习有一个问题是很难冷启动,即需要先对主任务和对偶任务的两个智能体进行一定的训练后才能够利用对偶学习进行联合反馈训练,否则模型收敛会变得很慢。
ICML2017新论文——对偶监督学习
既然以上的无监督对偶学习有这么好的效果,要如何运用于监督学习中呢?
还是以翻译为例,在监督学习中,当知道主任务 f 应该得到的正确翻译为 y 之后,就可以用最大似然准则更新 f,使 y 出现的概率越大越好。
对于对偶监督学习,需要主任务 f 和对偶任务 g 都能出现正确翻译 y 与 x,这样就会存在一个联合概率 P( x,y )。如果 f 与 g 的更新是同步的,通过 f 和 g 都可以单独计算出这个联合概率。但如果 f 和 g 是根据监督学习分开训练的,就不能保证单独计算出的联合概率相同。
为了解决这个问题,论文中为对偶监督学习增加了一项正则化项。
ICML2017对偶监督学习论文的模型示意图
这个正则化项的含义是将 f 得到正确结果 y 和 g 得到正确结果 x 两个概率的差值最小化,从而通过结构的对称性加强了监督学习过程,让两个互为对称的任务共同进行学习。
在学习过程中共优化三个损失函数:
1) 从带标签输入 x 经主任务 f 得到 y 的对数似然
2) 从对偶输入 y 经对偶任务 g 得到 x 的对数似然
3) 以上两个对数似然的差值,即正则化项。
这与SVM正则化项的区别在于,SVM的正则化项与模型有关,与数据无关;但对偶监督学习中讨论的正则化像还与数据相关。由于具有了这样的正则化项,每个训练数据都能够参与到正则化项中,而且主任务、对偶任务的两个模型可以互相影响。
根据优化过程的特点,论文中还一并指出了对偶监督学习的适用条件:
1) 有两个任务,它们之间具有对称性
2) 主任务和对偶任务都是可训练的
3) 模型出现理想结果的经验概率是可求的
如文章开头所述,图像、文本、语音相关的许多任务是满足这些条件的。
对偶监督学习的效果
论文中在机器翻译、图像分类、情感分析三种任务测试了对偶监督学习的效果,都证明了可以带来显著的提升。
机器翻译
论文中先分别对主任务、对偶任务的模型进行一定训练后,用对偶监督学习的方法进行联合训练。与目前翻译效果最好的NMT与MRT神经网络机器翻译相比,BLEU分数得到了进一步提升。
图像分类
与机器翻译不同,图像分类与图像生成的过程存在信息损失。这导致目前图像生成的效果不尽如人意而且提高困难。根据对偶监督学习能够减少两个任务间概率差值的特点,我们可以期待对偶监督学习能够更好地从标签恢复图像。
表现对比中选用的基准模型是PixelCNN++,不出意外地,基于CIFAR-10的bpd分数从2.94进步到了2.93,即便只有0.01的提高也非常难得。实际生成的图像对比如下图:
每一横行的图像是从同一个类别标签生成的结果;左边五个来自基准模型,右边五个来自对偶监督学习模型。图像质量有可见的提升,尤其对于第3、4、6行的鸟、猫、狗。
不止是生成,经过对偶监督学习训练后的 ResNet-32 和 ResNet-110 两种不同复杂度的网络识别效果也都得到了提升。
情感分析
对句子做正向/负向情感分析,或者根据给定的正向/负向情感反向生成句子,这个过程中的信息损失非常严重,只留下了1bit的信息而已。论文中认为对句子做情感分析的结果提升比较微小,这是其中的原因之一。基准模型选用的是LSTM。
不过到了反向生成句子的时候,经过对偶监督学习的模型展现出了强大的表现力,对简单短句的使用变少了,并且选用的单词、词语、句式表达出的情感更强烈、更具体。
后续研究目标
论文在结尾处表示,以上的例子已经可以说明对偶监督学习的提升效果,后续也会在更多任务中进行尝试(比如文本/语音转换)。同时,如何把无标签对偶学习和对偶监督学习结合起来,利用无标签数据继续提升模型表现,以及尝试把对偶监督学习与对偶推理(dual inference)结合起来以便利用结构对称性来增强训练和推理过程也是刘铁岩团队后续打算研究的方向。
论文地址:https://arxiv.org/abs/1707.00415 , 雷锋网 AI 科技评论编译
相关文章:
微软亚洲研究院秦涛:对偶学习的对称之美 | 雷锋网公开课总结
雷锋网版权文章,未经授权禁止转载。详情见。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/126639.html