雷锋网 AI 科技评论按:本文是 Sebastian Ruder 博客中的最新发文,他汇总了专家调查结果以及 Deep Learning Indaba 小组讨论结果,着重于探讨 NLP 领域当下最棘手的 4 个问题。雷锋网(公众号:雷锋网) AI 科技评论将其编译如下。
这是我某主题系列文章的第二篇撰文,该主题系列扩充了 Deep Learning Indaba 2018 由 Herman Kamper、Stephan Gouws 和我组织的「自然语言处理前沿」小组讨论结果。
小组讨论 PPT:
https://drive.google.com/file/d/15ehMIJ7wY9A7RSmyJPNmrBMuC7se0PMP/view
小组讨论 录音:
上一篇文章我写了基于神经网络方法的 NLP 最新进展,这一篇我准备谈一谈 NLP 领域所面临的棘手问题。
在 Indaba 召开的前几周,我们向 NLP 专家们提出了一些简单却很关键的问题,最后根据他们的回复,我们发现以下 4 个问题被频频提起:
自然语言理解
NLP 在低资源状态下的运用
大型或多个文件的推理任务
数据集、问题、评估
会议中,我们在小组讨论环节对这些问题进行了探讨。
本文主要基于专家的答复(非常值得一读)以及小组成员(Jade Abbott、Stephan Gouws、Omoju Miller 和 Bernardt Duvenhage)的讨论结果撰写而成,目的是为更多对此感兴趣的人提供更多的论据。
小组成员
自然语言理解
「我认为最关键的开放性问题都与自然语言理解有关。我们应该开发出一个能够以人类方式阅读和理解文本的系统,它懂得如何形成文本表征,通过一切人类创造来理解文本的媒介:代理、对象、设置、关系、目标、愿望等。在做到这一点之前,我们的一切进步都只是在提高系统进行模式匹配的能力。」
– Kevin Gimpel
调查中的许多专家都认为自然语言理解(NLU)是其中最核心的问题,因为它是许多任务(如自然语言生成(NLG))的先决条件。大家的共识是,我们目前没有一个模型表现出对自然语言的「真实」理解。
先天偏见 v.s 从头学习
一个关键问题是,什么样的偏见和结构需要被明确地构建到模型当中,以保证接近 NLU 的效果?在 2018 年 NAACL 大会的一场综合研讨会也探讨了类似的问题,当时 Ana Marasovic 对 The Gradient 给出了自己的意见,而我则在此提出我的想法。在我们的调查中,我们发现许多专家的回复都在强调模型应该包含基本常识,同时多次提到了对话系统和聊天机器人。
另一方面,对于强化学习,David Silver 认为大家最终还是希望模型能够自行习得所有东西,包括算法、特征及预测等。然而许多专家却持有截然不同的观点,他们认为应该在模型中建立起一套理解机制。至于应该让模型学习什么以及用什么方法进行学习,Yann LeCun 和 Christopher Manning 在 2018 年的 2 月份对此有过一番争论。
程序合成
Omoju 认为,只要一日没搞懂支持 NLU 的实际运行和评估机制,我们很难创造出真正的机器理解机制。她认为我们可以考虑从程序合成里获取灵感,并基于高级的规范进行程序学习。需要补充的是,该想法与神经模块网络和神经程序员解释器有很大的关联。
她也建议,我们可以回顾那些在 80、90 年代开发出来的方法和框架(如 FrameNet),将之与统计方法进行结合。这有助于我们推断目标对象的常识属性,例如汽车是不是交通,有没有手柄等。针对常识性知识的推断已经成为近期 NLP 数据集的研究热点。
体验式学习
Stephan 认为我们应该利用好结构化资源和知识库中的信息(比如维基数据),他指出,人类通过体验和互动来学习一门语言,主要体现在具体的环境当中。有人可能会因此争辩,只要将某个学习算法与嵌在丰富环境中的代理进行结合,并配置合适的奖励结构,就能从头开始学习并提升至 NLU 的效果。然而他们忽略了这种环境对计算力的要求。比如 AlphaGo 就需要庞大的基础设施来完成棋盘游戏的运算。总的来说,创建一个具有持续学习能力的通用算法,很多时候与终身学习和通用问题求解器息息相关。
虽然很多人认为我们正朝着体验学习的方向发展,但我们不该低估创建完整体验代理所需要的基础设施和计算力。因此,等待一个成熟体验代理的出现然后进行语言学习似乎不是一个明智的想法。即便如此,我们依然可以采取一些措施来尽可能逼近这种设想,比如在模拟环境中进行基础语言学习、结合交互学习或者利用多模态数据。
情感
在会议快结束时,Omoju 提出,将情感相关的元素植入到体验代理会是一件非常困难的事情。然而不能否认的是,情感与对语言的深度理解有着千丝万缕的关系。另一方面,我们也许不需要一个具有人类情感的代理。Stephan 提到被大家认为是拟态和反社会的图灵测试——虽然没有情感——却可以欺骗人们认为他们确实这样做了。因此,我们有望找到一个不具备体验经历和情感,却能理解人们情感并帮助问题解决的方案。实际上,基于传感器的情绪识别系统一直在不断改进,而且我们也看到了文本情绪检测系统的进步。
认知与神经科学
一位观众提问,我们掌握了多少的认知与神经科学,多少被运用到了模型的建设中?实际上,认知与神经科学可以很好地激发我们的灵感,同时能作为思维塑造的指导方针。比如当下有一些模型就在试图仿拟人类快速与慢速思考的能力。换句话说,人工智能与神经科学在许多方面是互补的,正如 Surya Ganguli 在这篇文章中所说的那样。
文章链接:
Omoju 同时建议大家从认知科学的理论中去获取灵感,比如 Piaget 和 Vygotsky 的认知发展理论。她还敦促大家开展跨学科工作。这项提议得到了其他专家的热烈响应,Felix Hill 就建议大家多参加认知科学领域的会议。
NLP 在低资源状态下的运用
「如何处置低资源语言【低资源语言、方言(含社交媒体文本「方言」)、域名等】,似乎看起来不像是一个完全「开放」的问题,因为我们会经常听到很多解决方法的提出;事实上,我们在这个问题上一直没有通用的解决方案。」
– Karen Livescu
会上探讨的第二个主题是如何在低资源情景下基于训练数据进行模型训练。第一个问题主要集中在是否有必要为特定语言开发专门的 NLP 工具,还是说通用 NLP 工具的效果已经是绰绰有余。
通用语言模型
Bernardt 认为,不同语言之间存在普遍的共性,可以通过一个通用的语言模型来进行训练。关键挑战是,如何获取足够的数据量和计算力来训练这么一个模型。近期的跨语言 Transformer 语言模型训练和跨语言句子嵌入工作就与此密切相关。
跨语言表征
Stephan 强调,当下只有很小一部分人在进行低资源型语言的研究工作,而仅在非洲,就存在 1250-2100 种语言,其中大部分只获得 NLP 社区的极少关注。专用工具的开发问题,主要取决于当下热门的 NLP 任务。当前模型主要存在的是样本效率问题。跨语言嵌入具有更好的样本使用效率,因为它只需要翻译单词或者单词数据。它们充分对齐了单词嵌入空间,以完成类似主题分类这种粗粒度的任务,然而对于类似机器翻译这种细粒度的任务,就无能为力了。无论如何,近期的工作表明,这些嵌入已经成为无监督机器翻译的重要组成部分。
另一方面,处理高级任务的复杂模型(如问答)需要数千个用于学习的训练案例。将那些需要动用到自然语言理解能力的任务从高资源型语言迁移到低资源型语言,仍然非常具有挑战性。随着这类型任务的跨语言数据集的出现(如 XNLI),针对多种推理任务的跨语言模型的开发有望变得更容易。
收益和影响
另一个重要的问题是,由于低资源型语言本身只有少量文本可供使用,在这种情况下是否意味着 NLP 从中获取的好处很有限。Stephan 对这种说法表示强烈反对,他提醒,身为一名 ML 和 NLP 从业者,我们通常倾向于以信息论的方式来看待问题,比如最大化我们的数据或者改进基准线。退一步来说,我们之所以选择投身 NLP 任务,一个关键原因是希望能构建出一个无障碍的任务解决系统,比如建立一个能使人们阅读并非自身语言写成的新闻的模型,在医生资源匮乏的情况下向模型咨询有关自身的健康问题等。
鉴于其潜在影响,他认为低资源型语言系统的构建实际上是很重要的工作之一。虽说低资源型语言不具备大量数据可供使用,然而却具有「长尾效应」——地球上的很大一部分人群都在说着资源匮乏型语言。因此,我们需要尽快找到能在这种条件下发挥作用的系统。
Jade 认为,一直专注于研究具有大量数据的语言是一件很讽刺的事情,因为这些语言在世界各地存在完备的教学系统,我们更应该将研究重心放在低资源型语言上。Indaba 会议做得很好的一点是,有效推动了低资源型语言研究工作的进步。由于数据的稀缺性,即使研发出的只是很简单的系统(比词袋),也会对世界产生巨大的影响。现场观众 Etienne Barnard 指出,他在语音处理领域观察到一个很有意思的现象:相较于使用自身语言的系统,用户通常更有动力使用英语系统,前提是该英语系统能够对自身语言起作用。
激励与技能
另一名观众表示,人们在高度可见的基准线上开展测试会感到被激励,例如英语转德语的机器翻译,然而这份激励在低资源型语言的工作中是不存在的。Stephan 认为,问题尚未被解决就是最好的激励。无论如何,人口统计学尚无法提供技能来解决这些问题。我们应该注重传授类似机器翻译等技能来让人们用于解决问题。遗憾的是,学术界的进展很多时候不一定和低资源型语言相关。不过,跨语言基准一旦变得日益普遍,就有望推动低资源型语言研究取得更多进展。
数据可利用性
最后 Jade 强调,另一个大问题是低资源型语言没有可用的数据集,例如非洲的一些语言。如果我们能够创建出数据集并对外开放(例如在 openAFRICA 上进行托管),将能够激励更多人投入到相关研究里来,同时还降低了研究门槛。一般来说,只要提供多种语言的测试数据就足够了,这将有助于我们评估跨语言模型并跟踪其研发进度。另一个关键的数据源来自于南非数字语言资源中心(SADiLaR),该中心可以提供许多南非的语言资源。
大型或多个文件的推理任务
「有效地表征大型文件。我们目前的模型主要基于递归神经网络,这也就意味着无法高效表征较长的文本。图形启发的 RNN 工作流很被看好,虽然其只有适度改进,并且由于比 vanilla RNN 更加不适应于直接训练而没有被广泛采用。」
– Isabelle Augenstein
另一个关键问题是大型或多个文件的推理任务。近期的 NarrativeQA 数据集作为该任务的基准线就是一个绝佳案例。针对大型文件的推理任务与 NLU 密切相关,需要我们大幅扩展当前系统的能力,直到能够阅读整本书籍和电影脚本为止。然而这里存在一个问题是(当时我们没有时间对此展开讨论),我们究竟是需要一个更好的模型,亦或是需要更多的数据进行训练即可。
OpenAI Five 的成果表明,只要有更多的数据和计算力,模型的潜力将超出我们想象。拥有足够的数据量,我们的模型能在大型文件的处理上表现更好。问题在于,针对大型文件的监督学习不但稀缺,而且昂贵。当然我们也可以参照语言建模和 skip-thoughts,构思出一个针对文档无监督学习任务,以预测书的下一段或下一章节,甚至是决定下一章节内容的出现顺序。然而不可否认的是,这个方法也许过于低效了,无法从中学习到真正有用的表征。
因此,一个更靠谱的方向,应该是是开发出一个能够高效表征文件、同时在阅读文档时更好跟踪相关信息的方法。skip-thoughts 和 multi-document question answering 是这个方向上的代表。接下来,我们可以考虑创建具有改进记忆和终身学习能力的语言模型。
数据集、问题、评估
「也许我们所面临的最大问题是如何正确定义问题本身。恰当地定义问题,就是建立适合于衡量实现具体目标的数据集和评估程序。如果能够减少类似 Kaggle 这种风格的比赛,情况会比现在更乐观一些!」
– Mikel Artetxe
我们没有太多时间讨论关于当下基准和评估机制的问题,但您可以在调查回复中找到许多相关的答案。
调查回复链接:
https://docs.google.com/document/d/18NoNdArdzDLJFQGBMVMsQ-iLOowP1XXDaSVRmYN0IyM/edit
最后一个问题是,哪些是非洲社会应该着重解决的 NLP 问题。Jade 认为是资源匮乏的问题,尤其是教育领域的翻译工具,要使当地人能够以自身语言触达他们想知道的事情。
会议以专家的调查回复内容收尾,涉及的问题包括「如果出现某些事情导致领域走向错误的方向,应该怎么办?」、「对于即将开始一项新项目的 NLP 研究生,你有什么建议给到他们?」等吗,这些同样可以在调查结果中找到对应的答案。
调查回复链接:
https://docs.google.com/document/d/18NoNdArdzDLJFQGBMVMsQ-iLOowP1XXDaSVRmYN0IyM/edit#
附录:Deep Learning Indaba 2019
如果您对低资源型语言的研究感兴趣,可以考虑参加 2019 年 8 月 25 日至 8 月 31 日在肯尼亚内罗毕举行的 Deep Learning Indaba 2019。
via http://ruder.io/4-biggest-open-problems-in-nlp/
雷锋网 AI 科技评论
。
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/134878.html