雷锋网(公众号:雷锋网) AI 科技评论按,近日,由百度联合中国计算机学会中文信息技术专委会、中国中文信息学会青工委举办的「2019 自然语言处理前沿论坛」上,来自百度和各大高校的嘉宾们分享了关于 NLP 技术研究的心得体会。
本次论坛主题为「机器之‘读、写、说、译’—— 探寻 NLP 未来之路」,来自百度的嘉宾们分别在语义计算、自动问答、语言生成、人机对话和机器翻译 5 场专题报告中分享了百度 NLP 技术的研究成果与应用。
语义计算
百度 NLP 主任研发架构师、语义计算技术负责人孙宇:百度语义计算技术及其应用
孙宇主要介绍了百度语义表示技术的发展和研究成果、落地情况。
他表示,百度的语义计算方向包括语义表示学习、语义匹配计算、语义解析、多模态语义计算。计算机理解人类语言是一件非常有挑战性的事情。
语义表示技术存在的问题是,自然语言存在基本单元一词多义、多词同义、句子表述无限等特性。而我们的目标是将语言符号“表示”为另一种形式,这种表示具有语义上的等价性,更好的可计算性,更好地把握语义信息。
百度早期的语义表示技术采用的是基于检索和主题模型的表示方法,包括 Term 向量表示、PLSA、LDA等。
在 2013~2016 年,随着基于 DNN 表示技术的兴起,百度开始了 word embedding 的研究。采用的算法是 RNNLM + Hierarchical softmax,其规模达到 1T 百度网页数据,100 万超大规模中文词覆盖,主要研究问题是解决大规模分布式计算问题。2017 年,百度进行了基于大规模表示迁移在口语理解任务的探索。
语义匹配方面,百度 2013 年率先提出了 SimNet 技术,并成功用于网页搜索,在未来的几年中,对该技术做了很多改进创新,包括数据分析、粒度知识融合、交互式匹配模型等方面的创新。SimNet 显著改善了长冷 query 的搜索效果,提升了搜索智能化的水平,在百度搜索发挥至关重要的作用。当前,SimNet 语义匹配技术在百度各产品广泛应用。
现在,百度的最新研究是提出了知识增强的语义表示模型 ERNIE 并发布了基于 PaddlePaddle 的开源代码与模型。 框架包括基于海量百科、新闻、对话多源数据训练,双向多层 Transformer的语义建模模型,融合并强化中文词、实体等先验语义知识学习,多阶段知识学习。在自然语言推断、语义相似度、命名实体识别、情感分析、问答匹配 等多个公开的中文数据集合上进行实验,均取得了最好的效果。
百度接下来的主要工作还是会以语义表示为重点突破方向,包括知识的利用,自监督任务的学习,弱监督信号的利用,多语言、跨模态表示等。
自动问答
百度 NLP 资深研发工程师、阅读理解与问答技术负责人刘璟:百度阅读理解技术研究及应用
机器阅读理解是指让机器阅读文本,然后回答和阅读内容相关的问题。机器阅读理解是自动问答的关键技术之一,该技术可以广泛应用于智能问答、智能音箱、智能客服等产品中,因此长期以来受到学术界和工业界的广泛关注。得益于近两年阅读理解技术的快速进步,百度已将这一技术应用到智能问答中。
百度主要研发了面向搜索场景的多文档阅读理解模型 V-NET,以及知识表示和文本表示融合模型 KT-NET。
面向搜索场景的多文档阅读理解中,每个问题包含了多个段落,因此通常存在歧义信息较多的挑战。对此,百度研发了端到端的多文档阅读理解模型 V-NET,该模型在英文多文档阅读理解数据集 MSMARCO V2 问答任务上三次排名第一。
此外,机器阅读理解不仅要求机器理解给定的文本内容,还要求机器具备外部知识以支撑更为复杂的推理。为此,百度开创性地提出了语言表示与知识表示的深度融合模型 KT-NET,同时借助语言和知识进一步提升机器阅读理解的效果。KT-NET 目前是常识推理阅读理解数据集 ReCoRD 榜单上排名第一的模型。
除了在技术上不断投入研发,百度在去年推出了面向搜索场景的最大规模的中文阅读理解数据集 DuReader 2.0,规模包含了 30 万问题和 150 万文档和 66 万答案。百度、中国计算机学会和中文信息学会连续两年举办了基于 DuReader 数据集的机器阅读理解评测,推动了中文阅读理解技术的进步。
语言生成
百度 NLP 主任研发架构师、篇章理解与语言生成技术负责人肖欣延:自然语言生成,助力智能内容创作
肖欣延表示,随着内容生态和智能交互的发展,自然语言生成得到越来越多的关注。一方面自然语言生成能够帮助内容创作者提升创作效率,另一方面,也能够用来改善交互的用户体验。
自然语言生成的愿景是,让机器像人类一样去表达和创作。具体来看,它包含很多类型的任务,包括数据到文本的生成、文本到文本的生成、诗歌对联的生成、多模生成、跨语言生成、对话生成等任务。此次报告中,主要从前面四个任务,介绍自然语言生成在内容创作的技术及应用。
首先是数据到文本的生成。这里展示了具体的足球比赛快讯生成样例。传统的方法是基于宏观规划、微观规划、表层实现的句法树生成算法,这种算法效果可控,在业务中十分实用。同时报告中也介绍了基于深度学习的方法。方法是将宏观规划融合到层次化序列生成算法中,在公开测试集效果不错。
其次是文本到文本的生成。这里展示了基于摘要聚合的写作,能够快速对热点进行综述报道。其中的核心技术是摘要技术。传统而实用的方法主要是抽取式的算法,通过文档分析、句子排序、句子选择、摘要构建输出摘要。百度同时也创新提出了基于信息选择网络的生成式摘要,并在公开主流数据上得到不错的实验效果。
第三是创意写作,包括诗歌和对联生成。百度创新提出了基于规划的神经网络,并用于诗歌生成。目前基于神经网络生成算法,在写诗写对联上已经都比较实用。
最后一个任务是多模生成。百度初步尝试了基于视频的写作,通过多模理解技术,如视频理解、观点分析、知识图谱的技术,获得视频的结构化、半结构化表示,然后在利用前面所述的基于数据的生成,撰写出内容丰富的文章。
肖欣延接着讨论了智能写作和人工撰写的关系。智能写作通过大数据分析,获取热点素材,然后快速根据数据生成报道,但是它生成的报道格式比较固定。而人类写作时,在看到数据或事物之后,会产生各种演绎和联想,深度挖掘各种题材,因而写作形式也多种多样。所以,从整体上来看,机器和人的差距依然存在,智能写作不能完全取代作者,而应该和作者分工合作。
为此百度推出了智能写作平台,提供自动写作和辅助写作的能力,进而帮助创作者提升内容创作的效率和质量,为智能创作领域提供更多可能。目前已经可以通过百度的 AI 平台进行访问。
谈到未来,他表示有很多比较看好的应用。一方面,写作将会更加自动、更生动、更有深度;另一方面,基于神经网络的生成模型会逐渐实用化;在媒体行业,智能写作会广泛的落地,成为人类创作的助手;在智能交互家居中,语言生成技术也能够很好的提升用户的交互体验。
人机对话
百度 NLP 主任研发架构师、UNIT 技术负责人孙珂博士:对话系统的应用技术探索
近几年来,随着智能对话逐步深入到各行各业,用户已经可以在车载、音箱、客服、机器人等场景感受到智能对话给大家的生活带来的便捷与改变。
然而,随着智能对话技术产业化落地的进一步深入,也面临了更多的挑战。例如对话系统的建设成本与效率是企业面临的很大挑战,企业需要投入大量人力和时间进行数据 积累与整理、同时也要为高质量的效果与复杂系统集成 付出较多的成本。
据此,百度基于多年积累的自然语言理解与交互技术、深度学习、大数据等核心能力,打造了智能对话系统定制与服务平台 UNIT,帮助开发者降低对话系统研发门槛,精确适配业务需求,训练自己的对话系统。
在 UNIT 平台中,集成了目前工业级研发比较成熟的三种主流对话系统技术,包括任务型对话系统、问答型对话系统和闲聊型对话系统。孙珂博士重点介绍了其中的任务型对话系统的实现。据介绍,在任务型对话系统中,对话理解的深度与系统的实现成本是百度 UNIT 关注的核心问题。UNIT 通过融合语义表示预训练模型 ERNIE 的对话理解模型和数据辅助生产工具 DataKit,综合节省了 60% 的任务式对话系统研发成本。
除此之外, UNIT 还针对理解中的常见错误,总结抽象了 15 套对话容错机制,并将其标品化,据介绍,该机制可以通过简单的澄清反问,大幅提升对话理解的整体达成效率。
最后,孙珂博士还展示了 UNIT 基于阅读理解技术为开发者搭建的对话式文档问答技术。通过该技术,开发者只需上传业务文档并一键训练,即可在1分钟内快速定制问答系统。
机器翻译
百度人工智能技术委员会主席何中军:机器同传进展与展望
同声传译最早出现在 1919 年,它最突出的特点是时间延迟小,信息传递效率非常高,因此被广泛的应用于重要国际会议、外交谈判等重要场景。在同声传译的过程中,同声译员需要全神贯注地进行监听,工作强度极高。由于苛刻的要求,全球同传译员稀缺。与巨大的市场需求相比,人才严重短缺。
目前,机器同声传译技术面临着三大挑战,一是技术挑战,二是数据挑战,三是评价挑战。
技术挑战方面,第一个问题是噪声问题,由于说话人的口音、语速、现场会议噪声等因素,使得语音识别的结果存在错误。第二个问题是断句,需要对语音识别后的结果进行分句并加上标点。第三个问题是,时间延迟与准确率存在矛盾。如果要提高准确率,就需要等待说话人的具体意思表达完整之后再进行翻译,时间延迟就会比较高。第四个问题是翻译的连贯性。同传的主要场景是对演讲者的内容进行实时翻译,需要保证翻译前后内容的连贯和一致。
第二是数据挑战。面向真实场景的训练数据只有几十到几百个小时,这么少的数据对于训练一个高质量的同传系统而言远远不够。
第三是评价挑战。在文本翻译的时候,我们有足够的时间去思考、润色和加工。而在同声传译时,实时性非常强,所采用的翻译方式与文本翻译不同。针对文本的评价方式不适用于评价同传。
针对语音识别错误的问题,百度提出了联合词向量编码模型。这个模型非常简单,就是在原来文本向量的基础上引入了音节向量,使得模型具有了一定的容错能力。
百度还提出了可控时延的翻译模型,来解决时间延迟的问题。在传统的文本翻译过程中,我们要等待一个句子完全输入完毕以后才能进行翻译。百度从同传译员那里获得灵感,提出了一个可以预测的模型,在原始句子只输入几个字以后,就可以开始预测和翻译。
在语篇翻译方面,百度提出了多轮解码策略,第一遍首先进行传统的粗解码,在这个基础上,再结合句子的上下文进行第二遍精细解码。同时,引入了强化学习策略,对产生的句子进行反馈和优化,以进一步提升句子之间的流畅度。
此外,在端到端机器同传模型方面,百度提出基于知识蒸馏的同传模型。利用大规模文本翻译语料训练一个教师模型,去优化端到端的同传翻译模型。该模型可以有效克服数据稀疏问题,显著提升翻译质量。
为推动机器同传技术发展,百度翻译联合 CCMT2019(全国机器翻译研讨会)推出全球首个面向真实场景的中英同传评测任务,同时发布了首个真实演讲场景的中英同传数据集 CCMT2019-BSTC,两项工作都将极大地推动同声传译的相关研究和发展。
何中军表示,未来,机器同传可以从以下三个方面开展工作,在模型方面,研究高鲁棒、低时延的同传模型;在数据方面,建设大规模面向真实场景的同传数据;在评价方面,建立面向同传的评价体系和标准。
雷锋网雷锋网
雷锋网版权文章,未经授权禁止转载。详情见。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/135329.html