近日,微软亚洲研究院发布全新的、能帮助计算机更好运作的微软知识图谱(Microsoft Concept Graph)和 概念标签模型(Microsoft Concept Tagging),机器可以更好地理解人类交流并且进行语义计算。
微软知识图谱(Microsoft Concept Graph)
Microsoft Concept Graph 是一个大型的知识图谱系统。包含的知识来自于数以亿计的网页和多年积累的搜索日志,可以为机器提供文本理解的常识性知识。
研究员称,现在的人工智能可以战胜李世石,但其学习能力以及完成一般任务的能力可能都远不及一个三四岁的儿童。因此研究员们从人类的学习成长过程开始入手,试图找到逐步实现机器智能的解决方法。
如何逐步实现机器智能,微软亚洲研究院给出的答案是“常识”,常识是理解是万物的基础。人们从小就开始学习(对世界的认知),学习作为人类与生俱来的本能可让我们上学之前就已知道“西瓜是甜的水果”、“水是液体”等基础概念,随着年龄和经历的增长,这类并不属于某个细分专业领域的开放性常识也在不断增长。
微软亚洲研究院这次做的事情就是让计算机“懂得”这些常识性概念。为此, 经过六年的研究微软为 Microsoft Concept Graph 收集了超过 540 万条概念核心知识库。除了“建筑”、“诗人”等这类通用知识库外,还包含数百万比较生僻的长尾概念,如“抗帕金森治疗”、“名人婚纱设计师”、“基础的水彩技巧”等。与此同时,Microsoft Concept Graph 同样包含了大量数据空间(每条知识概念都包含一系列的实体或者子概念,例如“太阳系”底下可能就会包括“水星”、“火星”、“地球”等等)。
微软概念标签模型(Microsoft Concept Tagging)
概念标签模型(Microsoft Concept Tagging)与微软知识图谱(Microsoft Concept Graph)相辅相成。概念标签模型可以将文本词条实体映射到不同的语义概念,并根据实体文本内容被标记上相应的概率标签。举个例子,当我们看到“甲骨文市值很高”这句话时,首先“甲骨文”这个词会映射到“大公司”、“硅谷巨头”、“古代文字”、“埃里森”等概念。随后会触发根据前后的文字或者上下语句确定语义这一技能,根据微软知识图谱对“市值”的定义以及所用在的场景,再结合“甲骨文”,结合概率标签可计算出这里的甲骨文指的是“硅谷巨头”这一概念而非“古代文字”。具体来说,微软标签概念模型根据人类天生所掌握的概念推理能力,将短语映射到大量自动习得的概念空间(向量空间)。因此该模型提供了文本理解所需的文本概念映射、短语语义化理解等功能。
概念标签模型区别于以往常见 NLP 中文本推理模型的根本区别是它是基于网络之上的一个推理模型,将文本映射到一个显式的知识空间,将文本概念化。
以搜索引擎为例,用户在检索时,输入的词量相对较少,搜索引擎在去往搜索结果时需要将查询词进行额外的信息化,将词汇或文本映射到大量的概念空间里面,从而解释这一段文本。而传统模型对于文本的推理几乎不可解释,而微软标签概念模型用不同的概念去描述一个词,并给出对应的概率,使得机器能够更好地理解文本。
举个比较易理解的例子,在社交媒体中,工程师可能会人为设置一些关键字去屏蔽一些不当言论,但是并不是每一个敏感词工程师都能准确找到。微软在官方介绍中提到:
如工程师屏蔽了“希特勒”、“纳粹”,却忽略了“法西斯”,现在微软概念标签模型能对词汇原有的概念进行延展,在系统中找到其他类似的相关性很大的关键字,做更多智能的扩展。
目前 Microsoft Concept Graph 和 Microsoft Concept Tagging 模型可应用在搜索引擎、自动问答系统、在线广告系统、推荐系统、聊天机器人等。微软亚洲研究院闫峻博士表示:“我们希望 Microsoft Concept Graph 和 Microsoft Concept Tagging 模型的发布可以推动知识挖掘、自然语言处理等领域的发展,最终推动人工智能的进步。“
雷峰网原创文章,未经授权禁止转载。详情见。
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/216637.html