雷锋网AI科技评论按:阿里人工智能实验室在上个月的10月16日宣布引入两位重量级AI人才。这两位科学家来头都不小,一位是微软亚洲研究院首席研究员聂再清博士,另一位是谷歌Tango和DayDream项目技术主管李名杨博士。两位大咖入职阿里被外界称之为:阿里达摩院成立后打响的人才强夺战第一枪。我们来看看他们自己是怎么评价的。
雷锋网分别对两位科学家作了专访,李名杨博士专访链接请点击:独家 | 阿里机器视觉专家李名杨:AR 是 AI 的一种体现方式。
阿里人工智能实验室北京研发中心负责人聂再清博士
聂再清博士加入 AI Labs 此前在微软亚洲研究院主要负责微软自然语言理解、实体挖掘的研发工作。在对象级别搜索与大数据挖掘方面申请国际专利十余项。他带领团队旨在通过大数据挖掘和众包,建立 Web-scale 知识图谱,是微软学术搜索、人立方,以及企业智能助理 EDI 的发起人和负责人,也是微软自然语言理解平台LUIS的技术负责人。相关技术已经应用在 Bing、Office、Cortana 等产品上。
加入阿里 AI Labs 之后,他除了负责北京研发中心的各项研发工作外,还将重点突破知识图谱和自然语言理解这两个研究方向。
笔者在采访之前,了解到聂再清博士已在微软工作了十三年,想必这次入职阿里也是下了很大的决心和勇气。聂博士在采访中也透漏出了对微软的难舍之情。他说:“微软就像一个大家庭一样,让我学习了很多,成长了很多,在离职的最后一刻,还是很不舍。”
聂博士谈到,这次加盟阿里主要原因还是很多思维理念和阿里相一致,很认同阿里达摩院做研究的方式。在阿里人工智能实验室有可能把一件事情从一个研究做到一个真正有影响力的,影响千家万户的实用产品,这一点对他来说非常具有吸引力。
微软给研究者提供更多的是基于兴趣做研究,阿里人工智能实验室对研究者的要求主要是基于产品的需求并结合研究兴趣做研究。聂再清博士表示这两者并不冲突,今后在阿里主要负责的两个突破方向是知识图谱和自然语言理解,这是他在博士期间就开始从事的,也是他的兴趣所在。如果是站在阿里的角度思考,也不会让他做自己不感兴趣的研究,这对于企业也不是利益最大化。
做算法出身,却认为数据比算法重要。算法、数据、算力到底哪个最重要,一般的回答者都认为自己做的那个最重要,而带领团队做算法的聂博士认为数据比算法重要。“数据能充分利用的话,其实可以用相对简单的算法就能达到很好的效果。”他说道。值得一提的是,马云也多次在公开场合表达过“数据比算法重要”的类似观点,聂博士在得知自己对这一问题的看法和马云演讲中所讲的观点高度一致后,感到非常开心。思维理念与阿里又一次接轨,使得聂博士对未来的研究也充满了信心与期待。
除此之外,聂再清博士还对于笔者提出的关于目前知识图谱建立的难点,以及自然语言理解面临的挑战等问题给出了详细的解答。以下是雷锋网(公众号:雷锋网)的专访内容。
一、过去的十三年里,您为什么一直坚持在微软做研究?
聂再清:微软就像一个大家庭一样,我学习了很多,成长了很多。包括在离职的最后一刻都很难过,觉得很不舍。
在微软做研究确实是一个很好的地方,但我有一点是想把一件事情从研究阶段一直推到产品,想把它的影响力做出来。我在微软主要做了这几件事情,学术搜索,人立方,包括在微软时做的最后一个产品 (LUIS) 这些项目我觉得在研究这一层已经很好了,很多人都知道,也有很多人在用,但是还没有变成特别有影响力的(路人皆知的)产品。
我到阿里来,是觉得现在人工智能实验室有这么一个机会,有可能把一件事情从一个研究做成一个真正影响到千家万户的实用的产品。我认为做研究在微软研究院还是很好的,但每个人的追求不同,其实我在研究院也不是最典型的发论文的研究员,我一直是以把一件事情做出来这样的方式来做研究。我更多是希望做一个创新产品时,在做的过程中能及时拿到别人的反馈,再形成新的解决方案,形成新的创新,按照这个思路把这样的创新一步一步去迭代。我在微软亚洲研究院也都是这样一个思路做研究。在我们以前沈向洋当院长时,把这个叫做(deployment-driven research)拿到用户的反馈去做研究。
二、为什么选择在这个时机加入阿里,和阿里达摩院成立有关系吗?
聂再清:阿里改变了很多人的生活方式,是一个很落地的公司。我很崇拜马老师(马云),他在做有用又很有趣的事儿。另外我和阿里人工智能实验室的浅雪(花名)谈的很默契,我觉得在这里可以把我的一些想法做成真正影响很多人生活的一个东西。达摩院是我决定来阿里之后成立的,达摩院做研究的方式,我是很认同的。
三、基于兴趣做研究和基于产品需求做研究,您认为哪一个好?
聂再清:我觉得两者不违背。首先,我不会去做一个我不感兴趣的研究,我在微软所做的事情和在这里做的是相关联的,并不是毫无关系的。我原来的兴趣爱好或原来的想法,在这里能够扩大,能更快速的实现。如果站在公司的角度,如果公司让我做一个我不太感兴趣的事儿,对公司也不是最大的利益诉求。我觉得这两点可以搭配的很好。
四、阿里AI Labs,总体可分为终端实验室和算法实验室,您主要负责哪一块儿?能具体谈谈吗?
聂再清:我所带领的团队是偏算法研究。主要负责两个,知识图谱和自然语言理解。这跟我以前在微软所做的事情一直都是分不开的,包括我在博士期间,都是可以连起来的。我在博士期间做了一个学术搜索,当时并没有把所有数据都集成起来,建成由实体关系连接的知识图谱形式,这个形式是在微软以后,我才慢慢提出来的。我来微软的第一个项目就是微软的学术搜索,这个在05年就发布了,我一直在微软做的事儿还是知识图谱的建立,包括后来的人立方;LUIS,基于知识图谱怎样去做语言理解,把自然语言中的一句话对应到知识图谱上的一个实体ID(唯一标识号)上,比如说,一个用户说“播放马云的歌”,自然语言理解的一个很重要的工作就是把用户提到的字符串“马云”对应到知识图谱上的一个具体的人物ID上去 。我在做的一直是建立知识图谱,然后把自然语言映射(map)到知识图谱中,因为具体到了知识图谱中的ID了,才能做一个聊天机器人,才能去执行,否则只是字符串,字符串是无法执行的。我到阿里人工智能实验室,还是建立知识图谱,还是做自然语言理解,还是把自然语言理解放到知识图谱中的ID上。要和用户自然交互,一定要理解用户这句话什么意思,这句话中有什么意图,意图中有哪些实体,比如“杭州明天天气怎么样?”,意图就是天气预报,杭州和明天都必须对应到可唯一识别的实体ID上去。
我做的知识图谱和自然语言理解是连在一起的。
五、目前自然语言理解有哪些比较难的问题吗?
聂再清:最难的问题是自然语言的多样性和它的歧义性。比如问天气怎么样,有太多种问法了。比如,明天会下雨吗?明天能出去玩吗?明天天气怎么样?明天天晴吗?有太多这种多样性。歧义性也是,比如说一个地名,有的时候一个词代表不同的意思,你怎么把它变成一个意图,一个ID。我感觉自然语言理解是人工智能最难的一环,是真正触碰到智能了。我希望和广大开发者们一起建立一个很好的生态系统,把一个个技能都建立的很好,一起建立一个很好的自然语言交互开发者平台和一个智能的语音交互入口。
六、自然语言理解还有一个难点是多轮对话。您怎么看待这个?
聂再清:对的,比如你根据用户说出的一个东西,基于我们的意图识别和实体抽取(slot filling)结果,确定机器现在的状态和要做的下一个动作(或给用户的一个回复):可能下一步是要去查某网站(或一个第三方提供的API接口),然后再把网站的结果返回给用户,让用户再确认。这个在学术圈里叫对话管理(dialog manager)确实很有挑战性,我们正在尝试深度强化学习的方法,怎么能够让机器跟这个环境去交互,怎么通过自己去学习。
七、您所带领的团队都为阿里人工智能实验室提供哪些技术支撑?
聂再清:有很多:比如意图的理解,实体的抽取,也包括对话管理,还有知识图谱这一块儿。技术团队会支撑产品中很多具体的、需要实现的东西。我很喜欢反馈,从产品经理那里得到的反馈会给我很好的指导。终端团队,技术团队以及其他各个人工智能实验室之间联系也都很紧密。
八、刚您谈到了自然语言处理的难点,可否给我们谈谈知识图谱面临哪些技术挑战?
聂再清:知识图谱所面临的挑战主要来自于知识图谱的构建与学习以及知识的表示与推理这两个方面。其中知识图谱的构建与学习中的最主要的难点是,判断两个不同语境或不同图谱中提到的实体是不是同一个实体。中国有几十万个张磊,同名,重名的问题,这两个人是不是同一个,该不该融合在一起,怎么能把每个张磊的信息都正确地匹配到知识图谱中的对应实体中去呢。如果是产品的话,很多不同的东西,到底是不是同一个实体,比如iPhone 6、 iPhone plus、iPhone 6 金色等等。关于实体之间的关系图,我其实不喜欢别人说我这个知识图谱有多少条知识。其实知识图谱里面关键在于有多少高精度的知识。
把一些非结构数据,多结构数据,或者结构化数据,糅合成一个,变成一张大图。如果是从非结构数据变成结构化数据,然后把它融进来,这是个抽取的过程,也是个理解的过程,比如,通过读红楼梦,把里面的人物建立一个关系图,其实就是理解自然语言,好处在于这个人物关系图可能在某个数据库已经有了,难点是怎样把新抽取出来的实体信息和他们的关系正确地加到已有知识图谱中去。
知识图谱的构建与学习中遇到的难点本质上是由自然语言中的多样性和歧义性带来的。知识的表示和推理方面也有很多挑战,由于时间关系今天就不多讲了。
九、高精度知识,需要做大数据挖掘,您认为算法重要还是数据重要?
聂再清:我个人觉得,数据重要。如果数据能充分利用的话,我可以用相对简单的算法就能达到很好的效果。不是说不要算法,但不是单靠算法的突破,就可以把一个难题解决。我原来在微软研究院的时候,创建了大数据挖掘组,我一直认为数据是很重要的。
十、加入阿里后,有什么新的体验?
聂再清:加入刚一个多月的时间,感觉各部门之间的联系都很紧密,工作节奏比较快,大家都很接地气(对用户反馈都非常重视)。
。
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/128918.html