近日,在有韩国“硅谷”之称的韩国大田,IROS 2016正在如火如荼地举行,在Special论坛的人工智能/深度学习专场,百度深度学习实验室(IDL)主任林元庆做了《AI,the (next) big thing》(《人工智能:大幕已启》)的主题演讲,作为计算机视觉和机器学习领域非常活跃的一名成员,现百度IDL负责人,目前他领导的IDL正进行着PaddlePaddle深度学习开源框架、图片搜索、基础图像识别技术、人脸识别、OCR(光学字符识别)、视频分析、学习机器人、细粒度图像识别、AR以及医疗影像分析等十多个研究方向。雷锋网在演讲过后采访了林元庆,请他讲了关于IROS,关于开源平台,关于AI眼下最重要一步的看法。以下是采访全文。
雷锋网:此行来IROS的目的?
IROS是世界上最大的关于Robitics的国际会议之一,大会的Plenary talk是会议众多演讲的重中之重。虽然平时我很少在外面公开做演讲,但这样一个学术性的talk既然主动邀请,就过来了,另外这也是向世界的Robotics研究人员介绍百度人工智能的好机会。
雷锋网:作为一个机器人会议中受邀的AI演讲者,机器人中需要用到AI的地方,可以概括一下?
很多,像我刚刚说的百度大脑里面,有语音识别,计算机视觉,NLP,推荐/预测,运动/控制,决策/规划,这几个AI大方向都是机器人学的重要基础技术。
雷锋网:CPU+FPGA,CPU+GPU组合更看好哪个?百度不同业务去分配的时候是如何决定用哪个组合的?
这两个技术都在进步,我们没有一个预设的立场,百度这两个方向都在应用。选择上,百度不同业务,训练阶段大部分用的大部分是GPU,testing阶段有用GPU,也有用FPGA的,更成熟的业务可能会选择FPGA,这样优化的空间会更大一些。
(看你刚刚放的PPT划分的百度AI相关业务,这些业务用哪个组合会有明确的选择吗?)
这个很难讲,人工智能不是单个技术,而是包含很多很多的不同技术,以计算机视觉为例,它就有图像分类,物体检测,图像分割等不同技术。GPU和FPGA对不同的任务,可能各有优缺点。
(就是一项业务训练的时候用的GPU,实际应用的时候可能转到FPGA?)
对,是这样。
雷锋网:现在ImageNet比赛结果对工业界的意义在哪里?
这几年ImageNet的竞赛涌现出一些非常有用的算法,比如AlexNet之后的GoogleNet, VGG, ResNet等,对工业界的技术性能的提高,有很大的推动作用。ImageNet一个很大的意义是在于推动算法的革新。这对工业界和学术界,都是非常有意义的。
同时,工业界打造的产品,常常需要go beyond ImageNet。我记得第一年(2010年)ImageNet比赛我们拿了第一名。我是当时项目的负责人。但之后我们发现ImageNet的结果很难直接用在产品上。我们后来开始主攻细粒度图像识别。百度糯米这个月下旬将推出一个非常重要的功能,其中的一个重要技术就是菜品图像的细粒度识别(识别图片里的菜品是哪个餐馆的哪道菜)。即使是通用的图像分类,百度的图像库有接近1亿张带类别标签的图片,比ImageNet Challenge(150万张图片)的大很多。我们内部的数据要比公开的数据大很多,需要更好地反应我们要解决的问题。
雷锋网:你现在领导的十个业务都跟之前主攻方向之一大规模细粒度图像识别有何关系?
对,有很多关联的。最直接的当然是细粒度图像识别方向。我们希望在百度搭建一个非常强大的细粒度图像识别的研发团队。其它的项目与这也有关联。比如人脸识别就是一个最经典的细粒度图像识别任务。很多技术是相通的。还比如我们的医学图像分析,它的很多做法与细粒度图像识别也有相通之处。
我们现在强调做instance-level的细粒度图像识别。比如,我们身下坐的这把椅子,我们不单单只是识别这是一把椅子,我们还需要识别出这是哪个厂家哪个型号的椅子。还比如前面提到的“哪个餐馆哪道菜”的识别。这些都是非常精细的识别。这些问题当然都很难,需要投入很大的研发力量。但应用前景是非常大的。
雷锋网:跟之前NEC的工作有什么内在联系?
NEC美国实验室在美国是非常优秀的实验室,也在AI上做了非常多的工作。我也非常幸运地在那里做了7年半的研究,包括最后三年多作为实验室媒体分析部门的负责人。当时的工作与现在的工作一脉相承。
雷锋网:刚在演讲最后,你讲到AI大幕已启,接下来让它走地更远的话,最重要的一步是什么?
最重要的一步是要有用,能解决实际问题,真正能解决一些很重要的问题。比如自动驾驶,那就是要真正能上路。人脸识别,就是什么情况下人脸识别都能识别得非常精准。
雷锋网:作为过来人分享一下,学生选Robotics专业的时候要注意什么?
机器人,包括AI,大家可能会有一些误解,觉得这是单一技术,但其实它涵盖的技术非常复杂,而一个人是很难去解决所有的技术的。像今天第一个talk讲的机器手抓取,从应用角度来看这是一个非常特定的领域,但这个方向做学问的话你都可以做很久。
我个人的倾向是注意不要大而全,要根据自身的兴趣和特长定一些侧重点。我经常会跟我身边的人说,要认准一个方向,做到这个方向的Mr. something,比如Mr. fine-grained image recognition。这样你的事业可能就越走越宽。
雷锋网:作为一个AI参与者,前不久余凯发了一个声明:“一直以来我非常钦佩谷歌的Jeff Dean在MapReduce和谷歌大脑(TensorFlow)等项目上的杰出成就。但是,我必须指出,放任TensorFlow成为世界上占统治地位的人工智能开发平台对世界是危险的。……” 如何看这个观点?
AI的平台很重要,确实需要多样化的选择,上次我也回了他朋友圈,认为我们这一代人应该团结起来,推动深度学习平台的开放和多样化。百度现在有PaddlePaddle深度学习平台,这个其实是百度花了非常大的资源做的一个平台,现在开源了,希望能在中国人工智能领域贡献一些我们的力量。
雷锋网:之前PC时代,Windows出现了就有Mac OS,还有Linux; 移动互联网时代,iOS出现了就有Android;从来没有一家独大的时候,会不会AI平台也不用担心?
还是不太一样。很多AI技术有一个正循环效应,越多的人来用,你的系统越好,这样会吸引越多的人来用。你已经快速迭代了甚至已经做到极致了,别人再去重新开始一个,难度是比较高的。
小结:
林元庆在演讲的过程中,以及会后采访的过程中,一直在强调AI大幕“已经启动”这个关键动作,虽然“人工智能”这个概念最早从1955年8月31日就开始提出,但从当时的诞生,到中间的两起两落,一直像个蹒跚学步的孩子一样经历了60年才迎来了第三次复兴的浪潮。
1956年到1974年,全球第一次人工智能浪潮出现。
1974年到1980年。第一次人工智能冬天出现。
80年代出现了人工智能数学模型方面的重大发明,第二次浪潮出现。
1987年到1993年现代PC的出现,让人工智能的寒冬再次降临。
不过这一次,随着硬件,数据,算法三板斧的默契配合和发展,AlphaGo与世界顶级围棋高手李世石的人机世纪对战,人工智能已经从基本的语音识别,图像识别,向着自动驾驶,视频,AR,医疗,金融等各种领域无声地渗透,也引发了全民关注AI复兴的热潮。
老骥伏枥,志在千里。如果说过去60年是它从孕育到踌躇的“蹒跚”周期,那往后60年,将会是它揭开“无穷大”大幕的周期。
雷峰网原创文章,未经授权禁止转载。详情见。
原创文章,作者:kepupublish,如若转载,请注明出处:https://blog.ytso.com/215157.html