论文被拒千百遍，团队不受待见，Yann LeCun为何仍待深度学习如初恋？

雷锋网AI科技评论按：Yann LeCun是人工智能神经网络方面的大牛，现在是Facebook人工智能研发团队的领军人物。可是他的研究之路并不是一帆风顺，在神经网络变得今天这样火热之前，他也经历过非常悲催的岁月。BuzzFeed做了一篇Yann LeCun的专访，以下为雷锋网原文翻译。来听LeCun讲讲当年的故事，也跟他一起思考一下人工智能的未来。

距Facebook的门罗公园总部3000英里外，在曼哈顿市区的一栋老旧的米色公寓里，有一群FB员工正在为一个项目忙碌，只是这个项目看起来更符合科幻小说而不是社交网络。这个小组是Facebook的人工智能研究团队，内部简称FAIR (Facebook Artificial Intelligence Research)，他们的目标是制造出智力水平能与人类匹敌的计算机。尽管距离达到这个目标还有很长的距离，这个小组却做出了没什么人认为可以在近10年内完成的成就。他们做出的AI程序能画画，画作几乎无法与人类画家的作品区分开来；能回答来自维基百科的条目的问答题；现在还能玩类似星际争霸这样的高级电脑游戏。它们逐渐变得越来越聪明了。也许某一天，Facebook会不再是连接你和你朋友们的工具，而依靠AI真的成为你的朋友。

以上并不是唯一的原因，不过FAIR确实不是我们印象里的那种典型的Facebook团队。这个四千亿美元市值公司有许多热门产品，Instagram、WhatsApp、Messenger、Facebook proper等等，而FAIR团队并没有直接参与其中的任何一个。这个团队仿佛放弃了Facebook的最终目标，更别说达成了。他们的带头人也不是常被媒体报道的典型硅谷高材生，而是Yann LeCun，一位经历过重大的失败但没有放弃的56岁学者。他的人工智能理论曾经不被别人接受，现在却被公认是世界级的AI专家；而这也是对Facebook的奖赏。

“你与数字世界交互的方式，你的手机，你的电脑，都会变化”，谈到可能发生的事情的时候LeCun这样说。

Facebook都用人工智能做什么

FAIR正在提高电脑靠自己来看、听、沟通的能力，这些成果也正在体现在Facebook的产品中，改变着从新闻排名到照片滤镜等等的各种东西。而且Facebook还在不停地进行大笔的投资——并不是因为人工智能好玩，而是因为人工智能不可或缺。如今，不管在科技的哪个角落，公司们都在依靠他们的AI技术进行竞争。依靠人工智能的Uber自动驾驶车辆对它的发单策略非常关键；依靠人工智能的谷歌智能音箱正在用语音回答用户们曾经在搜索页面用键盘敲入的内容（甚至更早之前，在百科全书里面翻）；亚马逊正在建立具有人工智能收银的便利店，以便占领市场容量6740亿美元的食物市场。

回到Facebook内部呢，人工智能遍地开花。比如带有人工智能的照片滤镜就能够帮忙解决一项来自Snapchat的问题。他们所用的AI能够浏览照片，识别其中的内容，然后决定在用户的资讯流里显示什么；用户会反复地使用这些功能，对公司来讲这是一种很有竞争力的用户体验。类似的技术还可以用来监控骚扰、恐怖主义、色情内容，给他们做出标记以便清除它们。

“人工智能对Facebook的全系列产品的用户体验有至关重要的影响。”Facebook的机器学习应用小组AML(Applied Machine Learning)负责人Joaquin Candela这样讲；这个小组把平台本身也作为研究对象。“今天，Facebook已经离不开AI了。”

随着这片领域发展得越来越好，Facebook会越来越需要LeCun和他的团队来让自己对任何现有的或者新来的人工智能科技企业保持竞争优势。

经过多年的批评和边缘化之后，LeCun终于翻盘了：有80位研究人员，有Facebook充足的资金支持，还有主流观点对他工作的支持。现在他只需要有产出就好了。

LeCun曾经被边缘化

从一开始，LeCun就相信他能让电脑拥有看的能力。面部识别和图像检测，在今天看来也许稀松平常，但是对于1980年代在巴黎读大学时候的LeCun来说，电脑基本就是没有任何视觉能力的，不能理解照片里面的任何东西，也没办法弄清相机镜头里都拍到什么了。这片领域从1960年代以来没有怎么得到开发，而LeCun在大学中遇到了一种解决这个领域问题的方法，他觉得这种方法没准能“让机器学会做很多任务，包括理解”。

这种被称作“人工神经网络”的方法，用小的、互相连接的传感器组成系统，用它们把图片这样的内容拆解成小块，然后从其中发掘模式，再根据它们的整体输入判断它们看到的是什么。这些神经网络表面上看来很难训练，而且功能算不上强大，但是在LeCun了解过相关讨论以后，他还是决定无论如何要做这个方向的研究，放下疑虑，攻读了这个方向的博士学位。“我觉得不是那样”，这是他对外界评价的态度。

人工智能领域也会有艰难的时候，以它发生的频率和强度，这种艰难的时候甚至有了自己的名字”AI寒冬”（AI Winter）。这种情况多数发生在研究者得到的结果并未达到宣称效果的时候，这个显得好像是科学理论本身有问题。接着发生的就是外界资金和关注度下降，技术进展也随着停滞。

LeCun也像其他人一样受到了“AI寒冬”的影响。90年代中期，LeCun在贝尔实验室做着一份人工智能研究的工作，然而公司内部斗争解散了他的小组。即便LeCun认为研究已经有了显著的成果，他的项目——利用神经网络进行支票识别的ATM——也随之停止，而这项技术在今天则被广泛使用。“就在成功的黎明来临之际，整个项目却被解散得差不多了”，LeCun回忆道，“这真的让人很郁闷”。

同一时间，主流的开发者开始展现出对其它方法的喜好。虽然这些方法后来也被抛弃了，但是它们在这个时候的兴起还是足以把LeCun这位长期的竞争者边缘化。新世纪头几年，其它的学术会议甚至不允许他展示论文。Geoffrey Hinton是神经网络的先驱，现为谷歌工程Fellow的他同时也是多伦多大学教授，他回忆起那段时间LeCun所受的待遇时是这样说的：“计算机视觉圈子基本上不待见他，他们觉得他做的事情在80年代还有潜力，但是2000年的时候就应当放弃了”。不过他也补充道，“现在没人这样觉得了。”

那时候其它的神经网络研究人员也遇到了类似的问题。即便是蒙特利尔大学的教授、MILA领头人Yoshua Bengio，那时候也很难找到愿意跟从他的研究生。他说：“我得逼着我的学生们研究这些，因为他们怕博士毕业以后找不到工作”。

“深度学习阴谋”

2003年对于LeCun是关键的转折点。那一年，他加入了纽约大学任职，并且与Hinton和Bengio结成了一个不怎么正式的同盟来复兴神经网络（雷锋网按：实为神经计算和自适应感知项目，Neural Computation and Adaptive Perception）。“我把我们一起做的这件事称作深度学习阴谋”，LeCun说到这里露出了一个狡黠的笑容。

NCAP在这个领域发挥了无可比拟的作用，发挥着把自己的信念贯彻到底的美德，他们并没有为每一种要检测的内容建立单独的、专用的神经元，而是用同一个模版建立一种可以检测图像、视频和对话的神经元。所以，并不是用一个网络去识别企鹅，再用另一个网络去识别猫，你可以用同一个网络来检测两种东西，而且还能做出区分。这些新型的神经网络还可以加以修改后用于其它的任务，比如分析声波来检测人声的模式。

有两个外部因素对NCAP起到了明显帮助，一个是不断提高的计算能力，这让神经网络的运行速度提升得具有足够的实用性；另一个可以用来训练网络的数据（图片文本等等），得益于互联网的广泛应用，它们也在成指数增长，而神经网络可以通过它们来变得越来越聪明。最终造就了一种灵活、快速、准确的方法，为整个领域带来了新的可能性。

随着LeCun和他的同伴们把基础结构都建立完毕，计算机视觉从2010年以来迎来了爆炸式的发展。计算机能够开始识别物体，先是来自单幅图像的，再是来自视频的，接着还可以是来自实时的摄像头的。现在，你可以把摄像头对准一个篮球，然后人工智能就能够知道它看见的是什么。很快，LeCun不再是边缘化的那个人，他成为了业内的领军人物。“从没人做这个方向，到所有人都来做这个方向，只经过了不到一年时间”，LeCun说，“这简直是疯了，完全疯了”（It's just insane — it's completely insane.）。

2013年12月，LeCun加入了Facebook，对他来说这是一个研究如何把人工智能应用到图像中的理想环境。Facebook的平台中有数十亿的图像，给LeCun和他的团队提供了一张巨大的画布来绘制他们的想法。FAIR定期和AML进行合作，把他们最新的研究成果变成Facebook proper中的实际行动。这两个团队的人合作建立了一套系统来让整个公司上下都能用到最新的技术。AML用FAIR的研究成果来协助确定在你的新鲜事里显示什么内容，或者在Facebook内部做内容翻译；AML还在给Facebook的内部摄像头中加入FAIR的成果，来让它们可以根据人的动作做出特殊效果，跟人互动。

让计算机有能力看到，是给计算机教会世界运行规律的基础。人之所以能懂得世界运行的规律是因为我们能够一遍又一遍地观察到这些情境发生，从而发展出对它们接下来会怎么样的理解。假设我们站在路上，看到一辆车从路的远方高速开过来，我们能够预计车可能会撞到我们，所以我们会躲开。当天色昏暗的时候，我们能够预计把灯的开关打开可以让周围重新亮起来，所以我们会把灯打开。

FAIR正在试着给电脑教会预测结果的能力，就像人类一样，用的也是类似的方法。根据LeCun的解释，他的团队反复给AI看大量的有关联的视频，然后在某个点停下来，让AI来预测接下来会发生什么。假设你反复给AI看那种在一个人的头顶上方翻转一瓶水的视频，AI很有可能可以判断出来这种动作会把人淋湿。

LeCun给我们解释了他的想法：“从某种程度上，智力的核心就是预测的能力。如果你能够根据自己的行动预测接下来会发生的事情，那你就能够做出计划。据此就可以计划一系列的动作，来达到某个具体的目标。”

教会人工智能预测的能力，是业内最众说纷纭的难点之一，很大程度上是因为在不少情境下理论上正确的后果可能会出现很多种。

你可以想象把一支笔立在桌子上然后松手，LeCun说，如果你问电脑一秒钟以后这支笔会在哪里，是没有什么正确答案的，因为电脑能判断出笔会倒下来，但是它没办法精确地判断出笔最后会具体掉在哪里。所以你就需要告诉系统，可能有很多个答案都是正确的，“然后实际上发生的事情仅仅是众多可能性中的一种。这就是学习在不确定的情况下进行预测会遇到的问题。”

让AI明白和接受可能性是人工智能训练方法的一种，称作“无监督学习”，现在这是领域的前沿。当AI通过足够多的观察，能够明白世界如何运行并且预测接下来会发生什么的时候，它的思考方式就能更像人类一点，具备一定的常识那样的东西。而这在LeCun看来也是让计算机变得更加智能的关键。

LeCun和他的团队成员们已经做好了可能会花费很多年才能让AI完全理解灰色地带的心理准备，但是他们有信心一定能达成那一步。Larry Zitnick是LeCun团队中的一位研发经理，他认为：“这一天一定会来到的，不过这应当是一个10年期目标”。

扎克伯克的智能管家

去年12月，马克扎克伯格公开了一段引人注目的视频，是他的“人工智能管家Jarvis”的demo。这位Facebook创始人自己给Jarvis编程，而Jarvis能够给扎克伯格烤面包，能够在识别出扎克伯格父母的脸之后迎接他们进屋，甚至还给他的小孩Max用中文上了一节课。

Jarvis看起来挺酷炫的。不过在LeCun眼里也没什么特别，“它基本上都是在执行命令，而且也相对比较简单。它的智力从某种程度上讲还比较浅层，”LeCun说。他的眼光要比这高多了。

LeCun想要做的是智能助理（assistants），能够真正理解你所讲的那种。“能够持续对话的机器人，”他说，“能够提前计划的机器人。你不会因为嫌他们蠢而不喜欢它们的机器人。”

现在他们还没有造出这种机器人的明确计划，但是FAIR所研究的内容都是一些很有可能成为它的基石的课题，其中之一就是让AI对世界有基本的认识，并且训练它、让它能够预测接下来会发生什么；还有一件事是让AI可以读书写字，FAIR也在用神经网络进行对应的研究。对电脑来说，图片就是一系列数字，但是一句语音、一段文字也可以表达成一系列数字。这样，LeCun这样的研究者就可以用神经网络结构来从图像中识别对象、从语音中识别文字、从文字中识别话题。

AI目前还不能像理解图片那样理解文字，但是LeCun心里已经对终极的Jarvis有了自己的构想。他心目中理想的助理，具有对世界的常识和与其它助理进行沟通的能力。如果你想要约朋友一起去听音乐会，你会让你的助理来协调，它们会自动地对比你的音乐品味、日程安排、正在上演的曲目，然后给你给出建议。

LeCun说：“计算机需要对世界的规律有一定的理解。比如人没办法同时出现在两个地方，人没办法在短时间内就从纽约到旧金山，类似这种对旅行产生影响的因素。如果要为别人安排生活事件的话，有很多常识都是需要提前知道的。”

Facebook正在用一个类似这种，但是做了一定简化的数字助理进行试验，他们把它称作M，由Messenger团队运营，用到了一些FAIR的研究成果。Facebook Messenger团队近期发布了“M建议”功能，M会判断用户对话，然后在它觉得需要它帮忙的时候插进来。比如当有人问你“你在哪”，M就可以在对话中给你谈出来一个选项，供你在屏幕上轻点一下就能把你的当前位置分享出去。未来Facebook很可能把这种功能拓展到更多的场景中，发挥更多的功能。

M只是Facebook在人工智能语义理解的应用之一，他们也在考虑这种技术还能如何派上用场。甚至，即便最近Facebook参与了形成一些交流的阻碍（雷锋网(公众号：雷锋网)按：指下文Facebook的极端化与假新闻事件），他们也可能打算把它作为打通这种阻碍的方法之一。

即便在2016年美国竞选引发了人们对Facebook极端化和假新闻的声讨之前，LeCun团队的成员Y-Lan Boureau就已经在研究如何用人工智能来在Facebook上引导更有建设性的对话了。Boureau既学习过神经学，也学习过人工智能；她加入这个项目的原因是看到了她的朋友们因为不愿意接受与自己立场相反的观点，所以在Facebook上争执了起来。Boureau说，“如果我们能够更好地理解到底是什么在引导着人们思考，如果我们能够明白观点是如何形成并且固化、僵化的，如果我们能够搞清为什么两个最终会没办法互相交流，这会是一件很有意义的事情”。

Boureau想创造这样一个世界，在这个世界中我们尽可能地看到不同的意见，直到我们开始拒绝接受更多的意见为止。人工智能可以通过发掘文本中的模式、发现什么时候对话开始走偏方向、有可能的话想办法改变对话的走向，来避免情况转坏。“如果我们能通过数据对学习和人们脑中建立信念的过程有更多的了解，那我们可能可以更好地从整体上弄懂如何引导更多有建设性的对话。”Boureau这样说。

在2016年美国竞选结束之后，LeCun公开宣称Facebook已经有技术能力来用人工智能筛选去除假新闻。对于美国广泛存在的极端化问题，许多人认为LeCun的方法可能会起到一些作用，但是他本人认为这些工作最好还是由第三方来做，而不是同样有能力引发偏见的机器们。“AI在这个问题上确实能够起到作用，但这将是一个非常复杂的产品设计问题，而非技术问题”，LeCun说，“你的目的并不是把人们引向特定的话题，实际上这种情况下你还是想要保持中立。”

不断升级的夸张宣传对人工智能可能会带来不小的危险，LeCun尤其明白。到今天，很明显我们正处在这种状况中。Bloomberg指出，在2013年第一季度，只有6家公司宣称把人工智能用在盈利业务中；而到了2017年第一季度，就有244家公司这样讲了。

人工智能的未来如何？

LeCun在谈到未来的时候用词非常谨慎：“我们目前距离理想的目标还很远。”他甚至会警告：“这些东西运作得并没有我们预想得那么好。”确实是这样，正如LeCun的谨慎所呈现的那样，现在的人工智能距离达到人类级别智力，或者说通用AI还有很长的距离。

即便这样，LeCun也还是充满了激情。对抗训练（adversarial training）是一种相对比较新的人工智能研究方向，它能够帮助解决这个领域目前遇到的预测和不确定挑战方面的困难，而LeCun尤其喜欢它。对抗训练的特征是让两个AI系统互相对抗，让它们从这个过程中学习真实世界。比如在某个FAIR的试验中，研究人员让一个AI画图，然后让另一个AI来判断这幅图是否是人类所画；前一个AI就根据用后一个AI的结果指导自己画的更好。

在今年初的一个会议中，LeCun展示了一些更高端的东西：生成器要让判别器判断它从一段视频中截取了画面，还是创造了什么内容？

一个AI要让另一个AI相信它从这第二个AI已经看过的视频里截取了一部分创造了几帧画面。LeCun说，这种对抗训练，“是最近10年或者20年内机器学习方面最好、最酷的点子。”

就这样，LeCun会继续研究对抗训练，又一次地把这个领域拓展到新的边界。他早已经不是20年前那个没人愿意听他讲话的人了。尽管LeCun说这项工作还远远没有结束，成功也远远不是他一个人的功劳，他还是一直在享受研究的过程。他说：“它并没有让我觉得糟糕，实际上我觉得棒极了。”

AI科技评论招业界记者啦！

在这里，你可以密切关注海外会议的大牛演讲；可以采访国内巨头实验室的技术专家；对人工智能的动态了如指掌；更能深入剖析AI前沿的技术与未来！

如果你：

＊对人工智能有一定的兴趣或了解

* 求知欲强，具备强大的学习能力

* 有AI业界报道或者媒体经验优先

简历投递：

lizongren@leiphone.com

Facebook Yann LeCun一小时演讲： AI 研究的下一站是无监督学习（附完整视频）

2017 美国工程院院士名单公布，Lecun、沈向洋、黄永刚、张东晓、陈向力等多人入选

Facebook 人工智能大揭秘：AI 如何变成这家社交巨头不可或缺的部分？

雷锋网版权文章，未经授权禁止转载。详情见。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/82879.html