端到端+预训练，自然语言突破性进展的原因 | 青年科学家论坛

雷锋网(公众号：雷锋网)报道，在9月18日下午上海交通大学与氪信科技联合承办的世界人工智能大会特色活动——新世代·新疆界·新引擎：青年AI科学家畅谈论坛上，1994年图灵奖得主、卡内基梅隆大学教授Raj Reddy（罗杰·瑞迪），微软全球执行副总裁沈向洋，携程董事局主席梁建章，招商局创投总经理吕克俭，富士康工业互联网首席战略官姚忠佑，亚利桑那州立大学凯瑞商学院副院长、上海交通大学上海高级金融学院教授顾彬，及人工智能学术界和工业界的青年科创家们分享了精彩的发言。

在AI前沿产学研对话圆桌环节，商汤科技联合创始人、副总裁徐冰，旷视科技首席科学家孙剑，Momenta创始人兼CEO曹旭东，微软亚洲研究院资深研究员韦福如齐聚一堂，上海交通大学教授、博导卢策吾担任主持人。

下为对话原文，雷锋网作了不改变原意的编辑：

主持人：请教各位，你对基础性研究的当前格局有什么看法，它的机遇挑战会在哪里？以及你们个人和公司的研究计划是怎么样的？

孙剑：之前，我们也讨论过这个问题。这波AI能够起来是靠深度学习。今天将很多东西积攒在一起，能够让深度学习系统训练起来，所有人都可以用。只要有足够多的数据就可以做，这是这波AI能够繁荣的源动力。

同时也有人会说，前两年的研究进展非常快，每天都有颠覆性的新东西发布，在性能、方法各方面。这个状态维持了两三年。到了今年，各界都在担心趋势会不会放缓，虽然整体数量上来了，但是突破性技术是不是放缓了。在我看来，这个情况是很正常的，技术也会有小的波峰、波谷。

另外一个问题可能是，下一波红利会在哪里？我个人不是很关心红利，这波红利没来之前我也很有信心，我认为这种技术非常有用，只不过现在加速了。我相信大家投入这么多精力去做会变得越来越好。

主持人：您的意思是说还有波峰、波谷，持续投入研究的成果总是会增长？

孙剑：接下来需要突破深度学习在解释性方面的问题，研究深度学习的基本组件、SGD优化问题的工作机理。其实我跟策吾做的项目，参数比训练数据多10倍、20倍、上百倍。以图片监测来说，人的精度是非常高的，机器的精度是远低于人的，虽然数字不断刷新。正如策吾说的，“你要增加同样的数字，你要增加一倍的数据”，这个现象让我们感觉到蛮力的增加计算量和数据量，不一定能够达到我们预期的。要解决问题，现在的检测框架应该抛弃原有的一些东西，加入AI的机制。如果大家研究清楚，可能会更容易找到下一个突破点和方向是什么。

徐冰：徐立（商汤科技CEO）一直都说他知道我讲不了技术研究，首先我也是一个青年，我是没有毕业的博士，但每天被徐立逼迫着要辍学，他成天给我讲许多应用案例。我是2008年大学本科读了这块的博士，做多媒体方面的工作。我们是一个赶上了这一波的团队，解决了视觉方面的问题。

其实从研究角度上说，我们在2011年就开始做深度学习，直到2014年这几年都挺困难的。当时人脸识别在20万的数据库做训练工作，训练半个月才出一个结果，这个是极大的局限，算法创新的瓶颈，一年只能迭代24次。包括现在我发现很多企业做深度学习，刚开始用深度学习做大量数据的处理，可能起步的时候都会遇到这个问题。你用什么样的结算结构能够把算法迭代的速度提上来。

2014年我们创立商汤，至今已有四年，我们对外公布融资额是接近20亿美金。我是负责给商汤融资的，基本上脱离了学术研究范围，但我经常跟徐立研究这笔钱怎么样花，用于做远期的战略部署。从学术角度上去看，深度学习往前去走，但做学术研究也要解决实际问题，不管是数据，还是问题，是极大演化的。当我们与政府、客户打交道的时候，面对的问题是非受限的问题。

以智慧城市为例，如果只是在一个摄像头做人脸识别，很多企业都可以做到这样的水平。深圳市有19万支公安连接的摄像头，找寻恐怖分子、罪犯或者是识别某一种不文明行为，都是城市治理和日常的公安等的刚性需求。如果在一个城市范围做这样规模的识别，10万支摄像头每天拍下来的照片，仅仅是人脸的照片就是10亿的规模。假如说恐怖分子数量是10万，基本上1天之内要发生的速度是100万亿次，99%的算法是不可用的。在这样的规模之下，可能就需要你从硬件上和算法生产都可以支持100亿，甚至更大规模的数量少，做深度学习。这样层次的问题，远远跳出了我们在学校里面做学术研究面对的问题。

你也可以发现，现在学术界和工业界做深度学习真的是不一样的，业界所获数据规模远远超过学术界。同时还要求基础设施的过硬。三年前我们看到了军备竞赛，我们花很多钱买了很多硬件设备，最后建设了一个计算能力很强的计算平台，基于此，才能支撑城市级别的场景。这是商汤大部分人在干的事情。深度学习这几年经历了跳跃式的进步，从原来要花半个月的时间才能从几十万小时的录像中找到犯罪分子，变成一张照片15分钟找出来，技术真的改造产业的工作模式和效率。

在解决行业问题的时候，我们说一定要讲非受限的问题，而不是把问题极度简化，不然做出来的产品经常是过渡性产品，终有一天会被过渡掉，终有一天被百亿级的训练颠覆。

主持人：您这一块有什么样的看法，无人车最大的研究问题是什么？

曹旭东：回到基础研究问题思考，我准备从两方面回答这个问题，第一个确定性，第二个不确定性。对于创业公司来说，这两件事情非常重要。只有确定性，则没有未来，但是只有不确定性，现在就会“死掉”。所以要抓住确定性去探讨不确定性。第一个大数据，第二个计算，第三个算法。

刚才有人提到数据优化，我们考虑的是怎么样把1块钱一张图变成1毛钱一张图，再怎么样把1毛钱标注一张图，这个对安全性很重要。所以任何一个算法需要做到八个九，需要多大数据呢？不同级别的增加是不一样的，L4级别的需要100个。但100个我们烧不起，每张图1块钱投资人就不投了。我们在做的数据生产线使用AI算法的优化，但是零部件有一些问题，标数据也是一样的，如果标注错误怎么办？另外标注工具怎么样去设计？怎么样去交互是最优的，这样的设计方案，这个人大概30秒可以标出来，这个东西如何使用？标注的数据我们都可以收集到，如何通过算法去优化。

除了数据之外，我们还做了更多的探索，怎么样打通商业闭环，技术变成产品，产品变成大数据，形成闭环。一个小例子，就是我们做的车队安全管理产品，然后给车队提供一些ADS功能车队的安全性可以提高30-50%，这样对于1000车辆规模的车队，这样在安全上节省的费用是千万的规模。对社会来说利益更大，司机驾驶行为的数据是非常有用的，每个车队都会有很厉害的老司机，省油。如果分析物流这个行业，会发现司机的工资成本只占了10%+，油费占了20%。这意味着，老司机开得好一年省油2万，你能很多老司机的经验收集到，变成产品里面的算法，然后再应用到自动驾驶里面去。

徐冰介绍了很多商汤的大计算，这里想补充一点的就是做这件事情的原因。缘由是目前还是实验科学，做实验跟实验效率有关系。同样都是聪明人，如果你的实验效率比别人快100倍，至少整个研发迭代的效率比另外一个团队快10倍就变得很重要了。这个也是我们在努力的方向，现在可以做到的千万数据级到亿万数据集的速度也会不一样，差不多一天可以训练完。

第三点算法。之前在学术界，数据量很小，参数量挺多，结果较难得到。随着时代发展之，这件事情反转过来了，你会要求尽可能小的计算量，这样可以用更便宜的芯片实现产品。如何在小模型，参数很小的模型上，然后去学到一个很好的效果。其实数据量有很强的拟合能力，是不是这些参数都充分的应用了。另外在工业界非常重要的是，如何在有限参数和现定的参数和计算设计的情况下，学出来一个更好的结果？

从2015年开始，我发现自动学习论文越来越多。这一两年更多的是学习框架和硬件，联合学习是未来比较有趣的方向。我们做了这个方向，有一些已经投入到产品使用。以上所说都是“确定性”的，确定性的东西用一个现象来总结就是条件反射。实际上整个突破到现在来说，都是学习跟影射。现在用深度学习感知智能的一些问题已经得到很好的解决。当然，数据、模型、算力优化会更好。

韦福如：这3-5年，深度学习除了在图像，在自然语言处理、文本生成上都取得了突破性的结果。在大数据，计算力之外，还有两个重点。

第一个点端到端的自然语言模型，我们希望人去定义、处理句子，先分句子，做词性标注，再做语法分析，然后得到最后结果。包括机器翻译、阅读理解都是这样大的框架下面去做的。给定了比较多的数据情况下，其实模型的学习能力还是很强的，包括在很多的领域里面达到或者突破人的水平。

另外一块是目前我们看到的预训练的模型。人在学语言的也是一步一步来的，这种预训练的模型就有预训练的词向量。最近在阅读理解任务上，一战成名的上下文相关的词恩向量，使得把预训练的效果发挥更大了。这样一个技术在后面的其他任务里面也得到一些验证。端到端+预训练，是自然语言能够取得突破性结果很重要的两个方面。

自然语言处理为什么很难？有以下的原因。语言天生有歧义性，这个在深度学习，词向量表示的情况下，得到了很好的缓解，能够计算句子、词组，某种程度上缓解了一个意思有多种表示的挑战。机器不知道常识和知识，而一般人类知识都在非结构化的文本中。某种意义上来讲，我们要在探索如何利用常识或者知识的情况下取得一个折中方式。我们现在能够有一定的方式获得非结构化文本的知识，还有一些存在结构化里面这个接下来很好研究的。另外，推理也是需要突破的难点。

更多资讯，请关注雷锋网AI金融评论

雷锋网版权文章，未经授权禁止转载。详情见。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/84774.html

端到端+预训练，自然语言突破性进展的原因 | 青年科学家论坛

相关推荐

发表回复