澎思科技申省梅：后深度学习时代的智能视觉技术落地 | CCF-GAIR 2019

7月12日-7月14日，2019第四届全球人工智能与机器人峰会（CCF-GAIR 2019）于深圳正式召开。峰会由中国计算机学会（CCF）主办，雷锋网、香港中文大学（深圳）承办，深圳市人工智能与机器人研究院协办，得到了深圳市政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会，旨在打造国内人工智能领域极具实力的跨界交流合作平台。

7月14日下午，在「智慧城市·视觉智能」专场上，澎思科技首席科学家、新加坡研究院院长申省梅进行了题为「后深度学习时代的智能视觉技术落地」的演讲。

作为人工智能领域崭露头角的公司，申省梅介绍道，澎思科技从传感器-图像处理到3D几何，从机器学习到深度学习、增强学习，从监督学习到半监督、无监督学习都有布局，澎思拥有计算机视觉全栈技术，并在人脸识别、行人检测，目标跟踪、行人再识别、车辆异常行为检测、自动驾驶、移动操作机器人等多项大赛中拿到冠军。

在限制条件下的人脸识别已经取得了很好的成绩，但对于如何提高非受限条件下的动态人脸识别效率，申省梅认为除了在人脸识别技术上不断提高外，还要从源端着手，以及采用图像增强的方法，比如超分辨，去除运动模糊、降噪、去抖动、去雾、去雨、去雪等。

另外，在视觉的落地上，申省梅认为应该坚持“以商业价值为导向的算法开发”。用“最有效的算法+最经济的软硬体”解决客户的刚需，更重要的是，算法-软硬件变动更新速度，要快速对接客户的不同需求，形成敏捷而有价值的运营模式。

获得最佳视觉模型最简单的规则是，足够多的平衡数据、足够好的数据标注、足够深的网络。

随着大量数据的生成，半监督无监督的探讨有所突破，计算机视觉的未来发展十分乐观。

随着工业界对计算机视觉的持续青睐，众多企业将结合实际应用场景来剪枝优化迁移，不断开拓新的应用领域，人工智能行业的发展还远没有到巅峰，还有众多的落地机会。

澎思科技首席科学家申省梅

以下是申省梅大会现场全部演讲内容，雷锋网(公众号：雷锋网)作了不改变原意的整理及编辑：

大家好，我是澎思科技的申省梅，我今天跟大家分享的是课题是“后深度学习时代的智能视觉技术落地——商业价值为导向的技术研发”。

今天的内容分为三个部分，第一部分是计算机视觉澎思科技的全栈技术；第二，有这样的技术之后，商业价值在哪里？我们要讲的是以商业价值为导向的算法开发。第三部分，分享一下人工智能行业的发展前瞻。

计算机视觉澎思科技的全栈技术

澎思的计算机视觉全栈技术包含两个方面，首先是澎思有一支全球顶尖的算法团队，有国际前沿的算法研发能力。计算机视觉包含了对周围世界的描述-几何学，和计算机模仿大脑对看到的世界的学习建模。以前的学习是机器学习，现在深度学习逐步代替了机器学习，并且我们也看到了很多几何学方面出现的问题和局限，大家用深度学习把它解决得很好。我们从传感器（包括普通相机、高清相机、ToF 传感器，Imaging LiDAR），我们从它的底层的研究、图像的处理到3D融合、3D重建，从机器学习到深度学习，从深度学习到强化学习，从监督学习到半监督、无监督学习，横跨了所有的计算机视觉领域。

另一方面，我们团队也参与了很多产品、解决方案的研发，拥有丰富的经验。

这里跟大家分享一下我们在计算机视觉领域展现的成果。我们曾参加过多项国际比赛，并拿到冠军，包括人脸方面的，如人脸识别。目标检测、图像分类、图像分割方面的奖项，也包括情感、目标跟踪，及智能交通方面，还有机器人、自动驾驶方面的比赛。去年我们在IROS的操作机器人当中拿到冠军，还有NeurIPS里面的自动驾驶也拿到了冠军，这个自动驾驶牵涉的技术面是非常广的，有机器视觉，还有导航、控制。刚才大家提到了很多机器人跟别的学科的不同，就是因为它不仅仅是看到了、理解了，还要做决策，做决策的过程实际上是一个交互的过程。

人脸识别方面，我们参加了美国NIST人脸识别比赛，获得了冠军，包括1：1、1：N、N：M的应用。为什么我们重视这个比赛，是因为它是无约束人脸的比赛，无约束人脸就是人脸拍的时候没办法控制它的角度，有各种各样的姿态，有很多遮挡，还有光线不同，反光、光线不均匀，还有各种表情，以及有时候像素非常低，这个比赛也是动态和静态混合的比赛。在这个比赛当中，我们应用了迁移学习，也应用了异构多模融合和双模态的对抗性生成网络。

还有一个比赛是微软的百万人脸大比赛，我们也是获得了双项竞赛冠军。

在做人脸识别的过程中，我们也用了深层对抗网络GAN，使得数据的不平衡性得到改善，从数据的结果可以看到，大家有用3D的方式来增加训练数据，但相比之下，我们用GAN来做的，效果会更好。

大家说人脸识别到目前已经解决了很多的问题，已达到99.9%，但我们需要考虑是在什么条件下，在限制条件下拍摄的人脸，比如说人证合一，这方面已经做出了很好的成绩，但是对于非限制条件下拍摄的人脸，甚至是在动态监控下拍摄的人脸，人脸非常模糊，连人都很难认出来的情况下，到底怎么办？是不是达到很好的水平？实际上，并没有。

这样一个挑战性的人脸问题，我们不仅要从人脸识别的角度让它提高，还要从源端做起，在各种各样条件下做到捕捉到清晰的人脸。如果摄像机没办法自己达到这种效果，用普通的相机，再加上图像增强是不是可以帮忙。

这就谈到图像增强，右边这个图是经常发生的事情，当太阳光照过来的时候，有一部分非常暗，有一部分像素都饱和了，大部分人用的HDR的方法，就是宽动态范围摄像，这种方法在一定程度上可以解决问题，可以看到HDR的图已经比原始的要好很多，当我们这个场景中出现了运动的人或车，或运动的一些东西的时候，你用这种方法产生的效果就是左下角这种图，那个火车在动，它上面的字都看不清了，如果是一辆汽车，它的车牌就没办法识别了。我们用了智能化动态信息补偿的方法，生成右边这种清晰的图像。当我们用在CCTV（闭路电视）的相机上，就可以看到左边和右边的区别。

这个图像增强包括了怎么去噪声，前面的演讲嘉宾也谈到了，过去有很多很著名的方法，比如有一个很好的去噪声方法BM3D，它去高斯噪声非常有效。但泊松噪声图像下的去噪是非常难的，因为它的噪声方差是跟噪声像素的强度相关，所以过去的方法没办法得到很好的效果。最近我们用深度学习CNN和LSTM的方法拿到好的效果，通过主观和客观的比较，它在特别严重的噪声条件下有很强的竞争力，可以看到最后这个是我们的结果。

在AI图像增强方面，我们的相机有去抖动、去雾、去雨、去雪的效果，我在这里就不一一详细介绍了。

以商业价值为导向的算法开发

第二方面就是以商业价值为导向的算法开发。

澎思的立场——应用驱动的解决方案、商业驱动的算法研究。当我们知道了一个应用的需求、客户的需求的时候，我们会一起分析，这个需求需要怎样的解决方案。作为算法来说，我们会分析什么样的算法适合这个解决方案。我们的计算机视觉全栈技术都有，但并不是每个技术都适合作为解决方案的。商业上最有价值的方法就是用最有效的算法、最经济的软硬件来满足客户的刚需。

你看到这个“算法池”的意思是有可选性。这个算法池不像过去那样做出来是一成不变的，因为现在的深度学习日新月异。所以这就要求算法人员以及把算法放进软硬件的人员要非常敏感、快速反应。我们的硬件是可编程的，可以把一个很大的算法浓缩在这个小盒子里面。同样的盒子，如果觉得成本贵了，我们还可以用低成本的硬件，用比较轻便的算法交给客户。

刚才讲到了，因为澎思的营销团队是在前线工作，了解To B、To G客户的刚需，所以有一个团队可以把刚需反馈回来，我们的软硬件算法人员一起讨论方案，研究出来最经济、最灵活的软硬件平台，更重要的是我们的人要非常快速反应。

现在的大环境跟过去不同，尤其是做解决方案的，即使是同样的领域的客户，但他的要求是不同的。另外，深度学习每天有新的东西出现，去年和今年比，今年的模型就可以比去年快20倍，所以这就要求我们的软硬件团队要设计灵活，以适应快速的更新。

这是我们最近的人脸动态识别，给到客户那边，他们做了很多的比较，他们认为我们比友商的性能提高了很多。我们最新的人脸算法，包括轻量级、标准级的，已经交付于我们的软硬件团队，融入软件平台、硬件设备里。

另外一个技术我们做的是跨摄像机空间的ReID技术，也叫做行人再识别。当摄像机看不到人脸的时候，我们能看到人的身体，所以会用人身体的特征来进行再识别。

在上周我们的再识别在Market1501、DukeMTMC、CUHK03等三个数据库上的比赛都拿到了第一。这个竞争蛮激烈的，因为很多的公司都在刷这个榜。ReID支持以图搜图，一个相机看到一个可疑的人，拍下来了，就可以用这个图去搜这个人跑到哪里了，临近的相机调动起来，马上就可以找到这个人。

另外一个以商业价值为导向的算法研发是行人属性。行人属性和ReID不一样，它没有图可以搜，但它可以输入特征，如“短头发，穿着白色上衣、蓝色牛仔裤、白色运动鞋，背着书包的男子”，我们输入这些特征，可以从视频里面搜索出来，最近我们这方面也获得了很好的成绩。

关于智能交通方面，我们有车辆、车牌的检测和识别，不光是在白天，也在晚上达到了很好的精度。

再谈一下超分辨率。很多人做超分辨率可能是为了让多媒体内容或视频的噪声减少，看得更清晰，对于人脸识别，一定的噪声、一定的清晰还是可以识别出来的。

但对于非常小的人脸，比如说已经小于20×20了，在现在的人脸识别当中就是放弃的，因为太小了。但是我们用了高分辨率，我们可以做到12×12这么小的像素，也就是说一个相机拍得很远的一张人脸，我们用了高分辨率的网络，大家可以看到最右边的就是输入，中间就是我们高分辨率网络的输出，最右边是理想的希望达到的水平，也就是真实的样本。我们进行了大量的实验，把人脸识别率从75%提升到97%。

还有3D重建，在这个当中，我们的关键技术就是视觉SLAM。我们有做这个的基因，一旦有客户对我们提出这方面的要求，就能很快把它做出来。

现在谈到视频结构化，刚才也有人谈到这一点，视频也好，语音也好，要在上面进行数据处理是不可能的，所以一定要视频结构化。但对我们来讲，视频结构化的优先顺序是不一样的，因为我们有人的卡口、车的卡口，所以对人和车是优先做的。

关于行人，可以看到人有基本的特征（性别、年龄、头部是怎么样的，有没有戴眼镜，他的上装、下装是什么样的，他的携带物，以及行为），我们看到一个视频，就会把它描述下来，生成这个视频的Metadata，回头搜寻的时候就可以做逻辑推理，应用到不同的场景。

对车辆也是如此。现在学术上都是针对一个任务就有一个模型，多个任务就有多个模型，我们现在要设计一个单一的模型，输出不同的任务，最重要的是保证性能不下降，还要把这样的东西放在一个小盒子里，而不是放在服务器上，所以这也是我们的挑战。正是因为我们自己设计算法和软硬件，所以我们可以做的到。

除了人、车以外，要做城市规划，做其他方面应用，对场景也非常重视。场景的视频结构化、时间、地点，这些都是视频的Metadata，有了它之后你就可以做各种逻辑推理，完成各种任务。

人工智能行业的发展前瞻

最后这个部分是跟大家一起探讨人工智能行业的发展前瞻，也有很多人在担心人工智能是不是已经到顶峰了、是不是已经开始停滞了。因为计算机资源消耗很多的电能、数据难以获取，会存在很多障碍。我们一起来探讨一下，从2010年以来，计算机视觉取得了飞跃的发展，离不开三大要素。

这三大要素可能很多人都知道，也有人说是四大要素，因为投资的大量的涌入非常重要。

这三大要素，第一是数据-大数据-超大数据。

第二是计算资源，大家看到英伟达的GPU每半年都会更新换代，速度越来越快，显存越来越大，而且价钱越来越便宜。在昨天的AI芯片会场我们也看到了很多公司在做落地的AI芯片。

第三方面是人工智能开拓者、领头人，以及在研发行业中耕耘的人员的努力。今年6月份的CVPR上，李飞飞团队的ImageNet的文章获得PAMI奖，得到了非常好的肯定，没有这样的数据就没有今天的AlexNet，VGG、GoogleNet、ResNet，我相信每个人都会同意这一点，这样超大的数据库训练的模型，不但用在拍照的图像上，也可以将它用到医学图像。

今年大家也看到了开拓人工智能的三位先驱者都获得了图灵奖，肯定了他们对今天的人工智能的飞跃发展起到的作用。

要得到一个很好的视觉模型，不但是视觉的，甚至说语音也是可以的，但它的基本原则是什么呢？我们认为：一要有足够的数据，这个数据要平衡。二要有很好的标注，标注中不要有很多噪声。三是要用足够深的网络，这样就可以训练出一个鲁棒性很好、泛化性很好的模型。

但问题是从哪儿来数据呢？这个数据的标注牵涉到很多的人力、物力和时间，要用很深的网络，越深的网络牵涉的计算机资源就越大。刚才我们看到旷视有一个很大的GPU资源来做训练，这都是问题。计算机资源这一块我就不谈了，大家也知道很多，也在不断地改进。

我就谈谈数据的限制。因为数据的有限性，如果数据不够，带来的问题就是鲁棒性、泛化性不好，在这个数据上训练的东西不可以轻易地用在另外的场景，或者用在上面的性能会大幅地下降。但是我们想一下，傅里叶变换这个无限的表达公式是完美的，但是当它用在硬件的时候，我们的硬件是有限的，所以也需要有限的东西来表达无限的。比如说用8×8DCT来做图像跟视频的压缩，也会发现它在很多场合下产生类似鲁棒性的问题，所以这应该不是一个问题。

如何解决大量数据的生成和标注，以及数据的长尾问题呢？除了我们每个人都知道的数据采集、人工标注，当然现在又出现了很多很好的标注工具辅助我们。最近我们也看到了很多人用GAN来生成数据，如做ReID、人群估计，有很多的场景可以用GAN来生成。

有人也用虚拟模拟软件Simulator，我们知道做自动驾驶的，没办法去采集一些数据。比如要采集下雨的数据，要等到雨天开车出去；要采集下雪的数据，要等到冬天下雪的时候出去；要采集危险的数据，怎么去采集呢？用虚拟的模拟软件Simulator，采集不同场合下、不同情形下的数据。但是有人会问，采集下来的数据与现实的差别很远，有人也会用GAN来把虚拟的数据转成更接近现实的数据。也有人用环境互动的方式、强化学习的方式生成数据，有的会用多种模型、多种模态来半自动地生产数据。

随着大量数据的生成，半监督、无监督学习的方法有所突破，我相信计算机视觉的未来发展是非常乐观的。

人工智能行业的发展，我个人认为还没到巅峰，我相信大部分在座的人也会同意这个观点，尤其是还有很多的落地机会，我们的学术总是走在前面的，落地还有很长的时间。

作为工业界的我们，就要考虑实际情况，怎么样来做迁移学习，怎么样剪枝优化压缩。还有更重要的就是在现有环境中去思考、去开拓新的AI应用，多去想一想、尝试一下AI能为我们做什么。刚才也有很多人谈到了这个时代。我觉得IoT时代，从互联网时代开始，给我们带来了很多游戏规则的变化，比如一个公司不拥有酒店，但它可以做酒店的生意，那是什么公司呢？Airbnb。你没有车，可以做车辆有关的业务，那就是Uber、滴滴，在新加坡是Grab，你没有商店，可以卖东西，早上我听了阿里的介绍，我也是很有感触。IoT的时代造就了那么多的公司，游戏规则的变化。现在是人工智能的时代，再加上IoT，还会让更多这样的公司出现。

所以大家都带着这种思考，尝试一下AI能为我们做什么。还有就是你们可以在自己的环境当中搜集、建立数据集，因为很多的现象，过去有人尝试用公式把它表达出来，但是很多现象是没有办法用公式表达的。但是你有数据集，可以收集数据，标注、训练模型，从而发现它们内在的关系，然后可以制定决策，这ye包括经济的决策、金融的决策，DNA方面的研发，这些都可以去探讨，从你挖掘数据中探讨它们的内在关系。

另一方面可以建立强化学习、递增学习的商业环境去训练挖掘。

在人工智能方面还有很多的空间可以做，比如我们说到监控相机对物体的检测或识别是要理解看到了什么，，但是研究机器人就不仅仅要知道看到了什么，它还要采取行动。所以不仅仅是理解，还有决策，反馈再决策。所以这个强化学习是很重要的。DeepMind很成功，你看到他们很多的人工智能的开发都在游戏方面，真正把它用在机器人的实际操作方面，你会发现还有很多的问题，这里面有很多的空白大家可以做。你在机器人的大会上，看到那些叠衣服的机器人，你看了以后觉得不错，但是那个速度超慢，你不会觉得它能代替人。因为商业价值不在那里，这就是人工智能的空缺，我们还有很多东西可以去做。最后一点就是我们要打造灵活的软硬件、AI平台，让它的落地做得更好。

最后讲一下澎思新加坡研究院，它在澎思科技主要承担两方面的任务，第一是做垂直领域技术的开发，最重要强调快速，能够有工业级研发的交付能力，结合公司的发展方向做创新。第二是要做前沿科技的探索和储备。我们在新加坡这个窗口，直接接轨全世界，我们又带着全球的视角来探索前沿科技，并且我们要非常敏感，要很快在我们这边研发一些突破性的技术，让我们公司在新的领域、新的业务当中有一些大展手脚的机会。

今天我就分享到这里，谢谢大家。雷锋网雷锋网雷锋网

。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/69350.html

澎思科技申省梅：后深度学习时代的智能视觉技术落地 | CCF-GAIR 2019

计算机视觉澎思科技的全栈技术

以商业价值为导向的算法开发

相关推荐

发表回复