雷锋网·新智驾按:2003年,清华大学电子工程系竖起了一个小小的牌子,上书“3D Image Lab”,这也开启了马惠敏和团队一行对三维图像认知技术的深耕。马惠敏,是清华大学电子工程系副教授,博士生导师,也是3D Image Lab负责人。多年以来,她带领团队在三维图像认知和视觉导航领域开展研究,如今已实现了从基础理论建设、核心技术到产业化的产学研结合。刚刚过去的CVPR国际计算机视觉与模式识别年度盛会上,马惠敏团队在5000人的大会上做了Spotlight论文报告。
正是基于在视觉感知算法和智能无人系统领域的多年积累,近期,马惠敏受邀在中国图像图形学会主办的“智能驾驶与机器视觉”讲习班进行报告分享。在以《三维图像认知与多模态学习》为主题的深度报告中,马惠敏系统讲解了团队在三维图像认知领域的解决方案探索,以及这些研究成果在自动驾驶领域的应用。
以下为马惠敏分享的精华内容,雷锋网(公众号:雷锋网)·新智驾进行了不改变原意的整理编辑。
一、视觉技术在智能驾驶中的应用:从感知到认知
从技术层面解剖智能驾驶,逻辑框架可划分为:传感器—环境模型—驾驶策略—车辆控制&人机交互。
在传感器层面,现在主流的是多传感器融合方案,摄像头、激光雷达一般是标配。曾经有个人问我,摄像头和激光雷达哪个更重要?我这样回答:其他都可以没有,但摄像头不能。视觉感知是核心。
其实,自动驾驶已经来到了我们身边,以奥迪A7的自主泊车功能为例,从检测车位,到规划路线到驾驶控制,在整个过程中,其前视、后视摄像头一直在进行观测,实现这套系统需要一个多模态方案。
什么是多模态?
多模态指的是一套传感器的组合,如摄像头、激光雷达、超声波雷达、毫米波雷达、GPS等。可以看到,目前在整车上使用的传感器并没有一个标准方案。以上图为例,第一层是最远视距250米的前视摄像头,第二层是最远探测距离160米的毫米波雷达,以及最远视距150米的摄像头(视场角更宽),第三层是最远视距80米的侧向摄像头,以及最远视距60米的广角摄像头,非常近的范围内还有探测距离8米的超声波雷达,等等。
所以,当一辆自动驾驶车行驶在路面上,它早已覆盖了比本身体积大得多的“场”。但其中的摄像头怎样最好地发挥作用,与激光雷达间又是怎样的关系,是我们这次要探讨的问题。
自动驾驶的从感知到认知,要解决的三个核心问题:车在哪儿?车在路上看到了什么?车要去哪儿?
车在哪儿,车要去哪儿,这是大尺度下的绝对坐标(信标GNSS)解决的问题。今天要讨论的是第二个问题:车在路上看到了什么?这就是感知。
今天的自动驾驶环境感知方案中,小目标、强遮挡和高动态是必须要解决的问题。
小目标:道路远端有一个人,单从图像来说他太小了,并不具备人的典型特征,但我们一眼得知这是个人,这是如何做到的呢?这就是一个小目标问题。
强遮挡:如上图中的红车,人和柱子都对它有遮挡,对于计算机而言如何识别?这就是强遮挡问题。
高动态:例如车辆在行驶,前方突然横穿一辆电动车,这种突发情况就属于高动态。
二、如何突破自动驾驶所需的复杂场景中的物体检测与识别?
目前,KITTI是国际最权威的面向自动驾驶的视觉算法评测数据集,我们于2015年获得了这个评测的冠军,当时在国际上首次将车辆检测率从80%提升到90%,行人检测率达到75%,这个成果就是靠三维检测达成的,但它离无人驾驶还很远很远。
所以如何突破?实现驾驶任务中所需的复杂场景中的准确物体检测和识别,世界都在关注这三大难题:小目标、强遮挡、高动态。解决这个难题的关键,就是今天的话题:三维场景图像认知与多模态学习。
首先谈认知,认知就是在有意识参与的情况下达到的认识。我们做的方案就是,带着认知任务完成一个高准确度的物体检测和识别。
所以,我们的实验室最大的特点就是将心理、认知、识别和决策融合在一起。目前,心理学已经开始受到自动驾驶领域的关注,我们团队从2007年就已经与心理系有合作研究了。
诸如刚才的遮挡情况,为什么人类能轻易认出这是一辆车?这是因为,在心理学中有一个“格式塔理论”,又称为完形理论,即人类的认知会对事物有一个完整的感觉,所以能在强遮挡情况下认出一辆汽车。那么,如何在物体检测算法与人类的完形心理学之间建立联系?这就是我们实验室突破的地方,即让机器学习人的思考模式,我们的研究工作主要分为以下四个层次:
图像认知心理学:语义图像生成及心理特征提取,要解决的是图像识别的认知基础问题。
显著性物体检测:语义注意认知模型,要解决注意的问题,即让机器像人类司机一样,注意司机该注意的事情。
部件与结构认知模型:抵抗遮挡能力,解决上面所说的强遮挡问题。
3D场景物体识别:适应复杂环境,解决的是三维场景识别问题。
上面四个层次串起了视觉算法在解决自动驾驶问题中面临的一些核心问题。
所以,从一个人类司机入手,建立关联的实验范式。对于一个人类司机,关注的任务是汽车检测、行人检测等,对周边建筑并不刻意地关注,所以我们就建立人类关注的这种关联模型,挖掘任务关联的图像检测识别规律,建立图像认知的网络模型,实现高准确度的物体检测和识别。
1、图像认知心理学
看图释义是当前的研究热点,是以图像生成图像,但我们在国际首次开启了文字语义生成图像的模式,提出的基于图像认知的心理测试方法如上图,在屏幕上播放生成的图像,通过捕捉人眼球的运动,记录他的反应,输出心理状态的测评结果,既可筛选高焦虑和抑郁人群,又可获取人的视觉注意机理,2016年获吴文俊人工智能科学技术创新一等奖,目前已由北京清视野科技公司实现了产品化。
实际上,通过这种模型,我们也在关注人在注意什么。
2、显著性物体检测
显著性物体检测的难点在哪儿?以上图为例,每辆车的车窗、轮毂区域和车身都不同,如何将整个车完整地标出来呢?我们的办法是,引入“测地距离(GWB)”,将车当作一个整体,因为人类在识别一辆车的时候,不会把车窗这种特征显著的东西抠出来作为另外一种事物。
通过这个思路,我们在模型中加入测地距离贝叶斯优化框架,对汽车的显著性检测有了三分之一以上的提升。
上图是我们与国际最佳算法的比对结果,非常直观对显著性区域的检测有了明显提升。
3、部件与结构认知模型
如上图,如果只看左一,没人知道是什么,所以在识别一个物体时,需要找到其关键部件。所以在2006年,我们提出了一个模型,如下图所示,以自行车为例,只要有两个圈和一个车座,不管什么角度,都识别为自行车,这是早期的模型。
2017年,我们在Pattern Recognition上发表了新的“通用对称对模型”识别方法,这是一种非常新的思路。假设人的动作主要由手和脚完成,它们是周期的或对称的;同时假设对于识别动作有助的区域在这些对称部件的“周围”,就得出了一个新的模型。
这个模型关注的是手和脚的动作,并不关心多变的手和脚的轮廓检测,这就将一些约束松弛了,解决了检测手势的难题。
4、3D场景物体识别
说了这么多,如果显著性检测带来的提升不足以支撑自动驾驶任务在复杂场景中的应用,如果部件和结构检测也不足以在复杂遮挡条件下完成识别,那么就有一件事必须要做,也是我的研究方向,3D场景图像认知与多模态学习。
“我站在这里一动不动,为什么你就能认为我是一个人,而不是一个雕塑?”在这个过程中,对事物的整体三维还原很重要。现在,我们要将这个3D认知模型引入到驾驶任务中。分为几部分:输入(单目、双目、激光雷达等)→ 似物性检测(Object Proposal,识别人/车的位置、大小和姿态等)→ 三维语义预测→ 输出(类别、位置、大小、姿态)。
国际权威的图像集KITTI中包含三类物体:汽车、行人和骑自行车的人,不仅有单目图像还有双目图像,还有二维、三维boxes的标注。KITTI中的任务包括物体检测以及姿态估计等,我们参加了六项评测,其中四项获得了第一。
在二维场景的图像检测中,重要的是更精确的似物性区域获取,但在二维图像下,要想更精准的检测,就需要将三维引入进来,这就是提升似物性预测(Object Proposal)的诀窍——Thinking in 3D,用三维来思考,下面将具体展开。
三、如何提升似物性预测:Thinking in 3D
1、单目视觉(Mono3D)
在单目视觉下如何解决三维检测问题?假设一幅二维图像,将大地作为参考系,只要通过语义分割将道路检测出来,同时已知汽车前视摄像头的视场、焦距以及安装的高低位置,就可以粗略地计算一个三维空间,并将这幅图像的点还原到三维世界中。主要分为下图中所示的几个步骤。
针对基于语义特征的似物性预测(单目)会遇到的三个问题,我们分别给出了解决方案:
缺乏语义信息,对于路面分割、物体分割的语义信息基本没有
解决方法:基于高层语义特征的能量最小化模型
缺乏三维信息
解决方法:基于道路几何先验的3D场景建模
搜索复杂度高,二维boxes无法准确标注
解决方法:3D区域采样
这样,就将整个检测过程分为三部分:
首先,对原始图像进行3D似物性区域提取,使用神经网络得到物体语义(数据驱动)。
第二,通过相机与汽车相对位置以及大地参考系,基于场景几何形成场景结构(先验知识驱动)。
第三,结合两者构建能量模型,来做3D物体的推理。
2、立体视觉(3DOP)
在双目图像中,我们可以直接计算得到三维点云,有物体的高度信息,所以我们将道路上所有的车的高度、人的高度都规定一个检测区间,并利用成像中的自由空间构建高精度的物体检测认知模型。
上图所示,为三维场景中对车的3D似物性检测需要满足的条件,首先它应当有较高的点云占有率;其二,其中应该包含较低的自由体素;其三,符合最初对物体的高度先验;其四,要满足与邻近区域的高对比度,即车是跑在路上的,不在路上对我们没有影响。
将这些因素结合在一起,如上图,绿色是自由体空间中的路面先验,从蓝到红代表高度先验的增加,通过这些要素建立Object Proposal似物性区域的立体框,x、y、z是3D box中心,θ是方位角,即车和车之间的关系和方位角,物体C是类别,t是形状模板,即框的顶点和尺寸。基于这些参数,即可计算基于能量最小化的似物性区域。
上图是我们的单目、双目、双目+激光雷达混合方案在3D似物性区域召回率的表现。可以看到,在汽车检测上区别不大,在行人检测上开始有所差别,到了自行车检测区别就很明显了,可以看出双目点云的方法在小目标检测性能上有显著提升。而加上激光雷达(LiDAR)后,性能提升就更高了。此外,在自行车检测上,可以看到目前的性能还有很大提升空间,证明自动驾驶的环境感知,还有很长的路要走。
应用层面,我们提出了复杂交通场景下的三维物体检测结构,并将其应用在了真实的自动驾驶任务中,该应用在2017年1月的北美CES展上进行了成果展示。
3、激光雷达(MV3D)
激光雷达的优势在于,能够提升小目标的检测率。MV3D指的是多模态三维物体检测结构,在这种情况下,将摄像头和激光雷达都引入进来,还可以引入其他传感器。
首先明确,图像数据的优点在于含有丰富的细节和语义信息,缺点在于深度估计的精度低;激光点云的优点在于含有精确的三维位置信息,缺点在于细节分辨率低。
基于以上事实,多模态融合的难点在于以下几点:
如何表示三维点云?
图像和激光雷达点云具有不同分辨率,如何对齐不同模态数据?
前融合、后融合还是其他方式?(此处我们需要多种融合方式,即深度多级融合)
我们的解决方案是,使用多视角表示三维点云,结合激光雷达的俯视图、激光雷达的前视图以及RGB图像进行计算。激光雷达扫描的数据是包含有x、y、z坐标的,这种情况可以将其还原成俯视图,因为俯视的情况下背景(地面)简单,方便在其上做三维box的检测。
所以,最终我们得出了一个俯视视角,两个前视视角(分别来自激光雷达和摄像头两个模态),这时候需要对其进行多视角表示。还是沿用之前划分高度区间的思路,将俯视图从地面起到车的最高高度区间,进行切片,对这些图像进行点云密度和强度的检测,而前视图中得到的高度、距离和强度等可以作为我们的先验知识和信息。
这样做的好处是,不涉及姿态问题,在俯视情况下只存在尺寸变化,同时数值指标变化小,没有树木等遮挡问题。
用这种方案我们得出的检测网络(MV3D)如下图所示,首先通过俯视图做卷积,得到三维似物性区域。然后通过将其投影在不同模态上,进行图像融合。在投影到俯视图、激光雷达前视图以及RGB图像时,做一个ROI Pooling处理,然后将三个分支做平均融合,最后通过Softmax和3Dbox回归学习。
下图是方案的成果对比,可以看到多模态融合的方案在提升似物性预测上性能的大幅提升,本论文是CVPR2017 Spotlight Paper。
下图是我们的MV3D在KITTI数据集上的可视化结果,将3D物体检测与激光雷达融合,认知的难度大大下降了。
去年夏天,我们与百度合作对北京亦庄的公路做了路试,达到下面这样的成果。
而后,我们与上海纵目、美国高通合作,将算法写入了高通骁龙820A芯片里,并在CES展上进行了展示。以上是我们的一些成果产业化落地情况。
结语
今天的报告中,讲解了三维场景下,以数据和认知双向驱动的三维场景图像认知与多模态学习,同时,我们还在做驾驶策略的增强学习,我们在复杂环境仿真上有20多年的积累,为识别、决策提供所需的训练及测试样本,后期还会将超声波雷达、毫米波雷达、GPS等进行融合,提供一个系统级解决方案。相关论文、PPT、代码等请访问实验室网站下载。
雷锋网推荐阅读:师从李德毅、李克强,清华无人车领队张新钰详解智能驾驶进程、关键技术及产业化发展
。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/114078.html