清华教授孙富春：从视听觉认知到无人驾驶 | CCF-GAIR

编者按：2016年8月12、13日，雷锋网在深圳举办了盛况空前的“全球人工智能与机器人峰会（CCF-GAIR）”，来自中美加的全球最为顶尖的科研实验室、学术权威、产业大咖、投资领袖共同探讨人工智能、机器人、无人机、智能驾驶等四大领域的未来趋势和产学研发展方向。雷锋网(公众号：雷锋网)将会议精彩演讲内容与视频精心编辑，近期将逐步放出。

● ● ●

清华教授孙富春：从视听觉认知到无人驾驶 | CCF-GAIR

▲ 清华大学教授、863计划专家组成员孙富春

“如果有一天你坐在车里面，没有驾驶员，或者驾驶员没有把握方向盘，千万不要震惊，因为我们已经进入了一个无人驾驶时代”，这是清华大学教授、863计划专家组成员孙富春教授在CCF-GAIR大会上演讲的开场白。

他还不无自豪的介绍了其创办的中国智能车未来挑战赛取得的成就：“你可能难以想象，从长沙到武汉2800多公里的路段里，有雨天也有晴天，人工干预仅仅占整个路段的0.75%；从北京到天津150多公里的路段里，没有人工干预，实现全程的自主驾驶……”

作为国家自然科学基金委员会重大研究计划“视听觉信息的认知计算”指导专家组的一员，孙富春教授介绍，该研究计划在2000年披露，经过8年的论证，直到2008年才在国家自然基金委立项，至今走过8年，要感谢许许多多人。

“视听觉信息的认知计算”研究计划

视听觉信息首先是“看到”。上帝对人特别青睐，从眼睛到微曲的皮层，我们经历的是感知部分和信息处理部分，还有连接二者的中间环节。这么长的路径，触觉、听觉等其他感觉是没办法做到的，所以眼睛被称为心灵的窗户。

清华教授孙富春：从视听觉认知到无人驾驶 | CCF-GAIR

▲ 视听觉信息研究对象

数据显示，人类获取外界的信息80%来自视觉，而且，大脑皮层的60%都与视觉相关。当然，听觉也是非常重要的部分。

先锋科学家揭示，自然图像经过稀疏编码以后的基函数与微曲的皮层细胞感受的反应特性是一致的。这一发现也为未来通过稀疏编码的方式来研究视觉编码奠定了理论基础。

据孙教授介绍，在专家组近年的研究中，发现触觉与视觉是同构的（让人想到盲人和失聪者的眼睛特别好）。未来可以通过人工摄像机把视觉编码变成触觉编码，让盲人感受到外部的世界（这两年也已经有人工视网膜的出现）。

专家组还发现，语音在稀疏编码下的去燥特性、增强特性非常好。语音是否也具有与触觉一样的底层结构呢？这正是需要研究的问题。

所以，本计划中的“视听觉信息”研究对象主要是指与人视听觉感知相关的图像、语音以及文本信息，目的是促进计算机对这类信息实现有效的处理和理解。

机器认知能力不如三岁小孩

事实上，日常生活中视听觉信息非常多，有各种各样的工具（信息器）比如手机、摄像机、网络摄像机、卫星遥感等来捕捉这些信息。

网络产生前，大家生活在二元世界里，彼时的机器人智能都是局部的；如今在网络世界中，机器人完全可以实现全局智能。比如自动驾驶汽车可以在网上找到一条路径，通过地图规划路径，借助摄像机的形态识别找到我们今天的会场，这就是网络的神奇。

网络上有海量的视听觉感知数据。如何有效地快速地发现这些数据，通过及时有效的处理把它变成可用的知识，这是无人驾驶研究中非常重要的部分。

目前，对于结构化信息的处理能力，机器远远超过人，比如说一些报表；但对于非结构化的信息，比如说听觉信息，人要远远强于机器人，比如人可快速在人群里找到熟悉的朋友，有人驾驶汽车可以在任意非常复杂的环境中进行驾驶，而无人驾驶目前还办不到。

尽管机器的计算速度提升比较快，但计算机的认知能力还非常落后，它的认知能力甚至不及一个三岁小孩。

两大挑战和三大基本科学问题

8年来，我们的目的就是研究人类视听觉的认知机理，发展新的高效计算模型，提高计算机对与人视听觉感知相关的图像、语音和文本信息的理解能力和处理效率，在无人驾驶的平台上进行验证。目前，围绕认知过程的表达与计算有两大挑战和三大基本科学问题。

两大挑战：

1、复杂感知信息的理解

2、海量异构信息的计算。

三大基本科学问题：

1、感知基本特征的提取、表达和整合，主要是要探索人力视听觉信息基本特征的提取、表达与整合机理，为建立相关高效计算模型奠定基础。

2、感知数据的机器学习与理解，主要围绕图像、语音和语言数据的非结构化和半结构化特点使计算机难以实现从数据层到语义层的转化，建立新的机器学习方法是实现这种转化的有效途径。

3、关于跨模态信息的协同计算。

目前，三个关键技术都取得了突破，比如在视听觉信息的协同计算、自然语言的理解与视听觉认知相关的脑机接口方面，已经建立无人驾驶平台、脑机接口平台和搜索引擎；还创建了无人车未来挑战赛以及脑机接口比赛两个国际性的赛事；同时收获了国际科学奖项。

孙富春在演讲中提到，“我们还把脑机接口用在无人驾驶方面，通过脑控来控制无人车的运动。另外还通过脑机接口实现自动泊车。目前，在非浸入式脑机接口方面，中国处于世界领先地位”。

驾驶脑

在孙富春教授看来，驾驶脑是专家组这些年研究的突出成果，它主要的工作是模拟人的驾驶经验，学习人眼和听觉的感知进行表达和融合，在环境中作出决策。

清华教授孙富春：从视听觉认知到无人驾驶 | CCF-GAIR

▲ 驾驶脑

当然，这个过程中要去掉人在驾驶过程的一些情绪的影响。

人的性格决定他开车是保守还是张扬；长期记忆区存储人在长期驾驶过程里形成的经验和技巧；动机就是完成出行任务从起点到终点的一次性路径规划；短期记忆主要表示驾驶员的选择性注意，仅仅关注刚刚过去的以及当前的周边驾驶态势。

拒绝人脑中的情绪部分进入驾驶脑，永远不会因情绪而分散注意力，机器始终专注。

我们的眼睛、耳朵可以感知外面的环境，比如说在哪里，这旁边有没有障碍和目标，通过长期记忆区来决策这种情况下我应该如何驾驶，这叫行动。

然后把行动的信息和感知信息进行比对，确认是不是达到了效果，就形成这样一个闭环：从动态感知到态势分析、自主决策到精确的控制和行动。

清华教授孙富春：从视听觉认知到无人驾驶 | CCF-GAIR

▲ 驾驶脑感知域、认知域及行动域的工作闭环

这里面还有一个很重要的概念就是路权：行进过程中车本身占有的空间。在这个基础上形成了自主决策。比如速度应该有多少变化，转角应该多大的变化，形成决策记忆池。通过控制模块控制无人车，从感知到决策再到控制，形成闭环。

驾驶脑是通过英伟达的Drive PX实现的自动驾驶硬件系统。

无人车未来挑战赛

据悉，从2009年开始到去年，该项赛事总共举办了7次比赛：

清华教授孙富春：从视听觉认知到无人驾驶 | CCF-GAIR

▲ 无人车挑战赛历程

从比赛的结果来看，人工干预最后基本取消，速度是越来越快，比赛也从局限的封闭道路越来越走向真实的道路环境里面。

回顾这8年来，孙富春教授指出下面这些工作对他们的帮助很大：

第一是认知机理研究成果，如何形成可计算的模型，这个我们探索了很多的方法，还需要进一步地完善。

第二是在环境感知的拓扑结构信息如何在认知过程中表达与理解，探索新兴的多模态传感器。其中包括：

1、声音、视频信息的集成。

2、人机智能混合问题，这个也是刚刚国家提到的人工智能2.0版本，我们要研究人机混合的智能系统。

3、借助这个平台发表更多的关于认知科学方面的成果，将自然语言理解和脑机接口集成到无人车的平台上，让成果走出实验室。

第三是通过无人车平台取得的重大进展，进一步促进创新，引领无人车产业的发展。

尾声，孙富春教授以诗为寄：“人机仿造胜奴仆，亲我劳耕续史书”。

PS：本篇内容来自雷锋网栏目「新智驾」，欢迎微信添加「新智驾」订阅公众号。

。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/106591.html

清华教授孙富春：从视听觉认知到无人驾驶 | CCF-GAIR

“视听觉信息的认知计算”研究计划

机器认知能力不如三岁小孩

两大挑战和三大基本科学问题

两大挑战：

三大基本科学问题：

驾驶脑

无人车未来挑战赛

相关推荐

发表回复