雷锋网 AI 科技评论按:国际计算机视觉与模式识别顶级会议CVPR 2017于 7 月 21 日至7 月 26 日在美国夏威夷召开。我们的记者团也特赴夏威夷为大家带来一手报道。
全体大演讲:灵长类视觉理解的反向工程
当地时间 7 月 25日,James DiCarlo 教授进行了题为「The Science of Natural intelligence (NI): Reverse Engineering Primate Visual Perception」(自然智慧的科学:灵长类视觉理解的反向工程)的全体演讲。雷锋网(公众号:雷锋网) AI 科技评论对现场演讲精华的摘录如下文:
James DiCarlo 是 MIT 的神经科学教授,MIT 大脑和认知科学学院院长。他是 Alfred Sloan Fellow,是生物医学科学的皮尤学者(Pew Scholar),以及神经科学界的麦克白学者。他的研究目标是用计算性的方法理解灵长类视觉智能在大脑内的形成机制。
演讲正文
DiCarlo 教授首先感谢主办方邀请他来演讲。他来自神经科学界,这次来到CV界的会议,也是想借此机会做两个研究领域之间沟通的桥梁。
总体研究内容与方法
教授的研究内容是人类的大脑,研究它是如何工作的、如何用计算的方式模拟它;而CV界的研究目标则是尝试构建出达到人类大脑表现的系统。所以在教授看来,希望CV界的人也能够从神经科学的研究中受益。
最理想的状态是PPT中黄色的这种,CV界的人把自己的研究看作是尝试构建系统的前向工程,不过要符合一些大脑本身和认知科学的限制。神经科学界的人就是反过来,把大脑看作已经构建好的系统,研究大脑的限制和原理、尝试模仿大脑结构的反向工程,在过程中逐步对所用的机理和例子做验证。这样,神经科学和神经网络的研究可以看作是互为表里,这样的研究成果也会给脑机互动带来更多的可能性。
人类大脑根据视觉输入可以理解物体的类别、位置、姿态等等信息。人类的物体认知能力很强,毫不费力,很久以前就有不少关于人类的认知能力的研究成果,比如人类对物体的感知聚集在视野中心视角10度左右的范围内,然后人眼通过移动捕捉多幅画面的方式来观察完整的画面,再链接到记忆。他们把人类视觉系统这种特点称作“中心物体感知”(Core object perception)。教授研究的落脚点就是视觉对象认知任务(Object perception),重点在于类别识别。
教授把对中心物体感知的反向工程分为三步:
-
首先要对研究对象在领域内的表现做定义和可操作化处理,尤其要关注的是现在制造出的系统相比生物大脑有哪些不足;
-
然后测量系统中会对表现产生重大影响的组件,比如他就需要测量一些生物特性,测量时候要谨慎地选择测量哪几个具体指标;
-
最后在以上的限制之下进行前向工程,构建模型,用模型把数据组织起来。对于模型而言,它不仅需要能够解释、获取数据,它还要能够预测新的数据。这样一来,建模也就是最关键的一步。
通过这三个步骤之间的互动构建好模型以后,就可以尝试拓展模型的应用领域了。
教授今天要讲的就是依托这三个步骤,总结他在建立端到端的灵长类中心物体感知系统模型中的进展。
视觉行为测试与数据特征
教授在研究中进行测试时使用的是生成的图像,在不相关的背景下放置不同观察角度的物体。之所以这样选择的原因是,当他开始研究时,同时代的CV系统很容易被不相关的背景扰乱识别结果,但是人类就不会受到什么影响;另一方面,CV系统对于更多姿态和变化时的识别有更大困难,但是人类表现得也很好,体现出了视角无关性,所以他认为这样的图像可以更好地展现出人类视觉系统的特点。
教授的测试中用到了人和猴子
训练猴子做识别测试很容易。教授根据人类和猴子的测试画过出了这样的识别模式矩阵,其中根据不同的复杂程度排列了各种物体。每个格子的含义是把这个类别的物体和另一个类别的物体正确区分的比例,颜色越偏红,识别准确率就越低;越偏蓝,识别准确率就越高。
根据误识别模式矩阵,人类表现和非人的灵长类动物表现基本相同,不仅体现在总体准确率上,也体现在会把哪些东西之间认混上。这样就可以在动物身上做神经级别的测试和操控,获得数据的类别和数量都可以大幅度提高。在此基础之上就可以对信息处理的机制进行系统性的研究。
人类/灵长类的大脑视觉皮层已经有了很多研究成果,人们已经知道可以分成 V1、V2、V4、IT四个区域。整个视觉系统的工作流程图画出来的话就是图中这样,把视网膜上的细胞看作像素的话,外界的视觉刺激首先组成视网膜色谱图,然后经过视网膜级别的 LGN 以后依次来到大脑皮层的 V1、V2、V4、IT 区域,每个区域都有百万级别的细胞;然后每个区域与视网膜形成不同的区域对应特性,对输入信号的表征空间也逐步发生变化,人们也就是由此进行的划分,从而把视觉系统看作是一个深度分层网络。由于 IT 区域在最后,有最高的抽象级别,所以 IT 区域与视网膜的区域对应性也是最弱的,而在物体识别任务中对不同类别物体的响应模式也是最明确的。
另一方面,现有研究已经表明从 V1 开始的区域都是同时具有前馈和反馈的,教授稍后还会谈到这些。
今天要谈的主要就是 IT 区域的信号特征。经过研究人们发现 IT 区域其实有三层特征网络,不过今天教授先按照一层进行演讲。
根据教授的测试,从把图像呈现给眼睛,到 IT 产生响应,其中的延迟大约100毫秒。他们测量响应的方法是在猴子大脑的不同区域植入多通道电极,测量到了神经脉冲的电极就显示为了图中测试结果中的一个亮点,很多个亮点就组成了雪花一样的测量结果。通过四张图像、IT 中三个不同区域的测量结果,可以明显看出 IT的这个约100毫秒的响应延迟。它同时也体现出,IT 中的不同区域的对同一个类别图像的响应是不一样的。
经过大量图像的测试,教授发现 IT 对不同类别图像的总体响应强度高低有所不同(其它神经科学家有也有研究具体某个位置的神经响应是如何变化的)。对于响应模式来说,每个IT细胞都有所不同,每次的响应也不完全相同;上一张PPT里把神经响应画成了雪花的话,那么从来就不会出现一模一样的雪花。
在过程中也有人尝试研究不同区域的神经是否对不同类别的物体响应强度有所区别,那么也确实发现了“面部感知神经细胞”,总体来说对人脸的响应更高,但是它们对不同的脸部图像的响应不同、对其它的类别也不是没有响应。所以这些细胞并不是严格地按照识别物体类别进行区分的细胞,它们的复杂特性也在研究中得到了一些揭示。
IT 特征的研究
在有这些研究结果以后,教授的研究小组就开始被这一系列问题困扰:如何根据神经细胞的响应特点解释测试中出现的误识别行为?生物表现出的外在行为肯定是受到 IT 的神经响应模式影响的,那么如何找到这种关系?IT 区域的输出神经有一千万个,又如何从这一千万个神经细胞中读取信号?
下面用到的方法对 CV 界的人来说就要熟悉一些了。首先把 IT 中细胞的响应向量化,测量 n 个细胞的响应信号,对每个输入的照片可以测量到 n 个细胞的响应模式,得到 n 维特征空间中的向量表示;这个 n 维空间的基的数目就是找到的特征数目。接下来,对不同的含有脸部图片的图像/没有脸部的图像测量响应模式,就可以尝试能否为特征空间中的点找到一个线性分类器。
在这里,教授再一次提到了在动物大脑内手术植入电极。通过不同区域多个电极、每个电极可以采集96个通道(96针)的信号、做大量实验的方法,对IT等部位构建了维数非常高的数据空间。获得的数据量相比以前单电极的时代也有着爆炸性的提高。
借助这样的方法, 关于 IT 中区域对图像的响应就可以构建非常高维的响应向量,如图中所示,大概在100到1000个神经细胞特征上测量得到的8个向量已经绘制成了图像的样子(长条),绿色表示响应高,黑色表示响应低。他们测量了2000个种类图像的向量,没有测试更多种类的原因是用类似的特征做了50次左右的反复测量以获得非常高的信噪比。
这样下来,获得的高质量的神经细胞响应模式就可以成为IT能够影响动物形成行为决定的有力证据。用线性解码器的方法,根据 IT 神经细胞的响应向量对误识别行为做预测,跟直接测量行为得到的结果相符程度非常高。同样的方法对视网膜级别的响应是无法达到这样的预测结果的(这也说明了 IT 细胞响应的类别相关性)。
教授有一个有意思的发现:不需要测量太多的 IT 神经细胞特征就可以达到人类的表现,大约500个左右就够。同时代的计算机视觉模型中每个特征对模型表现的贡献就要小很多,很多的特征才能达到近似人类的表现。这说明了动物的视觉理解能力可能就是由一个维数不算高的特征集支撑的,计算模型就可以用这样的思路进行模仿。IT 大概含有一千万个输出神经细胞,但是传递的特征维数也就不到1000个。
另一方面,既然 IT 神经细胞的响应是在一个 n 维空间中的,能否算出来这个 n 维空间的基的数目是多少,也就是 IT 中表征类别所用的特征集的大小是多少呢?他们就利用线性回归的方法研究神经响应模式,得到特征集,用特征集表示神经响应向量,最后用这样的表示模式尝试对识别行为做预测,结果是特征集的大小达到500的时候就能够准确预测了。这个发现很惊人,通过不同的方法得到了同样的数字。这也同样支持了IT是支持各种物体识别任务的基础。图中几个人就是教授的研究小组中跟他一起研究了几年的几位学生。
那么总结来说,IT 的特征空间就是生物识别能力的潜在基础,借助简单的线性分类应对多数甚至全部物体识别中的挑战。IT神经群就是一个相对固定的基础特征集,几乎不需要反向训练就可以用于完成许多物体相关的任务。
在了解了 IT 细胞的特性以后,更实际和更深入的问也就来了:只有500个就够的 IT 神经细胞特征是如何形成的?它们是如何从视网膜信号的基础上逐步抽象的?在人类成长的过程中这些计算方法又来自哪里?如果能够研究清楚这些问题,也就对教授团队的目标有很大帮助。他们的目标就是想办法构建一个编码器模型,可以对任何一张图片、任何一个中间皮脂层都准确预测对应神经群的响应模式,刚刚的问题就是系统构成的关键问题。
如何构建能够解释 IT 特征的计算性网络
在当时的所有研究成果中,V1 阶层左右的神经细胞功能已经有了很好的解释和模型,虽然都是只考虑了前馈的模型,但用来解释 V1的响应的时候已经可以有超过50%的符合程度;但是各种计算模型对 IT 中响应的近似都不好,最多只有20%。所以那时候的模型表现都很差。
教授接下来介绍了一些研究过程中出现过的模仿灵长类视觉系统的模型,通过种种方法从输入图片形成一个特征向量,然后在最后都有一个线性分类器(可以得到物体类别)。根据脑科学研究已有的成果,大家对大脑的工程和限制已经有一些了解了,所以这些模型像大脑一样有空间局部滤波器、卷积、临界非线性、非线性池化、正则化等等,就通过这些方法来处理模型的输出。最早的神经网络是Fukushima在1980年提出的,然后经过Tomaso Poggio、David Cox、Nicolas Pinto等人的继续研究完善,来到了教授和他的学生们一起完成的HMO模型。
它是一个深度神经网络模型,模仿了人类视觉系统的4个级别,其中有许多计算机视觉的人非常熟悉的卷积、特征过滤器等等。别的神经科学家经常做完全的神经细胞还原仿真,而他们做的只是在已知的限制之下找到架构更高效的人造模型。HMO在这样模仿人类的IT基础上,得到了跟人类类似的正确率表现。
然后他们把模型里对应 IT 的部分的特征表示和真实神经的IT响应拿来做对比。首先在识别正确率上已经和人类表现相近。
然后,对于某个区域的 IT 神经细胞的具体脉冲的拟合,相比以往模型只能解释20%的变化,HMO的拟合程度得到了很大提高,大概有50%。这就说明模型中的隐含层的解释程度同样很高。
作为神经科学家设计的模型,它不再是黑箱子,它的内部机能是和人类大脑的机能对应的。不仅是IT,V4视觉皮层的预测也达到了新高。图中的数据也不是来自网络已经见过的类别,而展示的是模型泛化后的结果,“预测”。
教授展示了这样一张图,在卷积神经网络研究的过程中,网络本身的物体识别能力是重要的性能指标,而实际上识别能力越强的模型也对 IT 响应的解释能力越好;HMO这样的模型在性能表现进化的同时,对IT表现的解释能力也达到了新高峰(2012年时)。
这时候的发展就比较有意思,虽然大脑和认知科学与计算机视觉的研究目标不同,但是他们做的事情开始有所汇合,都是想办法建立具有尽量高的性能的模型。
到了2013年的时候,当时风靡的深度神经网络AlexNet的识别表现和对 IT 神经细胞响应的解释能力都已经超过了他们的 HMO。教授这时也发自内心进行了感谢,深度神经网络方面的技术发展、建立的优秀的模型帮助神经科学家更好地了解人类大脑中的原理。
来自神经网络的新分歧
不过神经科学家能否坐等性能越来越好的神经网络模型,期待着靠它们就能对人类的识别模式有越来越好的理解呢?其实不行,教授自己的实验室的模型是橘色点,随着模型的进步,识别性能和解释性能都得到提高;但是机器学习方面的近期模型仅仅关注图像分类表现的提升,所以随着分类表现的提高,对 IT 细胞响应的解释能力下降了。
不过总的来说,两个领域共同达成了对神经处理的每一阶段都效果不错的预测模型。重新再来看行为模式图的话,深度CNN其实跟人类的也很像,但是总体和角落处的准确率更高;除了图中的这个Inception v3的结果外,其他CNN的表现也很像。
为了继续深入研究、解析其中的原理,他们用AMT众包和猴子收集了更多数据, 这样就可以观察非常细粒度的数据,针对每一副正确识别或者没能正确识别的图像,从行为的角度进行分析。
在非常细的粒度下,猴子和人类的表现仍然非常接近。但是图像间表现的稳定性/特征集方面,CNN就与人类和猴子的差别很大了。
教授相信是模型中缺失了某些结构。可能是因为模型中只建模了前馈而没有建模反馈,导致了灵长类会出现一些CNN模型中观察不到的行为。
在最新的研究中,测试中也用到了 计算机视觉界图像数据集 MS Coco 的帮忙,他们把图像根据测试结果分为了两类,一类是计算机视觉系统达到了灵长类水平的(CV-solved),另一类是表现没有达到的,然后测量大脑中IT的响应向量尝试寻找其中的原因。
然后他们发现,对于那些计算机视觉表现未达到人类水平的图像(红点),IT中的响应时间多了一个明显的、平均大约30ms的延迟(相比达到人类水平的图像,蓝点)。他们认为这30ms内就是那些人脑有、但是CNN网络没有的结构在工作,比如多次反馈。
这里还有一个有趣的发现是,前馈CNN网络对IT神经细胞群的解释能力,在 IT 产生响应花费时间越短的图像中就越强,在 IT 产生响应花费时间越长的图像中就越弱;如图中的曲线。这就从模型结构需要具有反馈、循环结构的角度对两个研究领域都提出了新的挑战。
不过教授说这个的目的并不是要求CV界的人一定要把反馈也加上这么简单,而是这样的发现为未来的研究揭示了多个亟待研究的问题。
教授对演讲内容做了大致总结:CV界和神经科学界都在理解中心物体感知的机制方面做出了很大的贡献。对于未来的研究走向何方,教授也提出了新的结构、新的研究工具、研究视觉系统的构建历程等等问题。
在演讲结尾,教授感谢以往的研究者们、他的学生和同事们、赞助商,以及实验中贡献了他们的脑子的猴子们。尤其感谢在场的各位,不仅是因为邀请他过来,也因为CV界的成果也对他们的研究有很大的启发。
提问环节
提问:机器学习领域有迁移学习的方法,可以对一个已经训练过的网络,再训练网络的最后几层识别以前从未见过的物体。人类视觉系统学习识别从未见到的物体是如何训练的?会在 IT 中增加新的特征吗?
答:现在还不能确定IT的特征集有多少部分是天生的、多少是训练出的。但是对于成年动物的测试,学习新的类别需要一天左右。经过学习20到30个新的类别以后再测试,IT的特征空间是一样的,我们认为是在更早的传递过程中有所变化,把新的类别放置在原有特征空间中的新位置上。
提问:您对现在有的超过100层的神经网络怎么看,它们和人类神经网络之间有可比性吗?
答:就像我刚才提到的,更深的网络在测试任务中的表现越来越好,但是对IT细胞的响应的解释符合度越来越低。如果不对模型结构作限制,只是对任务不断优化的话,确实会形成这种分化的趋势。不过其实灵长类视觉四个区域也可能每个都是由很多层组成的,我们也在尝试把其中的每一层和CNN中的每一层做对应。我在这方面跟你有共同的猜测,但是现在我们也正在研究中,还不是完全的明了。
提问:CV难以识别的图像中会不会有什么特殊的特征才导致了它们难以识别?
答:我们也对那些图片中的变量作了回归检查, 目前还没能发现什么特定的原因,没有发现这些图像的特别之处。
提问:对不同的层的采样时间有多久?灵长类视觉层与层之间传递信号的延时有多久?
答:一开始演示的IT特征空间的时候是100ms,后面演示IT的信号延迟的时候是10ms,为了展示出曲线的变化。然后,层与层之间是没有固定的延迟的,神经科学家其实完全可以认为任意一个神经细胞的任意一个脉冲都是有意义的,在我们这个研究中测量的只是IT的行为,从给出图像到IT产生行为的延时也是从几十到200ms都有。至于V1到V2到V4间的时间可能在完全不同的数量级上,不过因为我们没有专门研究这个,所以就只能说这么多了。
提问:您猜想IT反馈的信息都会有哪些?纯粹猜想
答:对我来说这个问题就像问我前馈流里有哪些信息一样,用人类的语言很难描述。我觉得它们的作用有可能是通过循环的方式把更深层的网络封装在更小的空间内,根据我所见的,我是这样猜测的。不过我不确定所有的循环和反馈都是用来计算、用来推理的,它们也可能是用来学习、用来维持学习的回路的,这个就可能需要比30ms更长的时间。如果要明确地知道的话,我们就需要更新的工具把细胞间做类型区分,才能精确测量出它们间信号的区别。这也是我们正在研究的前沿部分。所以我猜测其中有学习的循环和在小空间内封装更深的网络的作用。完全是猜测的,感谢你给我这个猜测的机会
提问:细粒度分类任务是否有所研究?比如不是分类狗和猫,而是分类更细的某种狗、某种猫,这些方面人类的表现也不错
答:在我们测量的IT的短时间反馈内看不到细粒度分类间的区别。应该是细粒度任务中人类还需要继续收集更细节的信息才能够区分,后续的信息目前从神经细胞的层面还分辨不了。
提问:神经细胞是如何完成“卷积”的工作的?
答:其实我经常说,“卷积神经网络”是写不出来的,因为大脑不是这样工作的。但是你翻开教科书就能看到这种视觉区域内不同部分都有类似的Gabor函数的假设。有人会说这不就是一种卷积操作吗,但其实应该问的是,为什么Gabor函数会起到卷积的作用。我们建立的卷积神经网络网络有单独的卷积层和卷积算子,跟大脑不同,大脑可以说是同步尝试学习如何卷积。所以我觉得是大脑需要学习这样的功能,学习后的统计特征也和卷积网络的特征是类似的,所以才能用两种不同的方式学习,最终得到类似的滤波器。所以在我看来不是大脑有专门的卷积层,而是最终达到了卷积的效果。希望你能理解我的意思。
(完)
近期还有许多顶级学术会议,还会有许多精彩的学术研究演讲。请感兴趣的读者继续关注雷锋网 AI 科技评论。
相关文章:
年度最精彩研究,CVPR 2017六篇最佳论文介绍(附打包下载)| CVPR 2017
CVPR现场直击:一文尽览最顶级的CV+学术盛会!| CVPR 2017
。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/127213.html