纽约大学神经学教授Eero Simoncelli万字解析：机器生成的图像为何能骗过你的眼睛？| ICLR 2017

雷锋网AI科技评论按：在刚刚闭幕的ICLR2017上，纽约大学神经学、数学、心理学教授Eero Simoncelli作为特邀嘉宾分享了他在机器表征、人类感知方面的研究成果。以下为现场视频及雷锋网全文听译。

附原视频：

（Eero走上台准备开始演讲）

首先谢谢，谢谢刚才对我的介绍，感谢大会主席Yann和Yoshua，以及评委会主席Hugo、Tara、Oriol邀请我参加，很荣幸可以参加这次会议。

我们小组的工作主要是在理解视觉和其它各种感官表征上，研究这些表征是如何建立起来的、如何组织信息、维持和展现关于环境的信息。我不仅好奇神经细胞是如何做到的、是如何把神经学表征与视觉环境对应起来的，我还好奇这些表征会如何形成或者限制我们的理解。最后，当我们了解了这些表征的规律以后，如何利用这些规律设计优秀的系统，给其它图像处理和计算机视觉之类的应用带来方便。我下面要做的是，带大家回顾一下（视觉表征）这方面研究的发展历程。其实，深度卷积网络也同时在快速发展，取得了不少成果，过程中我也会给大家讲一下过程中两者间有哪些同步的和不同的地方。

人是如何“看到”的

OK。我幻灯片第一页是一张牛的照片，这张照片是我很多年前在瑞士拍的。看见图的过程是这样的：

光线进入你的眼睛，照到你的视网膜上，视网膜上有细胞，它们可以观察到图片上的很小的区域；

对这些区域进行处理的时候会用到一个视网膜内的网络回路，从大概5百万个视锥细胞开始，它们能把光照转换成电信号；

这些信号接下来会经过回路转换成为大约一百万个中枢神经细胞的输出；

这些神经细胞的轴突形成了视觉细胞的线缆，然后从你眼睛的后侧走出来。当然了，每只眼睛后面都会有一根这样的线缆。所以，可以这样讲，有大概5百万个感官单元可以形成像素，像素化的测量会转换到一百万条纤维组成的线缆中，然后到达你的大脑。

经过这个过程，信息会被被转换、总结，会与其它感官输入的信息进行综合，与你的内在状态的信息进行综合，“内在状态”是指像记忆、意象、动作以及其它类似这种大脑产生的东西。通过这一切就形成了“你看到了”的感觉，以这个例子来讲就是你看到了这头牛。

那么，信息其实会被传到大脑的后侧去，线路看起来挺奇怪的，线缆会大老远地把视觉信息传到后面去。人的主要视觉皮层就在这里，哺乳动物最大的皮层区域之一，当然也是灵长目里最大的之一。这里的神经细胞我们几十年前就认识了，感谢上世纪五六十年代Hugo和Wessel的开创性工作，这里的细胞有方向选择性。这些神经细胞，我们描述它们时候的常用词叫“感受野”，这是一种对神经细胞处理的内容的线性近似，它是一个加权函数，看起来差不多像图示（雷锋网注：上方图中V1）的这样，大家中如果有做视觉方面的可以看作是Gabor函数。这种加权函数就给细胞赋予了局部的方向选择性。

所以方向性是这些细胞的决定性特性，这是所有人对这些V1初级皮层细胞的看法。实际上用简单的动画来表达V1细胞做的事情的话，就是测量环境中局部的微小方向，小条、小块，它要测出其中占支配地位的方向是什么。它会把这个结果告诉大脑的其它部分。

然后会发生什么呢？V1会有很多输出到V2，V2也是很大的一块区域，人和猴子的V2区域可能还要比V1大一点。就像图里这样，它差不多在V1的边上，包着V1。然而事实是这样的，即便人们几十年前知道V2神经细胞的存在了，Hugo和Wessel就记录过V2细胞，人们还是花了很长时间才弄明白V2到底是做什么的。既然V2细胞接收V1细胞的输出，所以很自然地可以想象V2会对V1细胞的局部方向做一些合并。

对V2细胞功能的猜想

这就让我们回想起以前Hugo和Wessel那个时代所想的理论，你会觉得这些计算机视觉范式的关键点都是找到图像中一组一组的边缘，然后把这些边缘补全连接起来，就找到了界线和轮廓，接着就用它们分离对象，确定哪些是前景哪些是背景，最后就可以做对象识别。

想到这种范式是非常自然的，你可能会觉得这些V2细胞就在执行这个流程的第一步，沿着界线（雷锋网注找：图中红色虚线）找到一段一段的边缘并且把他们拼接起来。

但是让人们尝试记录V2细胞的输出，尝试测量V2细胞对角度、曲线、或者各种局部方向的组合的选择性的时候，比如这张图是Newston测试中用到的刺激图案，这种实验只取得了非常有限的成果。在这个例子里， V2细胞中只有很少的一部分似乎对这种刺激做出了明显的反应，而对很多的V2细胞而言，这些不同的局部方向组合都不能引起任何反应，即便有反应的细胞也只是微弱的反应。

所以大概到了2012年，我们还缺少对V2功能性中的任何协同作用的发现，尤其是其中运用V1的输出来让V2的输出产生区别的那些功能。我觉得这事挺神奇的，有数不清的神经组织参与着视觉的形成，显然这是很重要的一件事情，可是花了这么多资源以后，如果V2只是在模仿V1所做的事情，进化成这样也挺奇怪的。刚才忘了说大多数的V2细胞确实是对方向有选择性的，部分地、松散地具有方向选择性。

那么这个问题变得很神秘了，这些细胞、这些组织到底是用来做什么的？我觉得，我得到自己的答案是通过重新审视这个假设，计算机视觉、实际上所有的视觉研究在一开始都是这样想的，那就是认为世界是由有边界的物体组成的，我们会认为沿着这些边界来把不同的东西分开是最基本的一步。

这是一个纹理的世界

可是当你自己看这个场景的时候，画面中的大部分内容其实是并不是边界，而是许多成块的、近似的、几乎均匀分布的组织。（雷锋网注：演讲花絮，见动图）为什么大家在笑？我升到上面去了，然后现在大家都在看我的后脑勺？

回到正题，当你看着这张图片的时候，有种东西占据了图片里的大部分面积，我们把它叫做“纹理”，视觉纹理。图里能看到这些草形成的斑块，每一处的斑块看起来很像，但是每一处又不会完全一样，其中的不同的叶子有不同的长度、角度等等。其中有很多的方向，可能屏幕不是很清晰所以看得不是很明显，但是如果你能仔细观察的话，你的V1细胞可以对其中每棵草的方向做出不错的响应。但是每一块斑块都是完全不同的草叶混在一起组成的。

如果你往上看一点，可以看到这块岩石的正面，它看起不太一样，方向特性有一些不一样，但是你也可以测量它的局部方向，那里显示着的就是某种特定的组合。牛身上的毛也一样，等等。所以实际上，我们的视觉世界里充满了纹理，可以说是被纹理统治的。我觉得有可能很多V2细胞就是用来处理纹理的。这只是个猜测，等一下我会给大家讲解我做过的研究，看看能否证实这个猜测。

接下来我就不说更多生理学的东西了，我来说一说感知。前面这些都是一些介绍性的思考过程。因为我知道，在我们的学术社区中，很多对分层级联，或者说卷积算子的发展起到了推动作用的因素，其实是因为人们粗略地觉得视觉系统就是这样工作的。

所以，纹理无处不在，这里是更多的例子，随处都能看到。为了能够描述纹理，我们需要给纹理设计一个计算理论，这样我们才能够从感知和生理的角度去测试它，而且也才能够建立用在机器学习系统中的算法和表征。

那么什么是“纹理”呢，不严谨地说，纹理就一种同类的、具有重复性的图像，各个部分都会出现同一类的东西、同样的结构。Lettvin说过的这段话我觉得很好，把这个概念描述得很贴切、很直观，是1976年的，

“我们可以这样讲，如果可见的物体不一样，而且它们之间离得很远，这就是形态；如果它们相似而且是聚在一起的，这就是纹理。一个人是一种形态，而人群具有‘人’这样的纹理；”这种说法真时髦，“一片叶子是一种形态，而树冠具有叶子的纹理，等等。”

这个意思就是说，你把很多东西放在一起就成了纹理；如果你只有单独一个东西，那就不是纹理。等一下我再给你们展示几个例子来把这个问题讲通。

所以，从算法角度建模和描述纹理的想法从上世纪60年代就有了，这些东西都是那个时候发生的，真是一个不错的年代呢，对音乐来说也是。在这段时间，Julesz基本上自己提出了一个猜想，他觉得从人类感知和计算建模的角度，正确的思路应当是纹理可以用一组有限的统计特征来表达。

他对此的解释是，如果人的大脑会通过某种方式来测量和计算这些有限的特征，那么正确的联系和理解这个猜想的方式就是做预测，表达出来是这样：“两种具有同样统计特征的纹理”，他当时想的是n阶的像素特征，“如果特征一样，看起来就会一样”。就是说，如果能够发现人类大脑采用的表征是什么，那如果有任意两张图片的这些表征是相同的，在人类大脑看来就会是一样的。他指出的这种测试的方法论、这种纹理模型里面蕴含了非常有力的东西，稍等马上会讲到。

Julesz列出了一个明确的目标，要用一种统计学模型来捕捉感知。另外还有一组非常重要的对测量过程的描述是：

首先不管表征如何，测量方法都应当是静态的，具有平移不变性——统计特征就是从这里来的，他要指的是整个图像中内容的均值；

它还应当是通用的，同一组统计特征对所有的纹理都可以起作用，每一种不同的纹理都会有不同的统计特征，但如果你发现两张图片有相同的统计特征，那它们应该要看起来一样；

最后一点也既重要，又有一点巧妙，这个假设只在这个情况下才有意义，就是你需要尽量少的维度。

要在能够达到目标的维度数目里选择最少的那一个，尤其是如果你研究的图像尺寸不大，那就非常好理解。如果你的矩阵中有太多的统计特征的话，最终你会给本来满足统计特征的图像加上越来越多的限制，最后在这个组里就不会剩下什么了。这种情况下如果你从一张初始的图像开始，然后你找到了另外一张统计特征一样的图像，但这张图像只是原来那张图像平移后的一个副本，这种假设就不是很让人喜欢了。所以表征，或者统计特征的维度尽可能少，就是很重要的一件事情。这是一种会让纹理图像的信息被减少、压缩的，但仍能代表纹理特征的总结性测量。

还有一件事情值得指出的是，尽管人们已经认为生成性模型是解决视觉中和其它许多领域问题的非常重要的方法，但Julesz的表述只是一种分析性的表述，只有当你去测量这些统计特征的时候才能发挥作用，这些属性才能够体现。这就给我们如何实际做测量留下了一些难题。

所以实际上Julesz在1962年那时，想了一些办法来做这个测试，他当时用的是二进制颜色的图像，只有黑色和白色，用到的图像也是他手工绘制的。跟大家一样，他对这些图像做分析，试试看他的理论是不是对的。不过你不能只凭实验就说一个理论是对的，从科学的角度来讲这是不能够证明理论的正确性的，具体到这里，你没办法把所有的图片都拿过来进行尝试。所以你要反过来，找反例，找理论失败的情况。

那么他就开始找，他假设统计特征的维度是2阶，看看能否找到一组2阶统计特征相同、但是人类看起来不同的图像，这样就能说明模型是不成功的，然后就排除这个可能，继续尝试3阶的。当他达到3阶的时候，屏幕靠左下方显示的这两张就是他手工建立的图片，它们具有相同的3阶统计特征。算法是，两个两个地取其中的像素，算出图像中所有成对像素的积的平均数；然后三个三个地取像素，算出图像中所有三个三个像素的积的平均数。这两张图片在这两件事情上都是相等的，但是你能看出来两张图还是有一些不同的，就像是用不同的材料画的。实际上人类确实也很擅长发现这些材质上的区别，所以他就认为自己的理论是不成立的，就放弃了。

用现代方法做特征表征

许多年以后，一个非常有天赋的博士生Javier Portilla加入了我的实验室，我们开始讨论有没有更好的表征纹理的方法。我们重新翻看了Julesz的想法，然后用简化的现代方法、当然也是借鉴生理学的方法去执行。其中的关键点是，我们并没有计算像素的统计特征，而是思考大脑是如何进行测量的，其实Julesz当时也可以这么做，我其实刚才就说Hugo和Wessel在五六十年代就发现了V1细胞能代表内容的局部方向性，不过如果他真的做的话，他就需要一个复杂得多的算法，也就没办法做出这些例子了。

当时间到了90年代末的时候，我们已经有条件做这件事了，所以我和Javier对V1建立了一个非常简单的模型，我只简单讲一下吧，对V1来说有两种基本类型的细胞，简单型和复杂型。简单型细胞看起来像是线性滤波器后面跟了一个整流器，大家听起来是不是觉得很耳熟；复杂型细胞长这样，看起来像是简单型细胞的混合，可以是平方或者半平方然后再混合正负号组合到一起。不过最终都要把这些结果池化，这里也听起来很熟悉，如果你们中也有人想对图像使用深度网络和卷积网络的话。

我们用这两种单元，但是跟典型的深度网络结构不一样，我们要做的是测量这些单元的输出的局部统计特征，当然了，先用这些单元对图像进行卷积。我们用的滤波器也不是屏幕上显示的这样，我们会用到各种方向、各种大小的滤波器，实际上我们用的是一种叫做“可控金字塔”的多级表征，它基本上可以把所有不同的大小和方向整理成一个完整的集合。所以我们做了所有这些卷积，我们有所有相应的输出图像，也可以称作激活图像。我们对它们做平方和半平方，我们对平方过的进行池化，然后我们对这些东西计算统计特征。这里我说到的统计特征，我们基本上只用了相关性，要么就是相关性，要么是从相关性算出的。

我们对空间位置间、方向间、路径间、大小间的相关性做了计算。我们把它们做成一个集合，最后得到的测量值数目有大概700个，精确数目应该是710，当我们把所有的测量都算到里面的时候。这样我们就有了一个可以处理任意图片、最好是纹理图片的模型，这个模型就会把图片转换成这个710个测量值。这些是统计特征的测量，如果我们还要验证Julesz的想法的话，就要想办法生成具有相同统计特征的图片。

要做的事情和Julesz当时做的一样，只不过我们现在可以用电脑来生成这些图片。大概流程是，我们从一张初始照片开始，通过模型计算输出，然后我们会用随机的种子生成一张新图片，让生成的图片拥有一样的统计特征。最后我们会把两张图片拿给人类看，看看是否会认为是相同的，或者相似的，或者在某些观看条件下是相同的，实际上这也是比较经常发生的情况。那么这就是一种巡回式的测试，而且只有当照片生成器能够产生的变化足够多的时候，这才能称得上是一个好的测试，你需要对值的空间进行完善的探索，本质上需要探索模型的零空间，要探索模型舍弃了哪些东西，换个说法就是探索在模型看来相同的那些东西。

具体到做的方法上，你需要在这些模型施加的统计特征限制下，做出一张具有最高凝聚力密度的图像。另一件值得一提的事情是，能通过测试不代表就真的是一个好模型，原因刚才我也说过，我们需要找到一个能够尽量多地抛弃信息的模型，参数的数量就可以作为信息多少的粗略参考。我们现在的模型只有710个输出，而我们处理的图像有从几百到几百万像素都有，那这就是一个显著的减少，我们丢弃了很多的信息。所以在我们看来，这个测试就挺好的了。

好的，下一步，我们是这么做的，就像刚刚说的，我们从这样一张图片开始，计算出模型的输出；然后下面这里用白噪声作为种子（雷锋网(公众号：雷锋网)注：左侧下方图像为原始白噪声），计算模型输出，它们不一样，那就算出它们的差值，然后做反向传播。要反向传播的是响应的差值，在图像空间做梯度下降，直到输出变得一致。具体做法基本就是这样。

所以在这些做完以后，你得到了一张跟原来的纹理还挺像的图片，某些情况下几乎没法跟本来的纹理分辨。（雷锋网注：左侧下方图像为最终生成的图像）具体在这个例子里，还是能看出来不完全一样，不过如果你只是很快地看了一眼，不是用中央凹看，不是直视，而是目光盯着画面右边的地方的话，肯定是没办法区分的。嗯，中央凹的事情待会儿我们还会说到。

做个摘要的话，事情是这样的，

我们从一张图片开始，它是所有图像组成的空间中的一个点

我们把它映射到模型输出空间里，这个由我们的模型表征的空间要小一些

图像空间里会有一些多样性，因为这个模型不是线性的，所以在有多样性的图像空间里，有很多图像都会有一样的模型响应。这种多样性基本就是由于两个空间的维数不同造成的，从一百万维的空间到710维的空间，有，呃，九十九万九千三百维的信息都丢失了

然后我们拿来这个噪音的种子，我们做的事情本质上是对它做投射，非线性投射，做一种梯度下降，直到我们来到了多样性的界线上

这样我们就得到了生成的图片

这样就用简图的方式说明了在高维空间到底发生了什么，我们又要如何理解。

计算机也可以生成非常逼真的纹理了

这是另一组例子。效果很不错，我直到今天都觉得很惊讶，这么简单的模型就能生成这样有趣的视觉结构，这还仅仅是一个2阶的模型而已，只有简单的、差不多生物性的非线性，也没有对特点、部分、物体等等做清晰具体的表征。即便这样，我们也能够表征出来这些有意思的内容。起码当这些结果在99年和2000年的时候做出来的，我是很震惊的；今天可能就不怎么震惊了，因为我们用深度卷积网络一直做的就是这样的事情。也在发展壮大吧，差不多每天都有人能发现一种有趣的生成图像或者变换图像的方法。

它们也能够给Julesz的担心给一个正面的答复，就是说当你把Julesz的反例图像作为输入给到里面的时候，它们也会输出基本无法分辨的图像。所以这样也就通过了Julesz设计的测试。

不过我们也发现这个，有点让人挠头，如果你用深度卷积网络做类似的生成，你会得到这样的“骗人图像”，它们是Clune和他的团队在这篇2015年发表的论文里描述的。他做的事情跟我一样，从白噪音开始，用梯度下降的方法把它转换到一个图像识别器的分类里面去。输出的是这样的图像，它们看起来像噪音，跟它们本来应该属于的那个分类看起来一点都不像。

另一个相关的结果，像这样，通过调整一副图像来达到一个目标分类。从原图开始，比如这个校车，你想把它转换到火鸡的分类里面，然后你得到的结果看起来还是像校车。就好像没有对图像做任何修改，起码不是我们人类能看出来的修改。

但是如果你用我们的模型做的话，你会得到这样的结果。比如这几个例子，你从一张人脸的照片开始，你想把它转换到一个目标中，不过我们的目标不是语言或者类别的名字，而是一些纹理样本。我们从这个纹理上提取统计特征，把原图作为一个起点，然后把它推到能够满足统计特征的多样性边界上去，就会得到这样的看起来像橄榄的图，但是原来的主要图像结构还是得到了保留，这是因为这个模型具有同质性、平移不变性，它不关心总体结构，也不会对总体结构做任何限制，所以一部分结构就在投射过程后残留了下来。

声音也有纹理吗？

时间好像不太够了，但我又不太想把最后一点东西跳过去。那我就讲得快一点吧。不说那么细了，我们团队的另一个非常优秀的博士后Josh McDermott和我基本上想办法做了一个类似的模型，它可以生成声音的材质。

总体上可以这样讲，基本可以分成三个环节，就像图里这样，第一环节是滤波，模仿的是耳蜗，其中有30个频率点；然后经过一个非线性环节，再经过另一组滤波器，其中有20个是调制滤波器；最后我们还是测量统计特征。

之前好像没有说，不过这些统计特征同样也是可以用卷积架构计算的，用卷积和乘方，因为它们是二次的，具有相关性，做卷积和平方是本质上等效的，它们测量的是变化而不是相关性。如果测量了足够多的卷积和平方，就和测量相关性是等效的了。所以可以把这个模型看作是一个三阶模型，耳蜗部分第一阶，调制部分第二阶，第三阶计算统计特征也就是和卷积、平方再平均差不多的东西。

跟刚才的流程一样，用类似的方法，给一段样本计算统计特征然后生成符合特征的另一段样本，结果挺不错的。我这儿有几个例子，看看你们能不能听得到，如果不行那就很快跳过去。

能听到了吗？（一段水声）ok，屏幕上的是频谱图，横轴时间纵轴频率，这是一段冒泡的水的实际录音，会不会太大了，有人听这个会害怕吗？（另一段水声）现在是生成的声音，听起来应该是没办法分辨的。频谱图看起来也很像，不过并不是完全一样，毕竟不是直接复制的。其中的参数数目不多，不过我忘了具体数目有多少了，反正挺少的。跟前面类似，输入的信息量很大，我们也是扔掉了很多，把样本挤压到了一组总结特征中，然后从总结特征里生成新的。

（此起彼伏的虫子声音）这是另一段完全不同的声音了，是池塘里昆虫的声音。（另一段此起彼伏的虫子声音）同一个模型，同一组统计特征，当然了，特征具体的值是完全不一样的，所以生成的声音才会不一样。听起来挺不错的，而且这个也几乎没办法分辨。

（纸的声音）另一段不同的声音，翻动的纸，看频谱图以及听起来都跟另外两组声音完全不同。（另一段纸的声音）这个效果也很好，其实声音很尖锐，不连续，能听出来纸页翻到最后擦到其它的纸然后突然停下来的声音。

Josh和我很感兴趣，我们做了很多感知方面的研究来验证这种方法的可行性，而这种方法对不同的材质有广泛的适用性。我们还想知道，当我们人为地（对计算过程）进行了选择来让它看起来更符合生物学的时候，这些人为因素会对最终的结果产生影响吗，还是说我随便用一组什么样的滤波器和非线性都能得到一样的结果。

所以我们回过头来核对了一遍，发现，比如当你去掉耳蜗那里进行压缩的非线性环节，把它变成一个整流器，然后你让人们来对比听听看的时候，一种是通过整流器的版本生成的，另一种是通过更符合生物学的非线性压缩版本生成的，人们辨别更真实声音的能力还挺不错，他们选出来的是模仿耳蜗压缩的那一个。更换滤波器组合的情况也差不多，如果从对数空间频点换到线性空间频点，还是能听出来区别的，人类很擅长发现其中的区别，而且人们基本上都更喜欢对数空间的声音，从生物学的角度这也更合理。

接下来要欺骗你的眼睛

我们对这种结果挺满意的。我们还做了另外一组实验，不过没时间了我就跳过不讲了。因为我想以这个做结尾。

回到图像的部分。我们想知道，除了整体的相同纹理之外，我们还能做什么。显然这个世界远不只是由整体的相同纹理组成的，纹理都是一小块一小块的，就像一开始那张牛的照片一样。所以如果你拿一张这样的照片，用我们的算法进行处理，还是能拿到结果的，毕竟这个方法可以处理任何图片，统计特征是对整张照片计算的，不过生成的图片就会是这样，费曼就像刚从搅拌机里拿出来一样。不过你还是能看出来小块的纹理，这些皮肤的褶皱，看起来有点不自然。

所以我们想知道，从生理学、生物学的角度考虑，人类大脑里到底发生了什么，人的大脑是如何进行表征的，是次要功能吗，只有一部分的大脑对纹理进行表征，其它大部分都表征的是轮廓、界线、边缘、物体吗？还是说又是另外的样子？

所以我们接下来做的事情用到了这些事实，从生理学角度讲，感受野大小随着偏心度的提高而变大。感受野不仅仅从V1到V2再到V4一直变大，而且还随着到目光焦点中心的距离变大而变大，离中央凹越远越大。这种变大差不多是线性的，这张图是研究猴子得到的，人类的也非常接近。

画一张简图来说明的话，虽然因为颜色的关系大家在台下可能看不清，可以把V1细胞的感受野想象成这种辐射状的图案，越往外圈就越变大。V2细胞的差不多，不过不管在哪个位置，V2的感受野都比V1的更大。V4也一样。等最后到了IT，感受野就很大了，可以覆盖到眼睛视野的很大一个区域。说句题外话，这不是卷积，因为卷积需要始终使用一样的算子；而在这里，算子越往外侧越大了。所以当我们知道了有这样的架构以后，我们能做一些什么，能不能给物体识别这样的任务带来帮助呢？

我们是这样做的。我们用了刚才说到那样的局部纹理表征架构，我们并没有对整张图片均匀地提取统计特征，而是分成许多小区域，具有平滑交叠的区域，然后做加权相加而不是直接全部相加再取平均。这样它听起来就跟生理学很接近，跟V2做的事情很接近。实际上当你这么做的时候，你可以生成人类没办法区分开来的图片，对任意图片都可以。

我直接放一个演示吧，现在没时间一项项讲解我们的结果了。这张照片是在华盛顿广场拍的。我要让大家看一个幻象，为了能够看到它，你在看的时候需要紧盯着画面中央这个红色的点不动。我会在这张照片和一张生成的图像之间来回切换，生成的图像中计算局部统计特征所用的区域大小就跟人的V2细胞感受野差不多大。我们的想法是，如果人类的大脑就是这样做表征的，那你就没办法分辨这些图像。

现在开始了，来回翻动。眼光盯着红色的点不要移开。如果没什么意外的话，那跟我们做实验时候的参与者一样，你们应该也没办法区分开这两幅图像。

但是实际上，如果你现在把注意力放在边上那个红色圈里的话，两张图像的区别其实挺大的，其中一张有很多的扭曲，就像前面费曼那张一样。但是如果你盯着红色圈的话，你就看不到这些扭曲了。说实话这些扭曲还是挺明显的，看起来很诡异，但是如果当你不盯着它们看的时候你就发现不了它们。

那我们做这件事是为了干嘛？我们把一些东西丢进了零空间里面，直观线性地描述的话，就是我们把一些东西丢进了你视觉系统的零空间里面，然后你发现不了。你的视觉系统把这些信息扔掉了，它发现不了这里有严重的扭曲。我觉得可以利用这一点来解决很多实际问题，不过现在没时间给大家讲了，我要给演讲做结尾了。

后来的故事是，我们继续把这些发现跟生理学做了定性定量的对比，我们做了一些实验，实验中我们记录了V2细胞的响应，给它们展示纹理，然后尝试理解它们表征的结果是什么。

这对你生活中的所有事情都会产生影响，就像阅读，比方说你看书的时候，人的目光不是均匀地从页面上扫过去的，而是一跳一跳的。每次跳的距离，我们根据这个模型算了一下，差不多刚好就是能让单词看得清的那个距离。假如你目光盯着这里左边这个红点，这是我们生成的举例图像，你能看清的单词基本上也就是“myself”和它上下的几个字母。当你的目光跳转到下一个位置以后，你就能读出下一个单词了。这两个红色点之间相对于周围的文本的距离，就是差不多是你阅读的时候目光跳转的典型距离。

这就让我们觉得可以给阅读建模，限制阅读速度的最重要因素之一就是目光跳转距离。所以我们可以想办法增加这个跳转距离，比如通过设计新的阅读形式，用不同的字体、不同的空档、不同的字符等等，这样就不会起到这么大的混杂或者扭曲效果了。换句话说就是我们想避免把文本信息丢到零空间里面去，我们想让它们留在实际的表征空间里。建立这样的模型就给了我们尝试这样做并进行研究的机会。

OK，我讲差不多了。

这种时候我们可以问自己这样一个问题，我们可以就这样研究下去吗，把线性滤波、整流器、一些局部统计特征以及池化堆在一起，越堆越多就可以解释人类视觉了吗？我以前觉得大概不行吧，不过现在随着深度卷积网络的研究越来越成功，我猜答案也许是肯定的。Lettvin在1976年的时候说了一段的令人印象深刻的话：“经过部分重新定义的纹理，也许是就构建出形态的原始素材”。他的观点里大概觉得你可以在纹理表征的基础上进行形态的表征，而不是把形态作为一个单独的实体。

总结

那么，总结一下。

我前面尝试从生物学角度给大家解释了这种阶梯式模型的建立，我试着让大家相信带有生物学属性的浅层阶梯式模型的力量比我们预想的，起码比我预想的强大多了。
生成式方法是表征研究非常有力的测试方法，可以用来验证不变性，或者探究零空间如果你感兴趣的话；它还可以用来验证度量属性，比如距离和曲率——这是去年ICLR2016的时候展示的内容，Olivia Hanoff和我一起做了一张精美的海报，展示了我们可以生成测地线，两张图像中的路线和图像空间在响应空间中沿最短路径的距离(pads and image space between 2 images that followed the shortest path in the response space)。
我们现在也在继续充实这些模型，来让它们能够测量感知质量。为了达到这个目的，你还需要在其中加入新的非线性部分来关注局部增益控制，局部增益控制是指你通过生物学感知系统看到的东西，我们觉得这对研究大脑的运行有非常非常重要的作用。这件事是大多数深度网络研究中没有做的，我们觉得它的重要性也会得到体现。我们用了很多种不同的方法来研究它，其中一种大家会在下一场演讲中听我讲到，会讲到用带有局部增益控制的表征进行压缩。
最后一点，就是我们非常想要理解如何用非监督学习的方法学会这些表征，下一场演讲我也会在生物学表征的语境下开始对这个方面做一些强调。

最后我想感谢一下我实验室里参与项目的成员，都非常的优秀，Javier Portilla建立了最早的纹理模型，Jeremy Freeman建立了基于局部纹理块的大型全局纹理模型，Corez Ziemba积极参与了很多心理物理学和生理学方面的研究，Josh McDermott建立了声学模型。

谢谢！

AI科技评论招业界记者啦！

在这里，你可以密切关注海外会议的大牛演讲；可以采访国内巨头实验室的技术专家；对人工智能的动态了如指掌；更能深入剖析AI前沿的技术与未来！

如果你：

＊对人工智能有一定的兴趣或了解

* 求知欲强，具备强大的学习能力

* 有AI业界报道或者媒体经验优先

简历投递：

lizongren@leiphone.com

。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/83419.html