雷锋网按:本文上接看一遍你也会做!用英伟达 DIGITS 进行图像分割(上)。已阅读的小伙伴儿可直接跳到教程部分。
DIGITS 是什么?
7 月 8 日,英伟达深度学习学院 DLI 线下训练营即将来到深圳,主题是图像分类、目标检测与图像分割的零基础开发入门。
虽然是全球范围内顶级的 AI 培训项目,但 DLI 进入中国的时间太晚,中文网页也才上线没多久,导致国内开发者只知英伟达的显卡,却不知道英伟达有线上、线下的 AI 技术培训。此前雷锋网(公众号:雷锋网)曾撰文介绍过 DLI,详情戳这里。
闲话少说,本期深圳 DLI 训练营主要用到 DIGITS 和 TensorFlow 两个工具。TensorFlow 大家都知道,不必介绍。但对 DIGITS 就很陌生了,它是什么呢?
DIGITS 是英伟达为普及深度学习开发的图形化操作界面,简单易用,旨在帮助初学者跨越入门障碍,迅速上手。因此,DLI 的入门培训均建议学员从 DIGITS 起步。
说白了, DIGITS 就是一个新手工具。但由于 DLI 刚刚进入中国,关于 DIGITS 的教程和信息并不充足,为初学者带来信息鸿沟。 因此,雷锋网对这篇英伟达博客发布的官方教程进行了编译。该教程指导读者用 DIGITS 5 和 Caffe 进行图像分割,它脱胎于 DLI 的线上实验室(online labs)培训课。后者收费且只用英文授课,并不对非会员开放。但大家能从这篇教程对其了解一个大概。
更重要的,7 月 8 日深圳的 DLI 线下训练营,三场主要培训分别是用 DIGITS 进行图像分类,用 DIGITS 目标检测,以及用 TensorFlow 进行图像分割(了解详情请点此)。虽然前两场的内容与本教程并不一致,最后一场的难度比本文高出许多,而且用的是 TensorFlow 而非 Caffe,但这篇教程与 DLI 付费培训的内容已十分接近。
感谢三位童鞋朱婷、彭艳蕾与马晓培编译本文花费的心血。
教程:用 DIGITS 5 进行图像分割(下)
基于FCN的图像分割
前一节展示了如何设计一个FCN ,来预测每个窗口的某个类的概率分布。显然,窗口的数量取决于输入图像的大小、窗口的大小和扫描输入图像时窗口之间的步长。理想情况下,一个图像分割模型将生成图像中所有像素的概率分布。在实践中如何做到呢?这里将使用FCN paper上的一个方法。
当输入图像遍历卷积化的 Alexnet 的连续层时,像素数据的输入被高效地压缩成一组粗化的、更高级的特性表征。图像分割的目的是篡改这些粗化的特征来重建细分类,对输入中的每个像素都是如此。事实证明,这在解卷积层中很容易实现。这些层执行与卷积层相反的操作:给定了卷积输出,一个解卷积层会将输入生成输出,从而给出过滤器的定义。记住,卷积中的跨层(或池化层)定义了处理输入时窗口的滑动距离,以此来衡量下游输出。相反,解卷积层的步幅是衡量上游取样的输出。若选择步幅为4,那么输出将是4倍大!
下一个问题是:给定模型中的最终卷积层,需要对其激活做多大幅度的升采样,才能使输出与输入图像的大小相同?我需要仔细检查每层并写下它的缩放因子。一旦每一层都这样处理,我只需将缩放因子相乘并汇总。让我们看看第一个卷积Alexnet层。
conv1的步幅是4,因此缩放因子是1/4。所有层都重复这样做,我确定了总缩放因子在模型中是1/32,如Table 2中概述那样。这样,解卷积层的步幅就是32了。
出于严谨,我不得不说,“在所有的空间维度上,一个步幅为S的卷积层,产生的输出都是输入的1 / S”这句话并不是完全正确的。在实践中,向输入加入填充P > 0将会增加激活数。相反,使用大小为 K > 1的核(kernels)将会减少输入端的激活数。在此限制下,如果你为卷积层提供了一个无限长的输入,输入/输出大小的比例在所有的(空间)维度上实际是1 / S。现实中,每一个卷积(池)层的输出被偏移了(P -(k – 1)/ 2)/ S。
例如,考虑conv1:因为这一层在两侧各有100像素的填充,它的输出比无填充的更大。通过上面的公式,我们可以计算出输出的每一侧在理论上有23.75个额外像素。随着添加更多层,这会累积起来。通过向后运行图,可以计算所有层的累计抵消。L1与L2层的组合(i.e. 在Caffe术语中,L2是L1的底层,L1、L2 又分别抵消 O1、O2) 会抵消O2 / F + O1,这里F是L2的累积缩放因子。
参考表2对那些计算的汇总
表2:卷积化的Alexnet中,遍布连续层的缩放因子和抵消补偿。* 对反卷积层来说缩放因子等于步幅,抵消等于(k – 1)/ 2 p。
表2表明,通过所有conv1到upscore的层时,神经网络的输出被18个像素根据输入做了相应移动。最后一个分割模型中的技巧,是一个修剪网络输出、移除每个边界上额外的18像素的层。这很容易在Caffe 的 Crop layer 中实现,下面的清单中对这些做了定义。
你可能会注意到,这个版本的Alexnet的内边距(padding)比你经常在conv1层遇到的多一点。这背后有两个原因:一个原因是,产生了更大的初始化偏移,以补偿连续层没有吃进图像的缺失。然而,主要的原因是网络以最佳方式处理输入图像的边界 ,以命中网络可接受域的中心,大概就是这样。
现在,我有了从FCN paper复制FCN FCN-Alexnet模型所需的一切。我们可以放松一下,欣赏一些SYNTHIA数据集里的图像。
SYNTHIA 数据集
SYNTHIA数据集最初发表在paper [5]。
SYNTHIA数据集的样本图像见图9。这些图像展示了用不同的对象类合成的城市场景,比如不同条件下的建筑物、道路、车辆和行人, 如昼夜。有趣的是,图片看起来特真实以致于有时候人们会被它们吸引:嗯,第一张图片上那个在路中间看报纸的人有点反常,这么干很危险。
在 DIGITS 5.0 中,创建一个图像分割数据集十分简单,只需要选中输入和真实样本图像文件夹,点击“Create”按键。DIGITS 支持多种标签格式,比如画板图片(它的标签图像中的像素值是彩色画板的指数)和 RGB 图片(每种颜色指示一个类)。
在 DIGITS 中创建数据集之后,你可以探索数据库在视觉上检查它们的内容,见图10。
训练模型
在DIGITS里训练模型,有数据集和对神经网络的描述就够了。如果你觉得用卷积Alexnet太复杂太耗时的话,别烦恼:DIGITS 5.0版有一个模型商店,而且就像你能想象的那样,FCN-Alexnet可以从这个模型商店里下载!
但如果你决定要走一条更难的路,去创造自己的模型描述,就可能要找一个合适的权重初始值方案,比如说Kaiming方法(另名MSRA),是目前最前沿的修正流线性单元形式。这个在Caffe里很容易实现,只要加上一个权重过滤器 { type: "msra" }指向你的参数层就好了。如果在DIGITS里用这种方法训练模型,很有可能得到像图11的曲线。从图中可以看出,结果并不尽如人意。验证集的准确程度在35%的时候达到最高(意思是说只有在验证数据集里35%的像素被准确地标记出来)。训练损失跟验证损失一致,意味着这个网络(模型)对训练数据集欠拟合。
图11: 用Synthia数据训练FCN-Alexnet网络(模型),在DIGITS里面利用随机权重初始值方法得到的训练集/验证集的损失和准确率:蓝线–训练集的损失走势,绿线–验证集的损失走势,黄线–模型结果在验证集里的准确率
你可以在一个样例图片上试试运气,让DIGITS帮你完成图片分割的可视化。你会发现网络(模型)会不分青红皂白的把所有元素都归类成“建筑物”,就像图12所示。原来在SYNTHIA数据中,“建筑物”是最具代表性的目标类别,而网络(模型)只是懒洋洋地进行了学习并把所有图片元素都标记成了“建筑物”才达到了35%的准确率。那么,一般可接受的处理这种网络(模型)在训练集里欠拟合的方法都有哪些呢?
-
拉长训练时间:只观察损失曲线的走势,训练过程貌似达到了最高,然而这很可能没什么帮助。网络(模型)很有可能进入了局域最小值而且不能从中脱离出来。
-
提高学习率同时减少每批量的大小:这样做可以鼓励陷入局域最小值不能自拔的网络(模型)去探索周围环境之外的区域,尽管这样会增大网络(模型)发散的风险。
-
增加模型大小:这种方法可以加大模型的表现力。
还有一种方法我发现在计算机视觉中应用得非常好:转化学习。更多请继续往下读。
图12:图片分割可视化的样本展示:网络(模型)把所有元素都归类成了“建筑物”。此样本是利用随机权重初始值的方法,在DIGITS里用Synthia数据训练FCN-Alexnet网络(模型)得到的。
迁移学习
你不用非得从随机初始化权重开始,来训练一个模型。很多情况下,重新利用网络(模型)训练另外一组数据中的得到的认知,会很有帮助。这种方法在计算机视觉里通过CNN网络(模型)尤其奏效,因为很多低级的特征(线路,拐角,形状,纹理)可以马上应用在任意数据中。由于图片分割是在像素水平下做分类分析,从类似ILSVRC2012这样的图片分类数据集里做迁移学习十分合理。利用Caffe这样做就变得相当简单—当然需要设立一个或两个陷阱!
记得在Alexnet的fc6模型中(图8),权重的形状是4096×9216。在FCN-Alexnet的conv6模型中,权重的形状是4096x256x6x6。这其实是一样的权重值,但是由于形状不同,Caffe不能自动把权重转交到FCN-Alexnet模型里。这个任务可以交给“net surgery(网络手术)”脚本来履行,脚本例子可以在Github网站里的DIGITS知识库找到。网络手术脚本的功能在于把参数从全连接层移植到对应的卷积层里。然而,你会发现从公共的DIGITS模型商店里下载提前训练好的模型会更简单一些。图13展示了模型商店的界面:在“FCN-Alexnet”旁边,点击“导入”,DIGITS就会下载提前训练好的模型。
图13:DIGITS模型商店
你可能会有另外一个顾虑,那就是怎样初始化早先加入到该文本的升采样层呢?别忘了,此升采样层并不是原始Alexnet模型中的一部分。在FCN那篇论文中,作者建议随机初始化对应的权重,然后让网络(模型)学习它们。该篇论文的作者后来意识到,初始化这些权重其实很简单,通过做双线性插值,让升采样层充当放大镜就可以了。在Caffe里,这种方法可以通过加上一个权重过滤器 { type: "bilinear" }指向升采样层来实现。
利用一个提前训练好的FCN-Alexnet模型,你会注意到,在检测图14这种个别图像的时候,准确率会快速超过90%。检测到9个不同的类别,图形分割结果会变得更有说服力。但你还是会有点失望,因为物体轮廓仍然非常模糊。请继续往下读本文的最后一个章节:如何进一步提高分割模型的精确性和准确性。
图14:图片分割可视化的样本展示。此样本是利用一个提前训练好的ILSVRC2012-Alexnet模型,在DIGITS里用Synthia数据训练FCN-Alexnet网络(模型)得到的。
启用细化分割
之前加进FCN-Alexnet的升采样层,把conv7的输出值扩大了32倍。在实际应用中,这意着对于每个32×32的像素块,神经网络会做一次预测。这也就解释了为啥目标物体轮廓会那么模糊。那篇FCN文章介绍了另外一个非常棒的主意来解决上面的局限:跳过那些被加入的连接层,直接把pool3和pool4的输出值重新定向到网络的输出值上。由于那些汇总层(pool3, pool4)位于网络的靠后方向,它们就可以在低水平的特征上运作,从而能够抓到更细致的细节。
在一个叫做FCN-8s的网络结构中,那篇FCN文章介绍了一个基于VGG-16的网络,利用这个网络,最后输出结果可以是pool3的总和采样层×8,可以是pool4的采样层×2,还可以是conv7的采样层×4,如图15所示。这就引导出一种网络,能够在更细分的纹路生成预测,向下到8×8的像素块。
图15: FCN-8s跳过连接层的演示图。来源:FCN文献
为了方便使用,用户可以在公共的DIGITS模型商店里下载一个提前训练好的FCN-8s。(你肯定不想自己动手卷积VGG-16)如果你用DIGITS在SYTHIA数据上训练FCN-8s,你会发现仅仅经过几个epoch(时期),验证集的准确率就能超越95%。更重要的是,当你在一个样本图片上做实验,观察DIGITS的高超图片分割可视化的时候,你会看到更为清晰的物体轮廓,像图16中那样。
图16: 图片分割可视化的样本展示。此样本是利用DIGITS在Synthia数据上训练FCN-8s网络(模型)得到的。
现在该你了
读过本文之后,怎样开始做图片分割,你应该心里有谱了。DIGITS 5会在12月份的第一个星期发布。访问DIGITS网站继续学习,注册NVIDIA Developer program账号,以便下载版本可用时及时收到通知。
DIGITS在GitHub上是一个可共享的开源项目。如果你想上手实践图片分割技术,请直接访问DIGITS GitHub项目网页,以便得到源代码。
论文索引
[1] Krizhevsky, A., Sutskever, I. and Hinton, G. E. “ImageNet Classification with Deep Convolutional Neural Networks”. NIPS Proceedings. NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada. 2012.
[2] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich. “Going Deeper With Convolutions”. CVPR 2015.
[3] Simonyan, Karen, and Andrew Zisserman. “Very deep convolutional networks for large-scale image recognition.” arXiv technical report arXiv:1409.1556. 2014.
[4] Long, Jonathan, Evan Shelhamer, and Trevor Darrell. “Fully convolutional networks for semantic segmentation.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 2015: 3431-3440.
[5] Ros, German, Laura Sellart, Joanna Materzynska, David Vazquez, and Antonio M. Lopez; “The SYNTHIA Dataset: A large collection of synthetic images for semantic segmentation of urban scenes.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 2016: 3234-3243.
[6] He, Kaiming, Xiangyu Zhang, Shaoqing Ren, and Jian Sun “Delving deep into rectifiers: Surpassing human-level performance on imagenet classification.” Proceedings of the IEEE International Conference on Computer Vision 2015: 1026-1034.
via nvidia
相关文章:
雷锋网版权文章,未经授权禁止转载。详情见。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/126461.html