腾讯 AI Lab入选 CVPR 的六篇论文逐一看 | CVPR 2017

CVPR是近十年来计算机视觉领域全球最有影响力、内容最全面的顶级学术会议，由全球最大的非营利性专业技术学会IEEE（电气和电子工程师协会）主办。2017谷歌学术指标（Google Scholar）按论文引用率排名， CVPR位列计算机视觉领域榜首。据雷锋网AI科技评论了解，今年CVPR审核了2620篇文章，最终收录783篇，录取率29%，口头报告录取率仅2.65%。

腾讯AI Lab计算机视觉总监刘威博士介绍到，「CVPR的口头报告一般是当年最前沿的研究课题，在学界和工业界都影响很大，每年都集齐如斯坦福大学和谷歌等全球最知名高校和科技公司。

今年，腾讯AI Lab有六篇论文入选CVPR，下面雷锋网AI科技评论将逐一介绍这几篇论文的摘要。

论文一：《实时视频风格转化实现》——Real Time Neural Style Transfer for Videos

最近的研究工作已经表明了使用前馈卷积神经网络来实现图像快速风格转变的可行性。而清华大学与腾讯AI实验室的研究基于这一点在实践上更近了一步，他们通过使用前馈网络对视频进行风格转化，同时还保持了风格化视频帧图像的时间一致性。在《实时视频风格转化实现》这篇论文中，作者介绍到，他们所使用的前馈网络是通过强制执行连续帧的输出既保持原有的风格又具有良好的连续性进行的训练得到的。更具体的，作者提出了一种混合损失（hybrid loss）理论，充分利用输入画面帧的画面信息，图像的风格信息和连续帧的时间信息对图像进行处理。为了计算在训练阶段的时间损失，作者提出了一种全新的两帧协同训练的机制。与原先直接硬性的将已有的画面风格转入视频的方法相比，这种全新的方式摒除了原有方法对耗时优化的依赖，即可保持画面的时间连续性，又消除了画面闪烁的问题，确保视频风格迁移实时、高质、高效和完整性，从而实现更好的视觉欣赏效果。

论文链接：Real Time Neural Style Transfer for Videos

论文二：《基于病理图片预测方法——WSISA》——WSISA: Making Survival Prediction from Whole Slide Histopathological Images

德州大学阿灵顿分校（University of Texas-Alington）与腾讯AI实验室提出了就基于病理图片进行的病人生存预测方法——WSISA，有效地支持大数据时代的精准个性化医疗。众所周知的是，基于图像的精准医院技术很早就进入人们的视野，并可通过这种技术对癌症病人进行更好的治疗。然而，病理组织学的整幅图像（WSI，Whole Slide Histopathological Image）的千兆像素（gigapixel）分辨率在计算量上否定了传统生存模型在该领域的可行性。这种模型通常需要进行手动标记，并需在感兴趣的区域（ROI，Region of Interest）进行区分，因此，在千兆像素的图像中，计算机无法直接的通过区分出来的图块进行学习。另外，由于肿瘤的异质性，通过一小部分的图块并不能完全代表病人的生存状态。同时，用于生存预测训练的病人样本通常不足。这都给生存预测带来难点。在这篇论文中，作者提出了一种有效的分析框架克服了上文介绍的难点，即WSISA，全尺寸、无标注、基于病理图片的病人生存有效预测方法。首先通过自适应采样方法提取每个WSI上的各个小图块（patch），然后将小图块进行分组划分簇。作者提出了训练基于深度卷积生存（DeepConvSurv）预测结果的累积模型来记性病人层面的预测。与现有的基于图像的生存模型相比不同的是，这种模型可以有效地提取和利用WSI上所有可进行区分的小图块来进行预测。在目前的研究领域，这种方法还未有人提出过。通过论文中的方法，作者用三种数据集对胶质瘤和非小细胞肺癌的生存预测进行了研究，研究结果证实了WSISA架构可以极大程度的提高预测的精准性。

论文链接：WSISA: Making Survival Prediction from Whole Slide Histopathological Images

论文三：《用于弱监督对象定位的深度自学习》——Deep Self-Taught Learning for Weakly Supervised Object Localization

由新加坡国立大学（National University of Singapore）和腾讯AI实验室联合发布的论文《用于所监督对象定位的深度自学习》提出的依靠检测器自身段改进训练样本质量，不断增强检测器性能的一种全新的深度自学习方法，破解了所监督目标检测问题中训练样本质量低的瓶颈。大多数现有的弱监督定位（WSL）方法通过对图像级别的监督学习识别到的特征区块来进行探测器的学习。然而，这些特征不包含空间位置的相关信息，同时对探测器的学习来说，其所提供的样本数据质量都比较差。为了克服这样的问题，本文提出了一种深度自学习方法，是检测器学习获取可靠的样本对象特征并以此为基础重新训练自己。相应的，随着探测器本身检测能力的提高和提供的位置信息质量的提高，于是便能进一步的提高较好质量的数据。为了实现这样的自学习，文中提出了一个种子样本采集方法，通过图像到对象的传输和密集的子图采集获取可靠的正样本来进行探测器的初始化。作者进一步的提供了一种在线支持样本收集计划来动态地选择最为可信的正样本，并提供成熟的训练方法对探测器进行训练。为了防止探测器在训练过程中陷入因过适应而造成的困境中，作者还引入了一种方法来引导自学习过程。基于PASCAL 2007和2012的实验结果则证实了这种方法相较于现有方法的显著效率优势。

论文链接：Deep Self-Taught Learning for Weakly Supervised Object Localization

论文四：《多样性图像标注》——Diverse Image Annotation

由沙特阿拉伯的阿布多拉国王科技大学与腾讯AI实验室联合发表的论文《多样图像标注》提出了一种新的图像自动标注方式，即用少量多样性的标签表达尽量多的图像信息，其充分利用标签之间的语义关系，从而使得自动标注的结果与人类标注的结果更加相近。DIA（多样图样标注）的目标是使用有限数量的标签对图像进行描述，因此，使用的标签需要涵盖尽可能多的有用信息。相比于常规性的图像标注任务，DIA要求的标签不仅是对图像的代表信息，还需要相互关联，从而减少冗余。为了实现这一目标，作者吧DIA设定为子集选择问题，并基于有条件的DPP（Determinantal Point Process行列式点处理）模型（其同时具备代表性representation和多样性diversity）。通过进一步地在候选标签中探索语义层次和同义词来选择适宜的语义连接路径。即为，在进行标签选择时，对同一个图像进行标注时抛弃那些相近的语义，避免同时出现。这种限制正是被嵌入在有条件的DPP模型算法中。传统标注方法中，标签的选择则仅关注了整体图像的代表性（包括：准确性，查全率和F1得分）而正忽略了标签的多样性特征。因此，本论文所提出的新的方法是在传统方法基础上的一大提升。通过另一衍生主题的研究，可以证实文中所提出的方法与人类标注的模式更为相近。基于两个benchmark数据集的实验结果则证实了通过这种方法做出的多样性图像标注更让人满意。

论文链接：Diverse Image Annotation

论文五：《利用对称性和/或曼哈顿特性对单个和多个图像进行三维物体结构设计》——Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images

这是一篇由腾讯AI实验室、约翰霍普金斯大学和加州大学洛杉矶分校联合发表的论文，其论述了利用对称性和/或曼哈顿特性对单个和多个图像进行三维物体结构设计的方法。许多人工设计制造的物体都具有内在对称性和曼哈顿结构特性。这篇论文建立通过假设一个正交投影模型，当单幅或多幅图像均来自从一个类别的物体，比如，不同的汽车，提出了一个使用对称性和曼哈顿特性对三维空间模型进行估计的方法。通过分析，仅使用单幅图像中的曼哈顿特性就足以将所对应的相机投影进行恢复，同时，再使用对称性将其3D结构进行恢复。然而，因为单一图像的闭塞性，很难从其中提取曼哈顿特性。延伸到多个图像的状态，则可以使用物体的对称性，这时不再需要曼哈顿轴。因此，通过这样的思路，作者提出了一种新的刚性结构，它利用运动方法，利用物体的对称性和使用同一个分类的多幅图像作为输入，从而进行三维物体的结构设计。通过Pascal3D+数据集的实验证实了这种方法相较于一般方法的明显优势。

论文链接：Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images

论文六：《SCA-CNN：卷积神经网络中的注意力模型》——SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

由浙江大学、哥伦比亚大学，山东大学、腾讯AI实验室和新加坡国立大学（National University of Singapore）联合发表的论文《SCA-CNN：卷积神经网络中的注意力模型》针对图像描述生成任务，基于卷积网络的多层特征来动态生成文本描述，进而提出了空间及频道感知上的注意力模型。当前，视觉注意力已经成功的应用于结构预测的任务，比如：视觉字幕和问答功能。现有的视觉注意力模型通常是基于空间的，即通过对视觉注意力的空间概率建模重置对输入图像进行编码的卷积神经网络（CNN）的最后一个转换层特征映射。然而，研究认为，这种空间注意力不一定符合注意力机制，即结合语境固定时间的动态特征提取，因为卷积神经网络的特征是自然空间的，频道感知的和多层的。在这篇论文中，作者引入了一种新颖的卷积神经网络，称为SCA-CNN，其将空间和频道感知注意力融合进卷积神经网络。在实现给图像增加字幕的任务时，SCA-CNN动态的调整在多层特征映射中句子生成的语境，从而编译视觉注意力的两个特征：where（即在所层叠中注意力的空间位置）和what（即吸引注意力的频道）。论文通过三种benchmark的图像字幕数据集对提出的SCA-CNN架构进行评估，包括：Flickr8K，Flickr30和MSCOCO。通过评估证实了基于SCA-CNN架构进行图像字幕注解相对于目前已有方法的明显优势。

论文链接：SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

雷锋网(公众号：雷锋网)整理编译

。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/127050.html