腾讯天衍实验室郑冶枫：医学影像AI为什么需要小样本学习和域自适应技术？ | CCF-GAIR 2020

编者按：2020年8月7日，全球人工智能和机器人峰会（CCF-GAIR 2020）正式开幕。CCF-GAIR 2020 峰会由中国计算机学会（CCF）主办，香港中文大学（深圳）、雷锋网联合承办，鹏城实验室、深圳市人工智能与机器人研究院协办。从2016年的学产结合，2017年的产业落地，2018年的垂直细分，2019年的人工智能40周年，峰会一直致力于打造国内人工智能和机器人领域规模最大、规格最高、跨界最广的学术、工业和投资平台。

在8月9日的医疗科技专场上，腾讯天衍实验室主任、美国医学和生物工程学会的会士（AIMBE Fellow）、IEEE医学影像杂志副编郑冶枫博士，分享了小样本学习和域自适应技术在医学影像AI问题中的最新研究思路及应用进展。

郑冶枫指出，从本质上来看，影像诊断是一个计算机视觉问题，理想情况下将计算机视觉成熟技术搬过来就可以，但影像诊断往往还存在很多独特的行业性问题。

第一，数据量少（缺乏训练数据），对AI算法团队来说是一个难题。因为缺乏数据样本，数据来源和标注问题都很大，医学影像需要专业医生标注，而培养一个专业医生需要十年以上的时间。

第二，算法跨中心泛化能力差。开发一个疾病/场景，与一家医院做深度捆绑、利用数据进行交叉验证后，能得到比较理想的结果。但如果把这个算法部署到另外一家医院，准确率会相差很大。

第三，准确度要求高，医疗是一个严谨的场景，所有的诊断建议都可能对病人健康产生直接影响。

在第一个问题上，郑冶枫博士提出，迁移学习是一个很好的方式，可以将某个任务（源域）上训练好的模型迁移到另一个任务（目标域）。而为了获取更多的医学数据、积少成多，郑冶枫博士团队提出了Med3D：共享编码器的多任务分割网络，在大量异质的公开数据集上预训练，然后迁移到其它任务，并且进行了开源输出。

当然，除了Med3D，郑冶枫博士团队还提出了基于魔方变换的自监督学习，在预训练阶段不需要人工标定，从而减少大量的时间成本。

另外一方面，为了解决域偏移的问题，他们还提出了新型无监督域自适应(UDA)的方法，来缓和域偏移所导致的性能下降。该方法仅仅需要源域的数据、标注以及目标域的部分图像，无需目标域的标注，即可实现两个领域的自适应。在演讲中，他以VideoGAN: 视频风格转换以及OP-Net: 基于单张图像的风格转换的两个案例进行了说明。

以下为郑冶枫的现场演讲内容，雷锋网作了不改变原意的编辑及整理

郑冶枫：首先介绍一下天衍实验室的情况。天衍实验室成立于2018年9月份，当年的930变革让腾讯开始全面拥抱互联网，其中天衍实验室是专注医学AI的团队，专注支持腾讯医疗线业务。

作为一个实验室，我们过去两年已经申请170多项AI技术专利，今年上半年也发表30多篇文章，并获得五项医疗方面竞赛冠军。

实验室依托腾讯这样一个平台，覆盖业务比较广，例如投身医疗“抗疫”这件事，在to C、to B、to G场景都有所覆盖，to C其中主要就是依托腾讯健康小程序入口，快速上线疫情专区、疫情知识问答等；在to B场景，也上线了新冠肺炎CT辅助诊断算法；to G场景则是配合政府部门做疾病发展预测，为政策决策提供支持。

腾讯上半年公布的财报里面，也专门总结了腾讯在抗疫期间做的工作，

其中红色的就是和实验室密切相关的，例如在15亿抗疫基金里面拨出一部分资金，购买6台车载CT扫描仪进行捐赠，同车搭载的还有我们的新冠肺炎CT辅助诊断算法。

天衍实验室还跟钟南山院士团队合作，建立联合实验室，目前这个实验室还在持续运作，研发新冠治疗和抗疫等类型工作。腾讯健康码小程序提供AI问诊、随访等服务，疫情期间有60多亿的调用。

回到医疗领域，腾讯作为科技部新一代人工智能项目的重要参与者，在医疗影像的产品就是腾讯觅影，目前腾讯觅影已经研发肺炎筛查、宫颈癌筛查、新冠肺炎CT辅助诊断等多种工具。

深度学习在影像诊断上的挑战

过去两年我们做了很多落地的工作，也遇到了很多问题，并且开发了一些技术解决这些问题。本质上讲，影像诊断是一个计算机视觉问题，理想情况下应该把计算机视觉成熟技术搬过来就可以。

但影像诊断有很多独特的问题：

第一个挑战，数据量少。数据整个AI研发过程中最大的难题，其他领域通过爬虫、众包的方式可以获取大量已经标注的数据。这在医疗领域就非常困难，首先像核磁、CT等特定部位数据量和来源非常少，而且这些数据中往往还存在大量噪音。此外数据标注过程也比较困难，医疗数据的标注往往需要十年以上行业经验的医生才能完成。

第二个挑战，算法跨中心泛化能力差。AI产品在研发中，通常都是和一家科研能力强的医院做深度捆绑，利用医院里面所有数据进行交叉验证，在这家医院可能得到比较好的结果，甚至达到95%的准确率。

但这家医院研究出来的算法，一旦泛化到其他医院，就会出现模型准确度急剧下降，如果把两家医院的数据做比对就可以发现相差非常大，里面可能是因为设备的差异，不同设备使用不同的扫描参数，甚至疾病也存在差异，有些医院重症病人较多，有些医院轻症病人较多。

第三个挑战，准确度要求高。医疗是一个严谨的场景，所有诊断建议可能会对病人健康产生直接的影响。

我今天会分享前面两个问题的解决途径，第一个就是采用小样学习技术解决缺乏训练样本问题；第二个是采用域自适应的方法提高算法的泛化能力。

Med3D——构造3D医学影像的ImageNet

首先分享几个我们最近做的工作，第一个是Med3D：构造3D医学影像的ImageNet。

目前，小样本学习比较成熟的技术就是迁移学习。迁移学习就是将某个任务上训练好的模型迁移到另一个任务，小样本迁移学习则是源域已经有大量训练样本，而目标域只有少量样本的情况。

以这个图像为例，假设要开发一个老虎识别图像算法，但因为老虎是珍稀动物，我们接触老虎的概率很低，所以训练集里面就缺少老虎不同角度的图片。

但跟老虎很像的一个动物是橘猫，橘猫在各个场景下都可以得到海量的图片，所以就可以在橘猫的训练集上进行训练，之后通过微调就可以满足识别老虎，这就是典型的迁移学习案例。

迁移学习在医学影像上也有很好的应用场景，例如CT、MR等影像都是三维图像，而lmageNet预训练的模型都是二维图像，根本无法识别三维图像。

而如果把三维图形都转化为二维图像识别，就会丢失很多信息，这在医疗是不允许的。所以只能通过某种方法构造或预训练另一种直接识别三维图像的模型。

但实际二维影像数据也不多，我们只能聚少成多，一点点把二维影像数据积累起来，把小样本聚集起来成为大样本。

在这个过程中，医疗影像领域就有一个特别好的助推，就是每年大量的竞赛，每次竞赛都会公开数据集。数据集里面还都是经过医生投票，得到金标准的数据，甚至有的网站集合了所有公开竞赛的数据，现在就有200多个竞赛数据集，还在一直增长。

因为实验室更关注三维图像的处理，所以会把这些数据集里所有三维图像数据拿出来进行分割、标注、分类。

对于分割，现在最好的方法就是全卷积神经网络，主要包括两部分，一个是编码器，即图像做卷积下载压缩到一个低维空间，然后套一个解码器，做卷积上采样恢复成原来的分辨率，输出分割结果，这是现在几乎所有人都在用的一个分割技术。

我们数据的来源非常不一样，有CT、有核磁共振，而且分割的器官也不一样，解码器无法共享，但编码器是可以共享的，可以把编码器拿出来在其他任务上进行学习，跟随机初始化比起来有很大的提升。

做完这个以后，我们觉得这是一个非常基础的工作，很多医疗影像研究人员都可以从中受益，所以我们决定开源，当然前期肯定经过了腾讯的评估，这是腾讯在医疗AI领域的首次开源输出。

介绍小样本学习案例2：基于魔方变换的自监督学习

刚才介绍的是我们做的第一个小样本学习的工作，毕竟这个工作还是需要做分割标注，这个工作量很大，于是我们接下来进行了自监督学习，只需要拿原始图像进来，通过构建自监督学习任务，这样就可以拿到这个任务本身需要的标注，通过图像本身训练，不需要额外的人工标注。

基于魔方变换的自监督学习是我们去年发布的一个技术，首先给核磁的一个脑部图像的三维医学影像切一个魔方，八个魔方块（二阶魔方2×2×2）随机打乱，因为打乱方法很多，于是我们做了一个限制。我们还

可以将每个魔方块做旋转以及把一部分图像盖住做掩码，通过这些变换以后，希望可以恢复原来的魔方块。首先把每个魔方块接上一个编码器（卷积下载&卷积压缩），八个魔方共享编码器，我们因此得到特征向量，做三个分类：知道用哪个方式打乱的；每个魔方是否做了旋转；魔方块是否做了抠图或者其他变换，对魔方块进行训练，训练完了以后，编码器就可以拓展、迁移到其他任务上面。

这里面有两个问题，一个问题就是我们只训练了编码器，对于分类任务来说编码器足够了，但是分割任务还需要解码器。于是我们需要对解码器也进行了训练，我们会选取一个魔方片做旋转，今年我们即将发布魔方变换2.0。

这个工作我们不再是进行分类任务，而是做图像复原任务，每次选一个魔方片做旋转，把打乱的图像输入网络，目标是恢复原来的图像。是类似分割的任务，这样既可以训练编码器，也可以训练解码器。

训练完了之后我们可以把其迁移到分割任务上，做一键分割，我们用的魔方是高阶魔方，每个魔方片大概7层左右，如果完成打乱的话几乎不可能恢复原来的图像，所以我们随机选择做四次魔方片的旋转。

如果数据量比较少只有10%数据的话，上面第一行就是随机开始训练，分割出来之后大概只有58%左右准确率，用魔方变换2.0的话，分割率可以达到73.0%，有了巨大的提升。随着训练样本越来越多，分割的准确率可以达到82.9%，在这种情况下，我们还是有1个多百分点的提升。

介绍域自适应案例1：VideoGAN:视频风格转换

刚才提到了如何用小样本学习、缓解样本缺乏的问题，后面分享两篇论文讲解怎么去做自适应提高算法跨医院的泛化能力，下面介绍一下如何提升域自适案例。

第一个是我们做视频风格迁移（转换）的案例，我们做过很多结直肠内镜项目，通过内镜可以看里面有没有息肉，有的话就分割出来。从这张图片来看，左边的呈黄色，右边的偏白色，如果用一个数据量训练的话，图像出来的效果会很差。

为了解决域偏移问题，我们提出新型无监督域自适应的方法，来缓和偏移所导致的性能下降。

做输入端做图像分割的话，就是所谓的图像风格迁移，现在用的比较多的是CycleGAN，迁移到另外一个域的话，希望跟另外一个域的图像看起来一致，这个概念出来以后在娱乐场景下有很多应用，比如这是一张河边建筑物的照片，希望把这个照片迁移之后看到很眩酷的东西，比如把男生变成女生。

但是这种方法并不能马上应用于医疗。2018年我们发表了一篇论文，指出了这里面有一个致命的问题，迁移的时候会改变底层的组织结构，这是医疗当中所不允许的，所以我们要进行限制，保证迁移内容不变。

我们在刚刚的视频（结直肠数据集）里面用了配对的方法，每次输入网络的是两张图像，先做特征提取，中间有信息交换，最后会通过CycleGAN解码出来，我们发现两张图像配对以后可以保证整个视频迁移过去以后，视频是连续的，不会跳变，非常神奇地可以解决结构扭曲的问题。

这是一个结直肠内镜数据集，第一行是原始图像，最后一行是把原始图像迁移之后的风格，可以看到黄色的图像迁移成了白色的图像，风格迁移以后图像色调发生了很多的改变，但是我们这里可以看到图像内容本身、包括息肉完全没有发生改变。

从这个结直肠息肉分割结果来看，加了图像风格迁移之后有四个多百分点的提升。

介绍域自适应案例2：OP-Net:基于单张图像的风格转换

假如只有一张图像怎么做迁移呢？我们基于CycleGAN加了一个辅助任务，比如把阴天的图像迁移到晴天，对这些图像块进行迁移，这些图像来自相同或不同的目标域，如果我们可以区别彼此关系和域特征的话，从一个域切到另外一个域，可判断是哪个分类。这就是通过辅助任务做的四分类，即比较两个图像块，判断它是C1、C2还是D1、D2。这个技术比较通用，所以很多医疗场景里面都在使用，在自动驾驶上也得到了应用。

我们把单张图像里面的每个部分进行分割，在分割之后把图像块进行迁移，因为这些图像来自不同域，没有关联关系。所以从一个域切到另外一个域，首先需要判断分类。

这个技术比较通用，所以很多医疗场景里面都在使用，而且在自动驾驶上也得到了应用。

总结

深度学习在医学影像分析上有巨大的应该空间，同时在落地上也面临很多挑战，比如缺乏大量标定好的训练样本，而且AI算法跨中心泛化能力也比较差。

小样本学习可以缓解缺乏训练样本的问题，比如通过Med3D，在大量异质的公开数据集上预训练，然后迁移到其他任务上。基于魔方的自监督学习，在预训练阶段不需要人工标定。

域自适应提高算法的跨中心泛化能力，能保证医疗场景下的域自适应（图像风格迁移）不改变人体组织结构。

会后专访

雷锋网(公众号：雷锋网)：2020年以来，天衍实验室相继开发了新冠肺炎AI预测，区域传染病预测等多种技术。下半年，在医疗大数据、医疗自然语言理解、医疗影像方面都有哪些最新的研发规划？

郑冶枫：实验室上半年主要的精力都在抗疫工作上，发声不多的原因在于实验室会把下半年乃至明年上半年的主要精力都集中在认证上面。医学影像领域，目前整个行业都集中精力在认证环节，这会直接影响后续所有产品的预研计划。

在现阶段，我们也有一些肝脏、心脏的预研项目。但是需要先确保之前的产品商业化，把模式跑通，后续其他产品的预研工作才能顺利开展，否则所有产品都卡在认证环节，后续还在投入大量的精力预研，风险就会成倍增加。

雷锋网：天衍实验室在医疗AI方面的学术进展比较突出，今年MICCAI上更是接收了多达14篇的论文。这14篇论文的关注重点也在于医疗数据标注、以及小数据集上的模型性能。在您看来，这两方面是否是医疗AI最急需解决的问题？为什么？这些学术成果如何更好地实现应用？

郑冶枫：在医疗AI领域，无论是落地价值，还是科学探索，小样本学习都有着重要的意义。因为医疗影像和其他视觉场景最大的区别就是数据较少，而深度学习本身的特征就是数据驱动。

从应用角度，小样本学习只是我们过去的一种储备技术，但这次新冠肺炎辅助诊断算法开发就得到了应用。在疫情初期只有几百例数据的情况下，实验室通过魔方自监督学习，直接提升了10%的模型准确率，在过去，要达到同样的效果，可能需要上万例数据。

雷锋网：GAIR大会上，周志华教授提出，过去AI都是的驱动都是数据+算法+算力，未来在这几点外可能还需要加入先验知识，您认为医疗AI是否也是同样的情况？

郑冶枫：这个观点我也深有同感，我在加入天衍实验室之前，就已经做了十几年的医疗影像分析。那时候还不是深度学习，主要都是基于机器学习算法，识别的效果也很不准确。所以，很多自动分割工作都需要在算法基础上结合知识经验才能完成，例如心脏分割、冠脉分割，就需要结合很多先验知识。

但深度学习出现以后，就发现只要数据足够多，算法效果就会变得很好，似乎一瞬间知识经验变得不重要。但其实深度学习也不是完美的，在数量较少的情况下就没有传统机器学习识别效果好。

所以现在我也在思考，深度学习时代怎样把知识经验融入医疗AI，但很困难。问题在于，先验知识不是通用的，医疗行业的不用领域就有不同的研究方式，还存在不同形状和分类的限制，每种先验知识加入网络都没有通用的方法，每种场景都需要定制化，这严重阻碍了知识与深度学习的进一步结合。

但也不代表完全不可能，例如这次新冠肺炎症状分类，在分类识别过程中就需要强迫神经网络关注肺炎区域，否则模型经常就会关注到心脏、骨头等其他非必要的区域，这种“强迫方法”就是基于先验知识。

所以，周志华老师的观点是非常正确的。

另外，深度学习还有一个原生问题会阻碍先验知识的加入，这个问题就是“不灵活”，可能我们还在思考如何添加先验经验、寻找巧妙方法，但其他人就已经利用堆数据的方式解决了同样的问题，这会让一部分的研究人员非常有挫败感。

。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/75460.html