香港大学尹国圣教授：统计学家眼中的医学AI丨CCF-GAIR 2019

编者按：近日，2019第四届全球人工智能与机器人峰会（CCF-GAIR 2019）于深圳正式召开。峰会由中国计算机学会（CCF）主办，雷锋网(公众号：雷锋网)、香港中文大学（深圳）承办，深圳市人工智能与机器人研究院协办，得到了深圳市政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会，旨在打造国内人工智能领域极具实力的跨界交流合作平台。

在AI医疗专场上，香港大学统计与精算科学系主任、ASA Fellow 尹国圣教授发表了主题为《Statistics and AI in Medicine》的演讲。

尹教授的研究方向是临床试验设计、生存分析、贝叶斯统计方法和机器学习。目前他在国际顶级期刊上已发表论文约150篇。

他表示，目前，AI在放射学诊断设备端，如X光、CT、MRI图像上应用最为广泛。利用这些图像的准确诊断有助于加快治疗进程，提高疾病治愈的可能性。另外，NLP在电子病历中的应用也是一个值得探索的方向：“医学电子病历有着海量的数据，怎么样利用这些数据，给病人全方面的诊断，这也是非常有意义的一件事情。”

此外，与传统的生存模型相比，深度学习还可以更准确地预测患者的生存率。当然，这只是机器学习在医学领域的开端，许多应用前景广阔，但还需要在随机临床试验中进一步验证。

尹教授论述了几个深度学习模型在疾病预测中的案例。他强调，如果一个AUC为0.99的算法没有被证明可以改善临床结果，那么它的价值将会大打折扣。

当然，从统计学的角度，尹教授也给我们分享了自己的心得。他介绍，医学上的失误是导致死亡的第三大因素，第一名是心脏病；第二名是癌症；第三名是误诊。

人为错误有时是不可避免的。虽然我们不能消除人为错误，但我们可以更好地度量问题，以设计更安全的系统，减少其发生的频率和可能性。让错误在发生时，尽可能地减小影响。

他说，100多年来，统计学在医学研究中一直扮演着极为重要的角色。对药物进行假设检验，利用随机临床试验进行治疗效果的比较、使用ROC曲线评价疾病诊断系统或算法等等，而人工智能正在成为临床医生做决定时的一种补充。

以下为尹国圣教授的现场演讲内容，雷锋网作了不改变原意的编辑及整理：

尹国圣：大家好！很高兴有这个机会跟大家分享一下，我从统计学的角度看AI在医学上的应用。

前面几位演讲嘉宾讲述了很多不同的案例。大家都知道AI在医学影像上的应用是最多的，比如说放射影像、病理影像。病理影像比放射影像的数量少很多，因为电子化的病理影像成本很高。

另外，电子病历数据也是AI应该得到应用的重点。通常我们需要用NLP的方法去提取一些特征，然后把这些特征放到统计学的模型里。

还有另一大类AI的应用是Prediction。我会给一些例子，如何用全方位的数据预测病人的生存时间，进行更精准的病人生存预测。

总体来说，从统计学的角度，AI在医学上的应用还在比较初期的阶段，我会给大家介绍一些具体的案例，为什么我认为它在黎明的阶段。

大家都知道这是Deep Neural Network（DNN）。

从统计学的角度讲，DNN缺乏可解释性。统计在医学上的应用已经超过上百年的历史，为什么Deep Neural Network刚兴起，就在医学领域变得越来越重要。

从我的角度来看，DNN是统计模型，它是一个统计学的非参模型，可以拟合的数据非常复杂。

首先我介绍几种应用。

比如说膝关节的MRI图像是三维的，有横向、纵向、俯视切面，怎么样通过CNN进行三维诊断，最后分析出不同的病理情况。

另外一个应用是眼科。

大家知道随着糖尿病病人年纪增大，眼部的视力会越来越差，甚至导致失明。在《JAMA》的这篇文章里，研究人员通过视网膜的图像，有54名医学眼科专家进行标注，通过不同的数据集进行验证。

但是这篇文章，最后说“Further research is necessary to determine the feasibility of applying this algorithm in the clinical setting”。

就是说，如果看到《Science》、《CELL》这些顶级杂志的成果，我们会发现他们做了很多的比较。比较以后，研究还需要进一步的Validation，而不可以在临床环境中直接进行应用。

当然，整个研究的比较结果，通常都是算法打败了人类，因为如果算法不能打败人类，成果肯定是不能发表的。

这是ROC曲线，黑色线离左上角越近越好，曲线下的面积是AUC。黑色的线代表了算法诊断的结果。你可以看到，算法的结果已经非常接近专家的水平，甚至有时候会超过专家。

这是另外一项于2017年发表在《Nature》上关于皮肤癌的研究，利用AI进行皮肤癌和其他皮肤病变的诊断。

这个研究首先是在ImageNet上训练模型，因为医学的数据比较少，我们可以通过其他海量图像的数据进行训练，然后再利用迁移学习的方法进一步训练，这是非常常用的方法，可以对两千多种皮肤疾病进行分类。

这是皮肤科医生和AI在ROC曲线上的比较结果。蓝色的线是AI的结果，红色的点是皮肤科专家的结果。你可以看到，通过AI的诊断结果基本上可以达到甚至超过皮肤专家的诊断结果。

另外一个研究是关于乳腺癌的淋巴结转移。

这个案例的样本量很小，只有200多个病人。一组有淋巴结转移，另一组没有淋巴结转移。通过AI的方法来进行读片，最后有11名有时间限制的病理学家和一名无时间限制的病理学家对同一组相应的玻片进行了评估。

因为，病理学专家验证是有时间限制的。还有一种是没有时间限制，需要模拟真正临床环境中病理专家阅片的场景。因为AI读片子比病理专家读片子的速度快很多，如果给病理专家足够多的时间，是不是可以超过 AI？

这是其中一个比赛的项目：CAMELYON16，这是病理学家和AI比较的图。像刚才演讲嘉宾讲的，病理学图像比放射图像的数量少得多，因为病理学图像非常昂贵，需要把玻片转换成数字化的图像。

一个很重要的结论是，目前，很多研究都不是prospective study（前瞻性研究）——观察一组受试者随时间的推移，某些不同的特定因素是如何影响研究结果，这才是真正有意义的随机临床试验下的研究。

我们如何说causal inference, A cause B？现在右边列出的研究大多是追溯型的研究，我们看到这些数据追溯之前发生什么样的事情，这样的研究你都不可以得到确切的causal结论。所以，如果希望监管部门批准研发结果，你需要进行前瞻性的研究。

AI让人觉得非常兴奋，大部分研究的AUC都能达到90%，甚至99%。但是AI不是一味地追求AUC是多少，而是要表现出临床的价值。

从医生的角度来讲，AI是否能真正帮助医生，节省他们的诊断时间，帮他们治疗病人，这种临床意义下的AI才是最有意义的。

IDx的一项研究是关于900个糖尿病病人眼部失明的案例，这是真正临床意义上的试验，随着时间跟进型的案例。

由IDx公司开发的专有系统(结合算法的成像设备)和临床专家对图像进行评估，该系统可通过视网膜的光学相干断层扫描(OCT)图像进行诊断。

系统算法在疾病诊断中对819例患者的敏感性为87%，特异性为91%。最后，FDA也是批准了IDx的人工智能产品。

另外一个我想说的话题是，医学失误是导致死亡的第三大因素，第一名是心脏病、第二名是癌症。为什么医学失误会带来这么多的问题？

发表于《美国医学协会杂志》、《柳叶刀》和《新英格兰医学杂志》三家主要医学期刊的3000多项随机对照试验分析显示，有将近400个medical reversal。

人类的误诊是一个不可避免的事情，即使是一个最顶级的医生也会犯错误。但是我们怎么减少人的误诊带来的死亡。AI能不能带来帮助呢？

我们可以有三种不同的方式：make errors more visible（使错误在发生时更明显）、having remedies at hand（有急救措施）、take human limitations into account（考虑人类的局限性）

这是FDA发布的公告，FDA批准很多医疗器材。比如说，心脏病人的心跳频率如何保持正常？或是心脏搭桥手术。

AI作为SaMD医疗设备，如何通过FDA的认证？

首先，FDA需要AI能够帮助医生进行正确的诊断，可以对患者的病情进行准确的判断，这种情况下，SaMD才有可能得到批准。

而且，非常有意思的是，AI算法可以通过不断地收集数据进行学习而改善，变得越来越精准。

但是当前FDA不允许这样，它希望在评价算法的时候，算法不应再改变，如果更改了就需要重新进行审批。

右边的图表是最近FDA批准的一些AI产品。

比如说IDx在2018年4月份获批。所以，我们要通过深度神经网络在计算机上进行训练，然后进行临床试验验证，最后才能得到FDA的批准。

FDA批准AI产品的频率越来越快，这是从2017年的1月份一直到2018年9月份的汇总。

这是2018年发表在《CELL》上的一篇文章。通过ImageNet做出模型之后，再利用迁移学习，将AI应用到医学领域。我们看到，ROC彩色的点是AI和人类专家的比较。这篇文章用到了633名病人，但是只使用病人的OCT图像。

这个研究非常有探讨空间。上图中，蓝色的线是Validation Data的准确率，橙色的线是Training Data的准确率。Validation Data的表现要优于Training Data的表现。

但是，从统计学的角度来讲，Training的结果通常会好过Validation的结果，因为不断用数据训练模型，最后会发生过拟合的现象。

但是这篇文章最后结论为，Validation的结果打败了Training的结果，我对这篇文章的结论持怀疑态度。

这是另外一个案例，目前没有任何药物可以治疗老年痴呆症，所有药厂都在研发治疗老年痴呆症的药。但是，所有三期临床实验都失败，现在有五种药只能延缓疾病的恶化，不能完全治疗老年痴呆症。

老年痴呆症是慢性神经退化性疾病，对于我们未来的健康是非常大的挑战，不亚于癌症。

我们如何通过医学影像去帮助医生进行早期的预测和诊断，老年痴呆症病人的大脑比正常人的体积要小。

这是三维的图像，我们可以通过二维的CNN去进行训练，最后来判断病人是不是患有老年痴呆症。

当然，我们也可以通过3D-Convolution neural Network，这样数据量比二维情况大很多。

另外一个研究是关于脊椎骨折，是香港大学医学院的一个案例。

20%的男人和33%的女人在一生中会经历骨折。老年人骨折以后，身体状况下降非常快，骨折以后要躺在病床上几个月，也不能运动。虽然骨折不会直接导致死亡，但是会间接增大死亡的概率。

如何通过骨骼的图像，判断老年人骨折的概率是不是过高。如果概率很高，我们可以在骨折之前注入一种胶，增强骨骼的结构，避免脊椎发生骨折。

如果我们想得到更精准的诊断结果，CT图像的精准度可能不够。我们可以通过Res-Net，通过CT图像，去进行super resolution，最后判断骨折的概率是多大。

刚刚我列举的都是AI在医学影像上的应用。

其实，电子病历也拥有海量的数据，我们怎么样能把这些数据应用起来，给病人提供全方面的诊断，这也是非常有意义的一件事情。

电子病历数据通常会有一些Medical error，有一些医学词汇是缩写或者写错了，我们如何把这些数据放在一起用？

我们可以运用一个NLP系统帮助病人做疾病分类，通过NLP的方式可以做一个全自动的数据库DataBase，去帮助医生进行诊断。

其实在DNN之前，已经有很多传统方法进行过类似的研究。

比如说，这是IBM Watson Patient Record NLP。

以前大家都是用AdaBoost和Random Forests，这些都是机器学习的传统技术，现在可以用NLP或是LSTM的方法，帮助更精准地做一些NLP的应用。

放射学报告是文字性数据，但是文字性数据不能直接用，要进行数据化，最后做sentence detection等，用金标准的方法进行evaluation，这种方法也变得越来越普遍。比如说CT的报告，MRI的报告，每一个图像都跟随一个报告。

现在我们很多都是用图像做诊断，可以把NLP的方法用在放射学报告里，得到全方位的医学诊断。

第三类AI应用是可以通过LSTM或是CNN去进行预测。

这是成都空气污染的预测，可以看到PM2.5、PM10还有湿度、气压、二氧化硫、二氧化碳等等，9个Station收集的数据相关性非常强。

图中列出第4个和第5个station收集的一氧化碳和PM2.5的数据，两者的相关性非常强，这里面包含时间序列的相关性和地域相关性，我们如何把地域相关性和时间序列的数据用统计的方法结合在一起。

我一开始介绍的survival analysis（生存分析）已经有70多年的历史。

这是一个传统的survival analysis中的Cox Model。现在大家都不用这种线性模型，而是把一个神经网络放在模型中。

神经网络是非参数的方法。也就是说，如果我们把线性的回归模型用神经网络的方式套嵌到模型里，会得到更精准的预测。

这是一个在competing risk情况下，DeepHit包含两个cause-specific sub-networks。

competing risk是什么意思呢？病人死亡只是一件事，但是可能有很多不同的疾病导致死亡，比如说心脏病或是癌症，哪个疾病先导致死亡。

大家在神经网络上做病人分类，其实就是做0和1或是不同的种类。Survival analysis是针对另外一种数据，不是0或1，它是一种time-to-event 数据。也就是说，跟踪病人直到某一件事情发生，这件事通常是死亡。我们能检测药物是否可以延长病人的生存时间。

deepsur是另外一个生存分析模型。

这是发表在《Nature Medicine》上的一篇文章，关于survival Convolutional neural Network，把病理的图像通过convolutional neural做出一些特征，把所有的特征输入到Cox model里，然后通过Cox model去做病人的生存分析。

在紧急救护的病人里，我们通常做一些插管，什么时候进行插管也是非常重要的。

我们可以通过LSTM作为特征的输入，因为有些特征是随时间变化的。病人在救护室会测量脉搏、心跳，这些都是和时间有关系。通常意义下，我们都是做一个回归模型，如果用LSTM，可以得到更精准的预测。

我们可以看到，关于生存分析，有了一些革命性的改变。

我们做了一些比较，LSTM的结果是表现最好的。

这是刚刚出版的一本书《Deep Medicine》。统计学在医学上的应用已经有一百多年的历史，所有的临床试验、所有的药物研发都需要统计学的介入与指导。比如说怎样做ROC Curve、怎么计算P-value 、type l error，医学试验需要多少病人才能得到临床意义上的验证？

AI作为一种新的方式，可以帮助医生进行精准的治疗。AI最大的意义是能把医生的时间解放出来，把很多重复性的工作让AI来做，这样医生可以有更多的时间帮助病人解决更多的问题。

我来自香港大学，香港大学今年9月份招第一批AI的本科专业学生，我们只招15名本科生，包括香港和大陆的学生。

谢谢，我的演讲就到这里。雷锋网

。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/industrynews/70945.html

香港大学尹国圣教授：统计学家眼中的医学AI丨CCF-GAIR 2019

相关推荐

发表回复