用人工智能改变医疗，必须经过这三个阶段 | 深度

雷锋网按：本文作者 Luke Oakden-Rayner 是澳大利亚知名学府阿德莱德大学的在读医学博士生，曾发表过多篇医疗人工智能方面的文章。雷锋网(公众号：雷锋网)对全文做了编译，未经许可不得转载。

在我最近发表的一篇博文里，探讨了如何带着批判的眼光去理解人工智能在医学领域里的应用和研究，并且将研究重点放在了这些人工智能试验与临床应用的相关性上。但在此后，我想到一个问题，即有些研究已经取得了进步，而有些研究还远未达到临床应用的阶段，对于这一过程，还没有一种简单清晰的方式可以讨论。

从事医学研究的人，可能会认同这种观点，因为医学界已经解决了这个问题。

事实上在医学领域，根据实验结果会对临床应用产生多大作用，临床试验可以被分为三大类。业内将这些类别称为医学研究的不同阶段，它们反映了从前期准备到转化为临床应用这一过程的常规路径。这些类别也恰恰是临床创新获得医生和监管机构接纳的必由之路，笼统地说，大多数与人有关的医学研究都不外乎分为这三大类（或三个阶段）。

第一阶段是首次安全性检查。最开始，需要在一小群受试者身上试用药品，保证没有任何可怕的后果。在这个阶段中，我们甚至很少去考虑试验的药品是否有药效（即受试者服药之后的效果怎样），只希望确认试验不会造成服药者死亡。如果我们从中得到了不错的反馈，显示药品的确效果不错，那固然很好，但是那并不是试验一期的主要目标和动机。

第二阶段则要更全面地评估试验安全性。到这个阶段中，需要扩大受试人群的规模，这么做是要查明药品是否会出现比较罕见的副作用。因为试验样本的数量更大，可能发现更多和药效有关的信息证据，但即便如此，这一阶段也永远不足以证明临床应用可行。

第三阶段是成本最高、难度最大、但又十分重要的一个阶段。主要目标，是要去查清药品究竟能够发挥多大作用，这通常意味着，一大批受试者必须要试用某种药物很长时间，而且试验所采用的方法和分析都要能经得起美国食品药品监督管理局（FDA）或者类似政府监管部门的严格审核。

除此之外，如果从技术角度来看，其实还有临床前期试验（动物实验模型）和第四阶段临床试验（新药推出后进行的后续试验）。不过，上述的三个阶段是将某个医疗想法变成实际治疗药物所必须经历的过程。

我认为，医疗人工智能研究的推进过程，其实和常规医学临床试验过程非常相似，因为我目睹的几乎所有医疗人工智能研究都可以归入、或明确界定到已知的这三个阶段之中。至于这一系统是否很严格，有没有涵盖足够多的尖端研究，我也不能给出百分百肯定的答案，但本文至少能够在设计、或理解医疗人工智能领域研究时，对形成实用的思路框架提供一些帮助。

人工智能医疗试验

让医疗人工智能试验的框架能够映射其他临床试验架构，是合理的做法。所以，将其也分为三个阶段是直观且常见的思路，当然，这可能也需要做些额外工作，才能让医学研究者和人工智能研究者相互理解。假设你的新型医学人工智能系统已经做好了随时为病人服务的准备，相比之下，可能说服医生和监管机构相信反而更容易一些。

实际上，医学临床试验和医学人工智能试验的关键区别，主要是第一和二阶段人工智能系统不用怎么考虑安全性。因为直到阶段三，才会应用于患者。这种研究叫做“可忽略风险型研究”。

请注意，以下框架仅适用于软件系统，并不适合外科手术机器人等实物系统。此外，不同的软件系统可能会有类似的框架，只是各自的细节有天壤之别。

第一阶段：

简介：这一阶段会设法明确哪些医疗人工智能试验任务是不可行的，或所启用的模型前景并不太好，不足以保证未来的研究能够深入下去。有前景的试验会决定模型设计选择的方向，为下一阶段研究的选择提供有用的信息。

研究设计：以经过测试的小型回顾性阵列，训练医疗人工智能试验系统。这意味着，人工智能系统所使用的数据，都是过去出于其它原因而收集的，研究人员用这些数据去查明，这一阶段是否存在和他们所希望解决的任务有相关因素。在机器学习领域里，通常的做法是用公共数据集。

阵列的规模通常在二十人到几百人不等，这一阶段预计不会有太大的规模，因为不需要准确刻画模型表现的特征，也不需要得出效果方面的具体结论。

阵列类似于目标群体，不过并非完全一样。这时要做些选择，简化试验过程，这也让研究人员无法得出更宽泛的结论。比如，可以使用住院患者的数据，因为这类数据随时可用，即使研究目标是应用到更大众的人群（如非住院患者）。做这些设计选择的人，常常不是经过专门训练的人员，即很多是计算机科学家，而不是生物统计学家、流行病学家、或是医学研究人员。

医疗人工智能任务本身会简化，从而进行更加高效的分析。比如会使用代理，而非真正的患者来进行研究。一个例子是：某项研究评估缝针有多高的精确度时，会用手术机器人，而不会用真正的患者。前一种任务即使表现的再优异，也不能作为系统胜任人类任务的直接证据。任何医疗试验最终还是需要应用在病患身上。

成本：第一阶段试验的大部分成本是研究人员为设计和训练模型投入的时间。

转化时间：在临床试验中，从第一阶段试验成功到推出消费类医疗产品，可能预计需要大概十年。

实例：历次医学领域的深度学习试验（只有一次例外）。目前，公开发表的医疗人工智能试验论文数量每周都有好几篇，作者从一流研究人员到在读学生不等，甚至大数据竞赛平台Kaggle组织的那些临床靶区分析竞赛、以及所涉及的部分医疗数据都能被算在内。

第二阶段：

简介：这一阶段将会识别医疗人工智能试验理念是否值得在第三阶段研究中继续，由于第三阶段成本昂贵，而耗费的时间也很久，所以第二阶段试验的主要目标，是要探索最有前途的模型架构、目标、以及患者阵列。

研究设计：人工智能医疗系统会被一个更大规模的患者阵列来测试，规模要大到能带来最高性能的预期。不仅如此，数据还需要更紧密地反映出受众目标人群，尽管依然会不同。在此，主要的混杂变量应该被明确地认知，并知道何时会不受控制。在第二阶段，阵列的选择往往要求研究设计专家的帮助，这其中就包括生物统计学家和流行病研究学家。

第二阶段里，患者阵列很可能会达到数万人（有时甚至更多），这一数字相比于传统的第二阶段医疗临床试验要大得多，因为阵列要满足机器学习训练和测试。如果你不明白，只需记住至少是传统医疗临床试验数量的2倍。

第二阶段数据还是回顾性的，但任务本身会和要自动化的临床任务非常相似。

成本：第二阶段医疗人工智能试验的主要成本，将会是收集、标签、以及处理海量训练数据集合。在这一阶段里，模型设计成本将会有所不同，这主要依赖于你采用什么样的机器学习方法。

转化时间：从第二阶段到实际医疗产品，整个过程可能需要五到八年。

实例：谷歌对糖尿病视网膜病变的研究。实际上，这是目前我所知唯一称得上是第二阶段医疗人工智能试验。谷歌用了 1 万个案例，和1.3 亿图片训练这套系统。谷歌的人工智能系统的表现，和医学专家几乎无异，而且在临床表现上也足够准确（误差在可允许范围之内），也只有这样的系统才有资格进入到第三阶段医疗试验。

第三阶段：

简介：第三阶段试验，是为了证明临床效果。其目的，也是为了展示人工智能系统在可控环境下处理临床治疗任务的时候，究竟是否能够起作用。

研究设计：系统经过大型前瞻性患者阵列研究，且能准确代表目标受众。前瞻性意味着在系统被实际应用前，试验对象就已经被聚集起来，然后进行足够长的效果评估。主要目标是展示医疗指标的变化，比如患者治疗效果是否得到改善，或者临床护理的成本是否有所下降。

在第三阶段中，患者阵列的选择最为关键，因为临床只接受一致的患者对象。研究设计是非常重要的一项工作，往往需要好多专家一起协同工作好几个月。

另外，在患者阵列规模也会产生更多变化，在某种程度上，这主要取决于第二阶段研究中发现的研究成果规模。第二阶段所创建的人工智能模型，在第三阶段试验中可能效果并没有那么好。在我个人看来，首个第三阶段临床试验要克服医疗研究中的保守偏见*（见文末注释）。

任务选择将会反映出系统用例。当这套系统完成部署之后（这是一个监管点），针对同一个治疗任务，临床验收和监管验收必须要提供实际证明。再次需要重点提醒的是，这些工作也需要进行大量规划和专家研讨。

成本：在第三阶段最主要的成本来自于研究设计、阵列人数、以及管理、数据分析和出版支出。实际上，绝大多数计算机系统设计已经在第二阶段试验中完成了，因此到了第三阶段，尽管工程成本可能会略高一些，但机器学习的成本应该会有所减少。

由于这些研究都是具有前瞻性的，因此随访患者时间必须足够长，这样才能发现临床结果中是否真的会出现问题。比如像心脏病这种病症，往往需要随访患者好几年时间才能够被发现，所以在这方面所耗费的成本会比较高。

转化时间：从第三阶段到医疗产品，可能是两到五年时间。监管机构的审批真的会很长！

实例：目前没有任何使用深度学习系统的第三阶段医疗人工智能试验。

可能也有些不同看法，有人认为过去有计算机辅助诊断（CAD）在第三阶段试验中使用，特别是在乳房 X 线摄影应用。事实上，这些系统都是较老的机器学习，而且完整性也不够。它们也会让深度学习系统的转型变得更加困难，因为CAD在第四阶段（后期部署）试验的表现令人非常失望。

令人激动的最后一阶段

在我本人看来，本文所描述的这种三阶段架构可能对解决一些问题有所帮助，当然，这些问题我之前也有提到，公众和媒体也做了一定的科学传播。这些简单的分类，能够预先识别出一个人工智能系统距离临床应用有多远（或多近），也能够帮助医疗研究人员更轻松地理解自己所做的相关研究。

此外，本文中所提供的这些方法也有助于矫正我们一些不切实际的期望。事实上，几乎没有任何人工智能医疗临床研究能够通过这三个阶段，不过应该会有类似的淘汰流程。如果我们尝试追踪试验结果就会发现，能够通过第二阶段的临床试验只有 18%，而在所有进入到第三阶段的临床试验中，成功的不到 50%（具体可参见下图）。

所以对于人工智能系统而言，结果可能会更糟糕，而且我们还需要考虑到第一阶段研究的门槛（特别是利用公共数据）其实非常的低。如果有一千个医疗人工智能系统进入到第一阶段试验，那么最终能够成功通过的可能不会超过一家。在人工智能领域里，我们看到现在每周都有五到十篇医疗人工智能论文发表出来，但是却几乎没有进入到第二阶段。

再泼一点冷水，一般来说，一款药物从实验室到市场投放，通常需要十年，成本高达十亿美元。人工智能系统可能更简单也更便宜，但是到目前为止，还没有任何证据能够证明切实有效，因为没有任何人工智能医疗试验能够走到第三阶段。

最后，像本文中所描述的这样一个框架，其实也给了研究人员提供了一个清晰的路线图。从这些试验开始，然后慢慢熟悉，最后，你也会拥有一个能够解决医生和监管机构问题的系统。以我的经验，如果让计算机专家和工程师进行医疗研究设计通常不是个明智之举，而在最初想法到最终医疗成品的过程中，如果有一个大致指导方针，则会给你带来很多帮助。

雷锋网注：保守偏见其实是一种试验特点，而不能被看作是一个 bug。相比于后期验收，医疗创新实例往往需要面临更高的门槛，这主要是因为医疗行业的预防原则所导致的。所做的测试越多，我们就能对该方法有更好的理解，继而能够预测后续可能产生的风险。对于未经测试的方法，我们会表现的慎之又慎。

VIA lukeoakdenrayner

【兼职召集令！】

如果你对未来充满憧憬，喜欢探索改变世界的科技进展，look no further！

我们需要这样的你：

精通英语，对技术与产品感兴趣，关注人工智能学术动态的萝莉&萌妹子&技术宅；

文字不求妙笔生花，但希望通俗易懂；

在这里，你会收获：

一群来自天南地北、志同道合的小伙伴；

前沿学术科技动态，每天为自己充充电；

更高的生活品质，翻翻文章就能挣到零花钱；

有意向的小伙伴们把个人介绍/简历发至 guoyixin@leiphone.com，如有作品，欢迎一并附上。

。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/63752.html