百图生科科学顾问高欣：自我否定、二次创新，我为纳米孔测序提供了更可靠的AI工具 | 万字长文

“接下来，生物计算将成为百度重点发力的关键领域之一，在这一赛道的投入上，百度只有尽力，没有尽头。“

这是近期，李彦宏在首届生物计算大会上的一段豪言壮语。

如今随着像百度、字节跳动、华为这些科技大厂的高调加注，以及各个VC接连不断的注资，与生物计算密切相关的AI新药无疑已经成为关注度最高的创业赛道。

近日，雷锋网《医健AI掘金志》以“AI制药·下一个现象级赛道”为主题，邀请百图生科、剂泰医药、未知君、望石智慧、英矽智能、星药科技，六家先锋企业，举办了一场线上论坛分享。

作为此次论坛的开场报告嘉宾，百图生科科学顾问、沙特阿卜杜拉国王科技大学教授，高欣以《更精准的生物医学及基因组学》为题，进行了演讲。

高欣教授的团队从“靶点发现”方向出发，开展了一系列纳米孔测序相关工作，并应用深度学习算法，开发了一款全新cwDTW算法“WaveNano”，该算法直接解决了困扰生物学家的纳米孔测序仪错误率较高问题，并在国际顶级生物信息学会议ECCB发表。

作为一个计算机学家，高欣的算法研发没有止步于WaveNano，做出以上研究之后，他开始反问自己：1.自己有没有可能得到更可控、质量更好的标注数据训练监督式学习模型？2.自己有没有可能大幅提高DTW算法时间复杂度？

这些问题也在日后的研究中逐步被优化和改进。

以下是演讲全部内容，雷锋网做了不改变原意的整理和编辑：

大家晚上好，我是高欣，很高兴跟大家进行分享。今天的题目是“更精准的生物医学及基因组学”。

大家知道药物发现是一个极其漫长且昂贵的过程。一个药物平均从最初研发到上市，需要15~20年时间，耗资超过20亿美元。

这一漫长流程由多个步骤组成的，从最开始靶点识别，到先导化合物发现、先导化合物优化、临床前动物实验、多期临床实验。

整个流程当中，任何一个步骤出现失败，都导致整个流程以失败而告终，整个药物发现流程成功率非常之低，只有不到5%。

如果对当中各个步骤统计会发现，每一个步骤的失败率都在随时间变化而逐年增高。

而且在这些步骤中，晚期发现失败消耗的代价，要远远大于早期失败。因此，早期步骤成功率在整个流程至关重要。

今天跟大家分享的题目，就主要集中在药物发现第一步“靶点识别”。

长读长测序：基因组数据的抽提利器

我想谈的是，如何通过第三代测序技术，更快、更准确得到基因组数据，得到基因组数据之后，如何更好解读基因组数据，以求发现更好的药物靶点。

这个系列云峰会讲座当中，后续speaker还会给大家分享不同步骤以及整体流程上一些振奋人心的工作。

今天我主要集中在第一步，介绍我的课题组工作，即时DNA测序方面成果。

现代医学大多都是基于基因组诊断，人共有30亿对碱基，这些碱基都是非常长的基因组序列。

大家可以把它理解成一本非常厚的字典，每个人都有一个模板。抄写这本字典的时候，就无法避免犯一些错误，例如插入、删除、错别字等等。

绝大部分错误不会导致严重后果，但如果在一些关键位置抄写错误，就会导致罕见遗传疾病。基因组诊断就是要把这些抄写错误和罕见遗传疾病相互关联起来，做到这一点，就要知道错误发生地点。

因为生物技术所限，我们没有办法通读整个字典，只能把字典拆分成一页一页，或一段一段分别解读，最后整合起来。

这是一件非常难的任务，就好像是很出名的变形艺术—metamorphosis。

基于这种metamorphosis变形艺术设计拼图游戏，就会发现拼图游戏非常难，因为所有piece都高度相似，没有任何两块完全一致。

因此，大家想出各种办法克服技术上难点，其中一个直观办法就是把拼图块从小块变成大块，所谓长读长DNA测序。

长读长DNA测序，主要有两种技术：PacBio和纳米孔。

纳米孔相对于其它测序技术来说，主要有几大优势：

第一，便携性，纳米孔测序仪大小只有手机一半大小，理论上可以在世界任何时间、任何地点，提供及时检测，也就是point of care；

第二，测序长度非常长，可以读长有大约10k到100k这么长，相对于二代测序100~200bp长度，已经是很长的读长长度，因此可以很好处理大结构变异，以及DNA中的repeat；

第三，纳米孔测序不需要进行PCR扩增。

既然有好的地方，就一定有坏的地方，纳米孔有这么多技术上优势，主要劣势就是测序精度。

例如R9 Flowcell，测序精度只有85%左右；即使最新R10，官方精度也只有95%左右，相比于二代测序99%精度，这个确实非常低。

数据处理：纳米孔测序的长期瓶颈

测序精度低除了设备上局限性，纳米孔数据分析也是非常难的任务。

在此，我简单介绍一下纳米孔工作原理，纳米孔当中有一个膜，膜上有一些穿膜蛋白，即membrane protein。

单链DNA会被蛋白酶拽着通过膜蛋白，在任何一个时间点膜蛋白当中大约有5到6个碱基，所以可以假设是一个5mer总共会有45，大约1024种不同5mer。

由于5mer组合不同，形状不同，对孔阻塞程度也不一样，因此，当膜两端加上电压再去测一个时间点有多少电流能通过时，就会发现不同5mer在孔中的电流值不一样。

而且纳米孔测序仪测出的原始数据是离散时间序列电流值。我们想做的是解码，把离散时间序列电流值解码成ACGTDNA读长。

对于计算机同学来说，解码是一个非常经典的任务，有很多现成算法，但纳米孔解码和传统解码完全不同，主要有几大技术难点：

第一，电流测量范围小。1024种不同5mer，它们之间平均误差已经小于电流之间测量误差，直接做解码，就会有很多不确定性。

第二，DNA序列并不匀速通过，有的时候很快，有的时候很慢。但电流是以恒定频率被测量，因此在电流中，有的5mer会被测两次，有的5mer会被测200次，平均一个5mer大约被测10次左右。

从离散时间序列角度来说，并不知道任何一个时间点是在测上一个时间点5mer，还是下一个5mer。

第三，信号联配困难，DNA读长大约有1万到10万这么长，原始电信号长度又是DNA读长10倍左右，也就是10万到100万这么长。

如果把两个序列进行联配，最标准算法就是动态规划，这是一个平方时间和空间复杂度算法，这么长序列里，这种算法时间复杂度同样也没有办法接受。

纳米孔测序数据分析是一个非常难的任务，我的课题组过去三年里，已经研发端到端计算平台用于处理纳米孔测序数据分析等关键问题。

WaveNano：纳米孔测序的解码框架

现在给大家做个简单介绍：就是把特定离散时间序列电信号解码成一个DNA读长，最终设计成一个基于监督式学习的解码问题。

这是我们三年前设计的一个深度学习框架“WaveNano”，当中深度学习单元主要采用wave net单元，也就是声波网络相关单元想法结合wave net和残差网络，从上游到下游分别提取序列中信息，并把信息整合起来。

接下来训练一个监督式学习模型，预测任何一个时间点的上下标签。

第一个标签是时间点，和上一个时间点对比，究竟是同一5mer，还是变成下一个5mer。

第二个标签是分类，任何一个时间点测量5mer属于1024种中的哪一类。

预测完两种标签概率之后，我们就可以通过概率引导Viterbi解码算法，解码出DNA读长序列，整个流程最重要的就是“如何为监督式学习准备训练数据”。

虽然可以从公共数据集拿到很多配对原始电信号和DNA读长信息，但如果想做监督式学习，就需要知道这些原始电信号的任何一个时间点二类标签和1024类内容。

但原始电信号序列非常长，没有人会手工标注这些标签，只能自己进行数据标注，找到原始电信号和DNA读长之间最优联配。

这种问题，一般通过动态时间规整算法—“dynamic time warping”就可以解决。

大家可以把它理解成动态规划的变种，动态规划没有空位罚分(Gap Penalty) 的情况下的变种。因为它的电流序列长度是DNA序列长度10倍，因此一旦gap penalty，gap penalty就会占据主导位置，最后联配不会好，因此就需要采用没有罚分项动态规划变种，就是DTW算法。

简单给大家展示一下DTW算法性能，和官方base calling、Metrichor和Albacore等方法进行对比。

因为其它两个程序并不开源，不知道训练数据情况，这个比较可能还不公平，尚且无法断言，我们的算法base calling要比官方的好。但从这个表格至少可以发现，WaveNano工具非常不错。

问题溯源：两大思路继续精细化

但我对WaveNano其实并不满意，为什么？

首先，我更感兴趣的是现有问题，是为挑战性问题量身打造的新算法，不是简单应用市面上已有深度学习框架。

其次，这个问题还有两个限制：

第一个限制，训练数据准确度不可控。对于监督式学习模型，如果训练数据质量不好，或标注不好，最终无论算法多么强大，训练出的模型一定不好。

而刚才训练的模型，都是自己联配得来的训练数据，完全不知道离真正ground truth相差多远。

第二个限制，运算速度比较慢。对原始电信号序列和DNA读长序列进行联配的时候，DTW还是一个平方时间复杂度算法，对于序列联配的速率还比较慢。

因此，做出这些研究之后，作为一个计算机学家，我问了自己两个问题：

1.自己有没有可能得到更可控、质量更好的标注数据，用于训练监督式学习模型？

2.自己有没有可能大幅提高 DTW算法时间复杂度？

接下来，介绍一下两个问题的解决方式：

其实深度学习经常会出现数据量不够，或者标注数据量不够的情况。

这种情况下，大家经常会使用模拟器，例如Alpha Go就大量使用模拟器模拟非常多的围棋对弈。

纳米孔训练上，我也想到了模拟器想法，虽然在此之前已经有若干纳米孔模拟器，但这些模拟都是DNA读长，没有任何人能够模拟原始电信号序列。

因此在三年前，我们提出了一个想法—Deep simulator，它可以模拟纳米孔测序整个流程。

首先，主要通过给定基因组，随机把它打成一些DNA读长，并且保证这些DNA读长分布和真实数据读长分布保持一致。

其次，对于这些随机生成读长的每一个DNA，还要随机生成它的原始电信号序列，最后用base caller，从原始电信号序列把DNA读长给呼叫回来。

因为自己的base caller并不完美，所以call回来的DNA读长并不完美，自然会引入一些插入删除，以及一些variation。

但最终模拟器还是为业内人士提供大量训练数据，用于训练他们的解码器，被大家使用的频率非常多。

所以去年，我们又提出模拟器1.5版本。这里简单介绍一下其中的技术细节。

第一步，生成和实际数据读长长度分布一致的读长长度，为了达到这个目的，就需要对实际数据进行读长分布总结。

我们发现，实际纳米孔测序数据基本服从三个分布：指数分布、β分布和两个γ混合分布。

我们分别对三个分布进行参数估计，然后把选择权留给用户，用户选择按照哪一种分布去进行生成，最终发现生成的数据读长分布，和实际真实分布非常类似。

第二步，对随机产生的DNA读长生成原始电信号序列。为了这件事，我们又提出了新模型—深度典型事件规整（deep canonical time warping）。

它的想法是基于DNA读长和原始电信号，分别加入两个深度学习网络作为特征提取器，提取出来两个特征序列。

如果读长和原始电信号序列是对应的，那这两个提取出来的特征序列就应该最大程度耦合到一起，因此采用典型相关分析值作为损失函数，会逼着我们深度学习框架，学到更好的特征提取。

在模型训练过程中，我们可能需要训练整个网络，但测试阶段只需要使用其中部分，也就是从一个读长生成原始电信号序列。

因为每一个5mer都会平均被测到10次，所以还要对每一个真实5mer重复测量次数进行统计，统计匹配分布，使得数据5mer重复测量次数和真实数据达成一致。

我们分别在4个物种上进行了模拟器训练和测试。

简单给大家展示一下结果，通过这个图里所有对角线之的点，大家可以看到模拟器要远远好于现在市面上现有模拟器。

回到第二个问题，也就是如何更快进行DNA读长和原始电信号序列联配。

大家已经知道，原始电信号序列长度是DNA读长10倍，而DNA读长长度是1万-10万，原始电信号读长就是10万-100万。

尽管有非常多DTW算法变种已经被前人所发现，但所有这些方法都无法处理这么长、尺度相差这么大的两个序列联配。

基于motivation，我们提出了一种新算法—连续小波变换DTW，也就是CWDTW，它整合了三种不同idea，第一分层动态规整，第二粗化动态规整，第三受限动态规整。

在这里我列举一个案例，如果想对两个原始序列进行联配，但两个序列都特别长，没有办法直接联配，就需要通过连续小波变换把信号进行压缩和特征提取。

因为连续小波变换，在原始电信号特征提取层面已经被证明具有很强优势，所以通过连续小波变换，可以让原来序列长度变得非常短。

在短序列维度上，就可以进行最优DTW算法，找到联配路径，而其还可以从粗化连续小波变换维度，找到更细化维度，随后序列就会变长，同时还会把找到的联配路径，投影到更细化的分辨率上。

在投影过程当中，我的联配路径一定不会是最优，但假设联配路径是一个很好的出发点，假设成一个更好联配路径。

在这个路径的邻距范围，假设一个窗口大小，让算法这个窗口范围内找到更好的联配路径。

当然窗口大小也是算法重要参数之一，随着找到更好的联配路径，就可以把它再映射到更高分辨率维度上，随着整个过程的不断循环，就可以获取到最原始的维度。

这张图，比较了该算法和现有DTW算法性能差异，对角线上就是最优解，离对角线越近，说明找出来的联配路径离真实联配路径就越近。

大家看到红点就是FAST DTW，它离真实联配路径非常远，CWDTW基本上都能找到最优联配路径几乎一致的路径。

从时间上来讲一个CPU核上联配一对需要花费时间为0.31秒；而FAST DTW需要136秒，原始DTW需要916秒，也就是说在单核上，CWDTW把原始DTW提速了3000倍，把FAST DTW提速了400倍。

疾病嵌入：从基因数据到疾病表征

刚才介绍了通过AI方法以及高效算法，研发端到端即时DNA测序平台，我们不但要测DNA序列，还要解读DNA序列，以求发现更好的药物靶点。

在这方面，我们也做了很多工作，例如有了DNA序列之后，怎样发现每一个样本突变，怎么把它和疾病建立准确的关系。

为此，我们两年前提出了一个想法—“疾病的嵌入。”通过1.5亿美国人健康保险数据，把人类600多种所有疾病同时投影、嵌入到一个高维连续空间内。

这种嵌入一旦完成，就不需要再把疾病名字当成离散名词来使用，例如糖尿病、肝癌，大家不知道两个病之间关系是什么，更不存在定量关系。

疾病嵌入之后，每一个疾病都变成20维连续空间的一个向量，不但可以谈论疾病之间相似性，还可以谈论疾病之间不同点。

而且过去一个人同时得了多种疾病，也知道如何去表达，通过疾病嵌入只需要把这几种疾病向量相加到一起，或者加权到一起，就可以代表病人的disease tree。

有了疾病嵌入连续表征之后，我们还可以把之前所有跟疾病相关study都重新做一遍，因为不再需要对每一种疾病单独建模，通过对人类600多种疾病进行分析和建模，可以极大提高统计power。

这是我们两年前的工作，证明当疾病嵌入空间向量为特征时候，可以在任何一个地方，例如丹麦、瑞典这种基因组学数据上估算遗传学参数。

此外，我们还从疾病的发病年龄中就发现，不同疾病的发病年龄有很强的模式，基本可以聚成5种不同类型疾病种类。

除了这些，疾病嵌入空间还可以重新做之前的基因组关联，也就是GWAS，同时对人类600种疾病进行基因关联。

我们在英国UK Biobank上，通过疾病嵌入特征空间，跟基因组突变空间进行新关联，就发现了116种非常强的关联信号。

这在之前GWAS研究都没有发现。而这116种强烈关联信号，很有可能作为新疾病药物靶点，同样的想法还可以应用到多模态同时嵌入，就是除了嵌入疾病还可以做药物和疾病关联嵌入。

这样疾病可以作为正则项来影响药物嵌入，反过来药物也可以作为正则项来影响疾病嵌入，不但可以嵌入疾病和药物，还可以嵌入他们之间的关系，更好发现新靶点，以及疾病潜在药物。

深度解码：罕见遗传病的隐性秘密

有了基因组之后，还可以找一些更隐性、更深的致病突变。例如孟德尔疾病就是由某一突变或某一基因突变造成，这是人类了解最多的疾病。

临床上为这类病人 order全外显子或者全基因组测序，最后测序回来report，最终成功率只有25%~50%以内。

对这么简单病因疾病，我们都没有办法进行全面诊断，主要原因在于很多突变都非常深层，是隐性突变，并不直接作用于编码蛋白，或基因组层面，而是转录组层面。

例如，它可能引发某些异常转录本出现，或者正常转录本异常表达量等情况出现，这种信号往往会由于人体NMD机制，变得非常微弱。

因此，如果想从序列测序数据中发现这种异常转录本，或者正常转录本异常表达，就需要敏感度非常高的算法。

我们也研发了一些基于转录本的疾病诊断方法，通过跟沙特临床医生合作，诊断之前悬而未解的罕见遗传疾病。

例如去年我们第一个study就诊断了一个小头侏儒症个体，这个人有脑白质疏松以及智力发育迟缓，最终发现，他在基因区间有一个38bp大小的deletion。

我们第二个study也研究了4个不同family，这4个家族同时具有发育迟缓、小头侏儒症以及面部畸形，在他们SMG8基因当中，发现一个非常deep的致病突变。

除此之外，还有另一种解读基因组方式，通过理解regulatory code（调控代码），由于基因组里有非常多调控元件，即使在编码区域，也有几种最常见的调控机理，从起始出发，由转录起始位点调控；从结尾出发，由多聚腺苷酸加尾，也就是polyA。

如果只盯着最浅显方式，也许有几十个方式，但现在所有方法都没有办法对任意PolyA位点进行同时建模。

所以，我们从去年提出了DeeReCT工具，它结合了CNN和RNN的优点，从而得到自适应模型，对任意PolyA位点进行同时建模，以model这些位点之间竞争性。

我们把目光集中在多聚腺苷酸加尾，还研究了转录起始位点—TSS，研发了第一个基于深度学习的转录起始位点预测程序—Direct PeomID。

该方法与之前所有转录起始位点预测程序相比，除了采用深度学习框架，最大区别就是在比较平衡的正负数据集上的二分类问题。

当把这些训练好模型应用到全基因组扫描时，就会发现他们的假阳性率非常高，甚至高到无法实际使用，而这种循环迭代负样本增强想法，能够非常有效降低全基因组扫描假阳性率。

目前为止，Direct PeomID还是唯一一个可以在全基因组层面预测转录起始位点的工具。除此之外，我们还做了各种后续工具，这些都是沿着调节代码方向来操作。

最后替百图生科打一个广告，百图生科是在李彦宏和刘维带领下的干湿技术结合的造药新势力，干技术就是AI；湿技术就是生物技术。通过形成AI赋能的干湿结合大闭环，希望能够从全新角度为人类药物设计研发，做出一些突破性贡献，我们还希望更多有识之士能够加入。

问答环节

Q1：目前 AI新药研发有没有已经研发出的药物以及应用的案例？

高欣：这里如果把已经研发出来定义为获批上市，据我所知，目前AI研发的新药还没有获批上市的先例。

但已经有非常多AI研发或AI辅助研发药物在各期、不同临床实验当中。

此外，新药和研发这两个词，还有着不同的解读。

第一种解读，是为已知靶点，寻找之前不知道的化合物或药物分子。

第二种，是为已知药找新适应症，也就是老药新用。

第三种，是完全从0开始，设计之前没有的小分子或大分子药物。

事实上，各种不同解读情况当中，AI已经做出非常喜人的成果和进展。

例如从零开始药物设计上，就有非常出名的案例，MIT的James Collins lab就研发了一种从0开始的抗生素药物设计。

这种抗生素，在试验中已经展现出非常好的抗细菌效果，能够杀死一些已知抗生素没有办法清除的细菌。

此外，其它药物也有各种各样例子，国外制药企业和国内AI药物研发企业都有药物在临床实验当中。

Q2：AI药物研发的原始数据获取来源都有哪些？

高欣：这要回归到 AI药物研发根本，这是一个系统性学科，需要涉及到生物医疗的方方面面。

如果大家想从整体、完整角度去做AI药物研发，就需要获取方方面面所有原始数据来源。例如序列、组学、影像学、临床数据、生物技术数据、文本数据、三维结构数据等等，所有数据都会对最后平台成功性做出一定贡献。

Q3：NLP（自然语言处理）对于AI药物研发的用处有哪些？

高欣：NLP是深度学习最成功应用的两大领域之一。所谓AI药物研发，很大程度是指深度学习赋能药物研发。也就是NLP在AI药物研发过程当中占到至关重要的作用。

这里给大家列举两个经典案例：

第一， NLP被大量地用于知识图谱研发。

第二， NLP被大量用于各种各样蛋白质分子或DNA分子模型预训练，这些预训练模型被证明能够非常有效提取生物分子特征，并且服务各种下游。

例如AlphaFold2，应该就是基于某种蛋白质预训练模型，或protein的transformers，所以NLP技术在AI药物研发用处非常大。

Q4：百图生科的研发中是否用到药物研发知识图谱，规模有多大，数据源哪些，质量如何保证及评估。

高欣：这是非常好的问题。药物研发知识图谱取决于靶向疾病、靶向靶点，或者药物搜索空间到底有多大，它会有相应规模，这种知识图谱质量应该如何评估？

首先尽量确保数据和信息准确，一个是数据源是否可靠，再就是数据源手工校准，或者各种各样清洗、预处理是否合理，最后，还要看下游预测结果是否和先验知识吻合。

Q5：药物研发过程中，除了发现新的适应症，如何进行临床疗效评价？

高欣：药物进入临床疗效评价已经是非常后期的任务。

如果这个时候药物被证明副作用较大，或者体内不起效，损失的时间以及代价就非常大，所以在临床疗效评价之前，应该尽量确保药物被很好测试。

这些测试有各种各样方法，有统计学相关、文本挖掘、先验知识印证相关。

最后就是临床前实验，例如在湿实验室进行实验，或者在IPS细胞当中进行实验，或者类器官当中进行实验，或者是动物实验。

无论如何，大家都希望在代价不可挽回的时间点前，将这些药物的问题尽早发现出来并尽早进行挽救。

Q6：AI发现新适应症有几种方法？各自的优缺点是什么？

高欣：这是一种非常泛的问题，AI发现新适应症，就是一个非常大的问题，基本能想到的所有方法都可以被应用这个领域。

例如基于知识图谱方法、基于三维结构方法，基于多组学分析的方法，基于分子动力学模拟的方法，很难准确界定AI发现新适应症有几种方法。

Q7：在算法设计过程中，应如何与药学家进行合作，用先验知识指导算法设计，从而使算法效率更高、结果更加安全科学？

高欣：这是一个非常好的问题，涉及所有交叉领域。不光是与药学家合作，与地质学家合作、生物学家合作、植物学家合作、海洋学家合作、化学家合作等等都将面临这个问题。

这个问题最好要找到互相之间的共同语言、尊重对方专业、认可对方专业、对自己专业重要程度有良好认识合作者，然后与这些合作者进行密切的、闭环式交流与合作，有反馈合作才是成功代表。

如果只是单纯输出给另一方，没有反馈，那么这种合作注定不会成功，也不会安全。

在AI制药中就是指药学家的先验知识到底是什么，并且把他的先验知识给进行结构化，进行政策化。

把他的先验知识很好融合到数学模型和AI模型当中，然后再用预测结果去提供给药学家，让它进行甄别，让他给更下一步反馈意见，进行所谓的强化学习，

往返的闭环，才能使算法效率更高，结果更加安全和科学。

Q8：AI药物研发所用到的外部计算软件哪些是主流？还是自己开发计算软件？

高欣：这同样是个好问题，涉及到很多做生物信息或者计算生物学的人。

大家知道计算生物学和生物信息的科学家们，本身并不开发新计算软件，但他们熟知现有所有软件、包、库。

如果他们拿到新数据和新问题，可以非常熟练把现有方法应用到问题上，然后选择表现性能最好方法。

此外，还有另一类生物信息学家，他们并不满足于这种现有方法，而是希望测试所有现有方法，当现有方法能够很好解决这些问题的时候，他们才不再研发新方法。

否则他们会总结现有方法的优缺点，然后有的放矢地设计和开发自己的计算软件，针对性地解决问题，而且能够overcome这些现有外部计算方法共同约束和限制。

目前，两种不同类型的研发和科研理念，都有非常成功的例子，没有一概而论的答案。

Q9：AI开发的候选药，比传统方法开发临床实验成功率会有多大提升？

高欣：具体有多大提升，取决于具体例子，也是一个case-by-case的答案。

传统方法的改进空间实在太大，传统意义上，药厂开发新药需要15~20年时间，超过20亿美元代价，而失败率超过95%，成功率还在逐年下跌，所以即使把5%成功率提高到10%，也是巨大的进步和飞跃。

对于某些疾病、某些靶点，可能把5%提高到30%，有些则可以把5%提高到10%。无论如何都是一个非常好的进展。

大家随便上网就会发现，国内AI药企，已经可以把新药研发周期缩短到12~18个月，开发费用缩小到百万美元量级，这已经是飞跃式的进展。如果最后临床实验证明安全有效，这些药物可以获批上市将是一个非常好的应用案例。

Q10：目前AI药物研发是否主要基于分子结构？基于基因组数据的Ai药物研发，当前研究进展和未来发展如何？

高欣：首先，基于分子结构，只是非常多元信息当中的一员而已。那么主要基于分子结构的这种药物研发，例如薛定谔，他们可能是主要基于分子结构来进行AI药物研发。

但很多其他公司，完全是基于基因组数据，或者主要基于基因组数据来进行药物研发，例如加拿大DeepGenomics，他们都是基于大规模组学数据，影像数据进行AI药物研发。

Q11：AI药物研发的后续开发路径，后续可能形成的商业化的形式是什么？与big pharma 合作更多的在药物方面深入，还是受到药企的委托去做外包服务的方式? 感觉会往either 是一个药企 or 一个CRO公司方向发展？

高欣：这是和商业计划有关问题，对于集中在某一个局部痛点的AI药物研发公司来说，它们主要商业模式可能是与药企进行密切合作，为药企某一步或整个平台进行赋能。

而百图生科希望的就是和这些AI药物研发公司形成互补，一同做风险更高、未来期待收益更高大规模端到端内部闭环药物开发模式。

这不光是某些AI算法调参或局部优化，更希望有一个端到端的AI工程化和AI智能化研发，同时赋予in house生物技术以及高通量生物数据，形成内部资产闭环。

最后感谢大家提出这些非常有建设性的问题，希望下次还有机会交流。雷锋网(公众号：雷锋网)雷锋网

。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/81840.html