英矽智能首席科学官任峰：18个月找出新药分子的最全细节回顾丨附18个现场问答

如果对AI制药新势力的技术实力进行评比，英矽智能绝对可以称得上其中的佼佼者。

今年2月，英矽智能用18个月、投入仅260万美元，就通过新药靶点发现平台 PandaOmics 和AI分子生成和设计平台Chemistry42平台，研发出特发性肺纤维化（IPF）疾病新靶点。

以及全球首例完全由AI驱动发现的药物分子，一举成为AI制药全球范围内的一个标志性里程碑事件。

对外合作上，英矽智能也相继拿下多个大药企订单，包括默克、辉瑞、勃林格殷格翰、安斯泰来、强生制药子公司杨森制药等。

近日，雷锋网《医健AI掘金志》以“AI制药·下一个现象级赛道”为主题，邀请百图生科、剂泰医药、未知君、望石智慧、英矽智能、星药科技六家先锋企业，举办了一场线上云峰会。

作为此次活动的演讲嘉宾，英矽智能首席科学官、药物研发负责人任峰，就以《人工智能加速新药研发》为题，对英矽智能的AI新药平台做了介绍。

任峰表示，大家看到我们貌似很容易，就利用AI在短时间找出新靶点和药物分子，但18个月研发背后是我们用7年时间对底层技术的默默研发。

在找出肺纤维化（IPF）药物分子之前，英矽智能就根据新药研发周期特点，用大量精力研发了三款人工智能软件“ PandaOmics、Chemistry42和InClinico。”

这三个软件，针对药物研发靶点发现、药物分子筛选和临床试验三个重要周期，可以分别提供：根据组学数据自动寻找新靶点；利用生成式对抗神经网络生成新的分子化合物；为新靶点和新化合物提供临床结果预测，三个重要辅助功能。

这次英矽智能拿出的肺纤维化（IPF）药物分子成果，也正是在三个系统的前后配合之下，才得以快速完成。

以下是演讲全部内容，《医健AI掘金志》做了不改变原意的整理和编辑：

首先感谢线上朋友和各位同仁，一起来讨论人工智能对新药研发的作用，以及AI新药研发的未来前景。

我叫任峰，是Insilico Medicine（英矽智能）首席科学官，于今年2月份加入英矽智能，主要负责公司内部产品管线以及对外合作。

加入英矽智能之前，我在上海美迪西任高级副总裁，负责生物和化学部两个部门业务。

今天我想给大家分享的内容是，用人工智能加速新药研发，也就是AI-accelerated Drug Discovery。

众所周知，新药研发具有费用高、成功率低、耗时长的特点，也即是一高一低一长。

一个新药平均下来，从开始研发到上市，大概需要10~15年时间，花费超过20亿美金；成功率也非常低，从临床一期到临床三期大概10%左右。

这是所有新药研发企业共同面临的困境，突破困境就需要人工智能等其他辅助手段帮忙。

新药研发主要是分成三个部分：

第一靶点发现，包括疾病假设以及靶点发现和验证，以生物学和IRS为主；

第二临床候选化合物确定以及临床前研究，以化学为主；

第三是临床研究。

传统药企里面，这三个部分都是由不同部门完成，或者由不同企业完成。

英矽智能要做的就是通过人工智能技术，把三个方面结合起来。

首先靶点发现方面，我们希望通过组学数据帮助找新靶点，在这里面，通过找到病人和健康人组学数据之间区别，找到新靶点。

同时，我们还会利用Text-based(文献和专利)、Financial scores(包括政府支持的科研经费)，以及Key Opinion Leaders等数据，对靶点进行评估，包括新颖性、成药性和安全性。通过这种方式找到想做的靶点，以及新靶点。

找到靶点之后，通过小分子化合物生成系统来产生新化合物，然后可以把化合物推进至临床研究。

这部分也有人工智能系统来帮助预测临床实验成功和失败，最主要还是优化临床实验方案。

Insilico Medicine也就是通过人工智能把靶点发现，化后生成，临床实验三个方面结合起来。

首先，先用一个案例跟大家分享如何把这三方面结合。

这是我们的特发性肺纤维化项目，是今年2月份对外做了里程碑式进展发布。这个项目成功实现利用AI完成从早期靶点发现，到临床候选化合物发现工作。

特发性肺纤维化长期被定义为一个罕见病，也即是rare disease，虽然是罕见病，但全球病人有71万多人，是非常庞大的病人数量，仅亚洲就有30多万。

这种疾病如果得不到很好的治疗，确诊后平均寿命也就4年左右，非常致命。

针对该病的治疗，目前市场上批准药有两款：吡非尼酮和尼达尼布，这两款药在2019年总销售额在30亿美金左右，是一个非常庞大的市场。

但两款药有一个共同问题，就是安全窗口非常小，用药过程经常伴随严重副作用。

基于这种情况，大概10%~40%病人由于无法耐受这种副作用，以至于半途停药，或者病人耐受剂量范围之内没有药效，所以这是一个未满足的临床需求。

所以在这种情况下，我们希望通过前期靶点发现人工智能和化合物生成平台，来找到全新机制治疗特发性肺纤维化药物。

靶点发现主要是通过组学数据，利用纤维化病人组学数据和健康人组学数据进行对比，找到两者之间显著差异，同时用iPANDA技术，在信号通路上找到能够影响这些信号通路的组学数据，进而找到新靶点。

整个过程我们共发现了20多个靶点，随后对其进行优先级排序，如果靶点是一种激酶或者GPCR，那么它的成药性就会比蛋白-蛋白之间相互作用好很多；

在优先级排序中，主要从靶点安全性和未来价值进行筛选，一方需要看有没有靶点敲除数据，被敲除之后，会不会导致非常严重的毒副作用，另一方面，还需要看靶点晶体结构是不是已经报道出来。

通过这一系列流程之后，我们找到了治疗特发性肺纤维化表现效果最好的一个全新靶点。

找到靶点之后，我们又利用Chemistry42平台（另一款人工智能软件，主要作用是小分子化后生成）来生成和筛选小分子化合物。

通过这个平台大概合成了80种化合物，其中13个化合物活性小于10nM，绝大多数（35个）活性在10~10nM，有15个活性在100~1000nM，还有十多个化合物没有活性。

最终，我们选择出055化合物，它的活性虽并不是最高，但总体最好，我们在其中主要关注成药性和活性。

随后，我们就把055化合物用到小鼠肺纤维化模型上，进行实验验证，结果效果是不错的，可以在低剂量下达到同样的治疗效果。

我们又进一步用肺纤维化病人细胞来进行两个实验，首先是肺纤维化病人细胞体外实验，从纤维化细胞到肌纤维化细胞之间转化，看到化合物比尼达尼布活性高5倍左右。

另外是EMT实验，从上皮细胞到间质细胞转换，活性同样比尼达尼布高十几倍左右。

FMT和EMT这两个过程是特发性肺纤维化发病比较明显的病理特征，最终证明在肺纤维化病人外细胞上，055比尼达尼具有更强活性，这跟前面的动物实验结果互为印证。

14天DRF实验结果也表明，安全窗口大概是尼达尼的60倍左右，现在这个化合物还在做临床研究，估计今年年底或明年初能就能进入临床实验。

总结一下，这个项目总共花了18个月时间，费用是270万美金，传统靶点药物研发一般需要4年半时间，我们只用了一年半，费用也大大降低。

这个案例证明人工智能可以在新药研发，尤其是原创性新药研发工作中可以大大缩短研发时间、降低研发成本，提高研发效率。

我再介绍一下Insilico Medicine，我们现在全球有130多位员工，80多位人工智能科学家；主要强项在靶点发现以及小分子化合物生成；

目前为止，在全球杂志或专利上发表100多篇文章或专利。

像刚才的介绍，大家看到好像很容易就找出新靶点和药物分子，但这背后我们历时7年，在药物研发三个方面，分别开发了三个人工智能软件：

第一、PandaOmics，利用组学数据帮助寻找新靶点；

第二、Chemistry42，利用生成式对抗神经网络来进行深度学习，帮助生成新小分子化合物；

第三、InClinico，进行临床实验结果预测，同时帮助更好设计临床实验方案。

首先介绍第一个方案PandaOmics，它的主要流程，首先是在里面选择感兴趣的数据库，包括TCGA、GEO、ArrayExpress等等。

之后在数据里做一些Correlations，也就是找到关联，发现数据之间区别，它们的差异表达以及功能分析，以此来发现新靶标蛋白，找到新靶点。

第二个方案Chemistry42，这个软件主要帮助生成小分子化合物。主要包括两个模型，一个是 Structure-based(基于结构)，另外一个是ligand-basis(基于配体)。

把想要设计化合物的蛋白（例如晶体结构或者小分子结构等）输到Chemistry42系统里，大概需要2~3天时间，就可以产生针对这些蛋白的小分子化合物，数量大概是几百个到几千个之间，然后通过virtual screening排序，挑选效果好的进行合成。

所以，Chemistry42系统最大特点就是能针对所给出的靶点，从无到有产生小分子化合物库，而且命中率非常高。

基于这些AI制药工具，我们不仅自己内部开发管线，同时也将AI作为工具和药企或科研院校合作，帮助他们进行新药研发，例如Pfizer、Janssen、Merck等，大体可分为六点：

第一，帮助寻找新靶点，主要使用PandaOmics的能力。

第二，用PandaOmics帮助做再利用，例如根据已知靶点，找到最好的indication;

第三，用Chemistry42做Fast follow（快速跟随），也就是破专利项目，这其实非常容易；

第四，用Chemistry42帮助产生和选择化合物，例如激酶选择性，或者针对特殊突变，来对抗resistance靶点，这有可能成为best-in-class（同类最优）或first-in-class（同类第一）的项目;

第五，Chemistry42还可以针对全新靶点，从无到有生成hits（具有活性的药品分子），同时也可以针对undruggable（无成药性）或challenging target的目标，来生成hits；

第六，通过人工智能系统帮助更好设计PROTAC分子；

演讲最后我分享一下人工智能对 Farce Follow Program的影响。

这是2018年到2019年我们做的一个项目，靶点是DDR1的kinase(激酶)靶点，是一个全新结构骨架化合物。

拿到这个任务之后，我们首先建数据库，用了7天时间找到跟靶点相关或无关的kinase数据库。

然后针对这些数据库，用12天时间进行深度学习，对模型建模和深度学习，产生3万个左右化合物。

又用两天时间对这些化合物进行排序，最后缩小40个化合物范围，然后从里面选择6个化合物进行合成，其中有两个活性在10-100nM之间，两个活性在100-1000nM之间，另外两个没有活性。

最终选出了最好化合物1，这是一个全新骨架，我们把它拿去做DMPK，最终证明其具有很好的PK性质。

从拿到靶点，到找到最合适化合物，完成合成测试，我们这个试验性项目总共用了46天时间，结果发表在2019年Nature Biotechnology上，进一步证明人工智能可以大大缩减研发周期。

而且，我们也一致认为人工智能需要跟整个药物研发团队结合起来才能更有效找到化合物。

在线问答

Q1：靶点发现的AI贡献是什么？

任峰：在靶点发现阶段，AI主要贡献首先是缩短研究时间，用组学数据比较正常人和病人之间差异，帮助找到新靶点，同时分析这些差异组学在不同信号通路的影响，相较于传统方式这大大缩短了时间。

另外我们在药筛选中还引入了时间机器学习模型。

这个模型建好之后，可以用2010年之前组学数据发现或寻找针对某些疾病领域的靶点，因为这些靶点在十年间就已经被临床验证，系统可以寻找到靶点通过与现实结果比对，来验证系统结果真实可靠性，并把这些验证结果再反馈给Panda Omics系统，进行下一轮机械学习。

经过几轮学习过程之后，就可以让它用2010年到2020年之间预测靶点验证算法，增加系统靶点预测准确率。

Q2：你们与传统利用生物信息学分析多组学数据+文献挖掘相比特别之处在哪里？

任峰：特别之处就是用了一个时间机器学习模型，有training过程，传统方式没有training过程，这可能是它们之间最大区别。

Q3：找出靶点是针对IPF的新靶点，还是完全没人做过靶点（针对所有适应症）？

任峰：我们找到的靶点是针对IPF的新靶点，是包括临床和临床前都没有人做过的。

这个靶点，我们不能说没有任何人做，做的人非常少，全球目前只有一家小公司在做这样一个靶点，他们针对的是另外一种适应症，现在还没有应用在临床。

Q4：请教AI公司和CDMO公司是如何合作的？

任峰：目前很多算法或重点都不是和CDMO公司合作，主要还是集中于前期Drug Discover阶段，对Development没有特别涉及。

可能有的AI公司设计化合物合成路线，或者针对工厂自动化可以跟CDMO公司进行深入合作。

Q5：请问有比较好加速binding affinity预测的方法吗？

任峰：Chemistry42系统，并不能告诉哪些化合物binding affinity比另一些化合物要好，只能帮助产生一些小分子化合物可能binding在蛋白上。

我们也是用像薛定谔binding affinity预测或者优先级排序方式，目前据我所知，用薛定谔预测binding affinity应该已经是比较好的。

Q6：AI用于药物研发的商业化前景如何呢？例如几年前很多企业做肺小结节的AI诊断，竞争堪称红海，而医院付费意愿不强烈。对比当下，现在做AI制药的公司也非常多，是否会出现类似的结果：很多AI公司希望与大药企合作/license-out，大药企付费意愿并不强烈？

任峰：用AI来做药物研发商业化前景非常广阔，而且大药企是愿意付钱的，原因基于以下两点：

第一、大药企面临共同问题，研发效率低、研发成本高、研发周期长、失败率高这样的问题，药企希望能有颠覆性技术来改变现状；

第二、人工智能目前经过一些实例，已经证明确实对解决新药研发的问题，可以提供颠覆性解决方案能力。

所以基于这两点来说，大药企是愿意付钱的。而且最近就有一篇报道，有药企与AI公司签订开发药物协议，总金额达12亿美金左右，同时首付金额也非常高，达到几千万美金，这也证明大药企愿意把这些钱投入到AI辅助药物研发上。

Q7：AI制药公司的数据从哪里得来呢？

任峰：目前的AI公司大多是小公司，这些公司绝大多数都是基于公开数据。

接下里，AI公司的竞争则就靠从这个published数据发展而来的私有数据，所以现在有实力的AI公司都在建立自己的数据采集系统。

Q8：AI药物研发公司建立了自研管线，和潜在合作药企可能存在利益冲突，这块是否有什么考虑？

任峰：每一家AI公司都是两条腿走路，一个是有自研管线，另一方面是跟一些药企合作，共同开发一些项目。

因为自研管线是通过自己的项目来验证或优化人工智能平台，所以并没有利益冲突。而其这些合作很多都是具有排他性的，自研管线和其他药企合作是有排它性，不同药企之间合作也有排它性。

Q9：AI新药挖掘从苗头到PCC的各个点的化合物数据库是哪里来的？

任峰：这需要分成两个情况：

第一，如果是针对 Fast follow（快跟），那么数据采集都是从文献和专利上扒下来进行深度学习，对系统进行培训得来；

第二，如果是全新靶点，就像我们的IPF，就不需要已知数据，针对靶点的数据，人工智能系统可以通过其他项目的蛋白和小分子结合案例培训，然后它就可以自己设计某个蛋白，不需要针对靶点进行培训。

Q10：分子生成库是否基于已有活性化合物结构，有哪些规则？

任峰：我们的Chemistry42分子生成库不是针对某一个或某一类靶点，而是针对所有的。

根据人工智能系统，利用已知小分子和蛋白结合结合形状和样式进行培训，让小分子（或片段）能识别蛋白里一些结合口袋。

把这些片段识别出来之后，再通过算法，把这些片段慢慢结合成真正的小分子化合物，这是它的主要逻辑。

Q11：想请问AI企业与研发组织合作，对研发组织自身的数据有没有什么要求？例如数据格式、数据类型、数据质量。

任峰：这个是有要求的，AI企业跟研发组织合作，如果他们想根据自己数据用AI企业人工智能系统，寻找靶点或发现化合物，就需要按照我们要求的格式录入到系统当中去。

而且，我们对数据组的质量要求也非常高，因为高质量数据才能产生高质量结果。

数据类型可能每个公司系统都不太一样，例如我们的PandaOmics，就需要有组学数据，尤其是人组学数据，这样才更适合找新靶点。

Q12：据我了解，数据库来自文献，那数据可靠度怎么解决的，而且不同方法测得数值不一样？

任峰：这是非常好的问题，也是可能所有人工智能公司所面临的问题。

每个公司策略可能不同，例如我们的PandaOmics主要是用组学数据，而且组学数据是细分的，最好是在同一个实验室里产生的祖学数据。

我们不会把所有组学数据累计在一起找新靶点，这样就可以避免实验方法不一致造成的困惑。

另外对于化合物，我们Chemistry42生成的小分子，它主要是基于晶体结构，所以晶体结构数据基本上都是比较可靠的，此外我们也会挑比较好的晶体结构来给系统进行training。

Q13：国内外药企的情况也不一样，国内做fast-follow、me-too、me-better的可能比较多，可以介绍Insilico在中国的商业化情况吗？

任峰：Insilico今年才开始在中国商业化，以前在中国没有团队，知名度也比较低。

我们从今年开始在中国做一些商业化合作，国内确实做 fast-follow、me-too比较多，我们的Chemistry42，针对fast-follow也有非常好的经验，它可以小分子化合物选项里，选择跟已知某一个小分子化合物结构similarity，如果similarity做达到80-90%，

它产生的小分子化合物就跟设定的小分子化合物结构非常类似，同时它有自己的专利空间。所以我们的Chemistry42对于fast-follow是非常高效的，目前也有几个例子可以证明。

Q14：我想问下如果设计的分子是真正全新的母核、侧链，是否会因为与数据库所有分子指纹匹配度不高导致预测准确性会下降？

任峰：这是正常的。我们的Chemistry42里面可以选择跟已知母核similarity很高的结果，例如80-90%；同时也可以选择similarity非常低，例如30-40%。这样涉及到的分子结构是完全不一样。

从理论上来讲，越相似分子活性可能性越大，而且保持好性质的可能性就越大，反之，活性就会低一些，而且有可能完全改变其他性质，

但这些分子会因为是全新组合，跟已知化合物相似度非常小，那么它的专利空间就非常大，所以就需要做一个平衡。

Q15：大分子药物方面有什么AI的策略或者案例吗？

任峰：我们Insilicon Medicine目前不涉及大分子，但我们认为人工智能系统在大分子领域将有非常好的应用前景。

由于我们团队没有大分子方面人才，所以目前不知道大分子设计的痛点，我们也没有大分子业务。

Q16：如果靶点蛋白没有复合物怎么办，如何预测呢？用同源蛋白建模是好的解决方法吗？

任峰：是的，如果靶点蛋白没有复合物，我们的方式就是去找同源性比较高的蛋白，来代替靶向蛋白，放到Chemistry42里面，这样也可以产生相应小分子化合物。

Q17：临床数据来源于医院吗？

任峰：是的，临床数据最初肯定来源医院，但也有一些公开临床数据，经过我们整理之后放到系统里；

同时我们以前也跟一些其他国家，例如和英国政府合作做临床数据分析，所以也有一些自有数据。

Q18：三个平台对外开放吗？如何收费？

任峰：我们只有PandaOmics对外开放，它是通过组学数据帮助找新靶点，我们已经将其部署在云端。

其他两个还没有完成这样部署，所以暂时还不能开放，我们今年有可能会把Chemistry42也部署到云端。

目前PandaOmics是收取一定的授权费。

再次感谢今天来参加线上会议，然后非常高兴有这么多志同道合的朋友对AI感兴趣，AI以后会有可能发展成一种颠覆性技术来帮助新药研发。我们也坚持相信AI只有跟新药研发团队结合在一起，才能实现最大价值。雷锋网雷锋网(公众号：雷锋网)

。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/82023.html

英矽智能首席科学官任峰：18个月找出新药分子的最全细节回顾丨附18个现场问答

在线问答

相关推荐

发表回复