【原】Drug Discov Today｜人工智能用于发现针对新发传染病的新型抗生素

智药邦 2021-12-11

展开全文

2021年11月5日，来自路易斯安那州立大学的Adam Bess和不列颠哥伦比亚大学的Kishor M.Wasancd等人在Drug Discovery Today合作发表综述“人工智能用于发现针对新发传染病的新型抗生素”。

以下是该综述内容。

摘要

寻找治疗新老疾病的有效药物是一项艰巨的任务，需要大量的资金、资源和时间投入。冠状病毒（COVID-19）痛苦地提醒人们，缺乏新的抗生素来治疗新出现的传染病。人工智能 (AI) 和其他计算机技术可以推动更有效、更经济的药物发现方法（推动具有更好临床耐受性的潜在候选药物的发现）。一些研究团队已经开发了成功的AI平台，用于hit识别、先导化合物生成和优化。在这篇综述中，我们研究了引领药物发现和制药科学领域人工智能革命的前沿技术。

AI在人类努力的几个领域已经发生了变革

在过去的15年中，人工智能及其应用取得了指数级的进展。基于AI的对话助手现在正在为消费者设备提供动力，例如亚马逊的Alexa；自动驾驶汽车已经在美国道路上行驶了数十万英里；AI在围棋、国际象棋和其它游戏中击败了世界冠军；基于AI的系统正在协助医生进行医疗诊断和治疗；AI正在应用于学习横跨美国大陆的卫星图像；人工智能和沉浸式虚拟现实的结合正在帮助建筑工程师设计节能建筑。总而言之，人工智能正在影响人类生活的方方面面，从交通到股票交易。然而，到目前为止，人工智能对药物发现和开发的影响微乎其微。

AI目前对药物发现影响有限

虽然人工智能在制药科学中的应用前景广阔是不可否认的，但目前对药物发现的影响有限，这可归因于多种因素。

缺乏标准化的标记基准数据集一直是人工智能驱动药物发现的主要障碍之一。最近的人工智能革命是由廉价计算能力和大量可用数据推动的，这些数据可以通过互联网轻松共享。例如，通过创建基准ImageNet数据集，大大加快了计算机视觉的进步。尽管有一些尝试（如DrugBank，BindingDB，KEGG，Supertarget，DUD-E等），但在医药科学领域还没有建立像ImageNet这样全面的基准标记数据集。

缺乏标准化数据集意味着很难遵循现有的迁移学习策略（在这些策略中，可以对在标准数据集上预训练的模型进行微调以应对新任务）。因此，很难将用于发现一种疾病药物的训练模型应用到另一种疾病的药物发现中。为了让人工智能在药物发现中产生影响，人们需要开发适用于不同疾病的一系列任务的一般技术和模式。

此外，虽然深度学习在正在进行的人工智能革命中发挥了核心作用，但基于这种技术开发的模型因其不透明性而“声名狼藉”。

深度神经网络本质上表现得像黑匣子并且不提供对其潜在决策过程的任何见解。这也使它们在药物发现中的应用变得繁重。当一种药物被神经网络标记为对疾病有效时，人们需要了解其作用机制，比如药物与宿主-蛋白质网络的相互作用、相互作用是否具有抑制性、药代动力学、剂量-反应曲线、任何相关的细胞毒性，以及与网络决策相关的认识和任意不确定性等。脱靶不仅会导致体外和体内测试失败，而且在随后的临床试验中也会产生不必要的成本，更不用说声誉的损失。

当前的疫情正在推动AI在药物发现中的应用

尽管以上讨论了人工智能在药物发现中的适用性前景黯淡，但似乎仍有希望。当前的COVID-19疫情已成为使用AI加速临床前药物发现的主要驱动力。

目前，瑞德西韦等少数药物已被美国食品药品监督管理局（FDA）批准用于治疗严重急性呼吸系统综合症冠状病毒2（SARS-COV-2）感染的超适应症。这些拟议的大多数治疗方法，都是通过世界各地的医生和研究人员对该病毒的试错经验发现的。

有据可查的是，制药公司在3年内对新药化合物的内部临床前发现成本平均为209,522,157美元（根据通货膨胀进行调整）（开发的所有药物中只有∼12%最终获得FDA批准，而失败的尝试显著增加了临床前药物发现的平均成本和时间要求）。这些费用不包括大学层面的基础研究费用，这些研究侧重于分子靶标的鉴定以及研究方法和技术的发展。

药物开发的效率(定义为在可接受的金融投资率内成功批准新药)已经显著下降。药物开发的现有过程是缓慢、低效和昂贵的。hit识别、先导化合物生成和优化是任何药物发现过程开始时的关键步骤。最初，通过高通量筛选鉴定出具有希望活性的化合物作为初始hit被过滤和修饰，以产生满足基本药物相似性的先导化合物。这些先导化合物经过进一步优化，以增强其对目标蛋白质或机制的效力，并减少非选择性和毒性。传统的hit识别成本高昂，需要耗时的筛选实验。

在当前疫情的情况下，世界负担不起如此低效的管线。我们需要的是一种有原则的药物发现和再利用方法，可以快速解决大型数据集的问题。因此，这种能力将创造一种改进的方法，用于识别可能成功的药物和/或药物组合。

抗菌药物发现的现状

最近，发现新药化合物以及通过审批流程开发新药所花费的时间和成本是如此之大，以致于制药业持续表现出对将将新药推向市场的兴趣下降。在利润较低的细分市场例如传染病中最为明显。在过去的20年中，制药行业将传染病和抗菌药物的发现和开发置于次要地位。

COVID-19疫情痛苦地提醒人们，缺乏针对新发传染病治疗方法的基础设施。疫情一直是全球性的清算，凸显了抗病毒和抗菌药物研究对未来疫情的重要性。在近代史上，传染病领域一直缺乏热情和缺乏增长。

举个例子，对于细菌感染，过去几十年中推向市场的每一种新抗生素都只是与1984年之前发现的现有药物略有不同。Top50的制药公司中只有一家有抗生素临床开发管线，目前开发抗生素的公司中近75%在市场上没有获批的产品。市场分析表明，到2025年，这些疾病的耐药性将显著增长，而在不久的将来，新的药物策略很少。

AI新技术的兴起及其在药物发现中的应用

人工智能全新技术，如图神经网络、图嵌入、几何深度学习、注意力网络、自我监督和无监督学习、蒙特卡罗图搜索、用于蛋白质折叠的神经网络、可解释的人工智能和生成对抗网络（GAN）的发展，激发了人们重新燃起对应用它们来加速药物发现的兴趣。这些技术有望减轻上一代AI的上述缺点。它们允许通过利用宿主细胞中蛋白质之间所有相互作用的数学表示来开发有效的药物发现管线。

使用这样的模型，我们可以准确地预测特定的微生物机制是否会被某种药物抑制。例如，在发现抗病毒药物时，了解药物对病毒机制（如病毒进入、RNA转录和病毒退出）的影响对于预测涉及该药物疗法的有效性至关重要。一些数据库（例如 HU.MAP，HPIDB，和STRING）提供人与人之间以及人与病毒之间的蛋白质相互作用，这些相互作用可以通过上述技术加以利用。这些相互作用可用于解释为什么特定药物化合物在化合物靶向的蛋白质和随后的蛋白质- 蛋白质相互作用级联方面对疾病有效。

例如，图神经网络可以以图结构和每个节点的特征描述作为输入，为人体细胞的蛋白质-蛋白质相互作用建模。该网络在输入和基础真实数据的图结构上进行学习和操作。每个蛋白质在图中表示为一个节点，并且每个节点的邻域是从蛋白质结构中的相邻节点集分配的。

化学节点可以对应于Drugbank中的现有药物，图的边表示蛋白质相互作用。每个蛋白质节点也可以具有从其氨基序列和结构计算出的特征，而边具有描述残基之间实验衍生的相互作用的权重。这样的网络将主要包含细胞内蛋白质之间所有物理接触的数学表示（图1）。

图1 蛋白质-蛋白质和蛋白质-化学图的可视化。蓝点代表蛋白质节点，绿点代表化学节点，灰点代表病毒蛋白质，线条代表图中的边（蛋白质-蛋白质或化学-蛋白质相互作用）。

这种图神经网络的输出将是图中每个节点的节点嵌入。节点嵌入表征节点的上下文与图中其它节点的交互。图2使用t-SNE在2D中可视化了这种图的嵌入。图2中的红色簇显示了药物是如何聚类的，而蓝色簇显示了蛋白质的聚类。蓝色簇与红色簇的重叠表示药物-蛋白质相互作用。

图2 使用 tSNE 在二维空间中可视化节点嵌入。红色簇表示药物是如何聚集的，而蓝色簇显示蛋白质的聚类。蓝色簇与红色簇的重叠表示药物 - 蛋白质相互作用。

DeepDrug团队（见下文）开发了这样的节点嵌入，可以输入到Siamese网络中。Siamese网络将嵌入投影到多维空间中，并计算该维度内它们之间的距离。预测越接近于零，一对嵌入之间的相互作用越高。这样的Siamese网络将采用一对药物-蛋白质节点的嵌入作为输入。该网络将输出一个距离度量，体现药物对靶蛋白的影响以及涉及它们的病毒机制。

使用该网络，营养保健品左旋美诺（一种洋甘菊提取物）被预测为靶向转录3（STAT3）的信号传感器和激活子。文献表明抑制STAT3可以帮助调节细胞因子风暴，这些细胞因子风暴可能导致COVID-19感染期间的急性呼吸窘迫综合征（ARDS）。可以使用贝叶斯Siamese 网络从高斯分布抽样的权重，以进一步为其预测提供不确定性估计。几何深度学习技术还可以推广这种图神经网络，并有效地提取化学特征的表示。

由此产生的权重及其不确定性估计值可用于确定药物的优先级，并通过考虑使用多重处理优化算法，获取其各自的毒性和可合成性来筛选候选药物。这种多标准优化算法可以：（i）根据从Siamese 网络获得的权重/不确定性估计值对所有FDA批准的药物进行排名；（ii）解决一个优化问题，该问题将筛选出具有最高权重/确定性，最低毒性评分和最高可合成性评分的药物。

人工智能的另一个可以显著影响药物发现的重要进步，是可解释的人工智能（explainable AI，XAI）。置信度感知网络帮助揭开了深度神经网络不透明决策过程的面纱。现在人们有可能理解认识论和回避论的不确定性（与深层神经网络决策相关的）。

确实如此，当一个具有置信度感知的神经网络预测一种药物对某种特定疾病有效时，它也将提供其自身对其预测的置信度的度量。高置信度预测可以继续进行体外验证，而低置信度预测可以去掉。

迁移学习在药物发现中也有了良好的进展。领域自适应（Domain adaptation，迁移学习中的一种代表性方法）现在允许重复训练用于预测针对一种疾病的药物模型，以推荐用于另一种疾病的药物。迁移学习与小样本学习（low-shot）技术一起缓解了对模型训练中大量标记数据集的需要。目前，预测毒性或药物间相互作用（DDI）等任务需要大量标记的训练数据。在制药领域获取此类数据是困难的，因为标注需要领域知识。这明显阻碍了药物发现基本工具的开发。现代无监督和自我监督学习技术可以通过利用大量可用的未标记数据来缓解问题。

将AI应用于药物发现的新努力

如上所述，人工智能的惊人进步激发了人们对使用人工智能加速临床前药物发现的新兴趣。几个团队一直在与人工智能平台合作，重新利用现有药物并重新设计新药，以寻找救命药物。在这里，我们重点介绍具有最先进的机器学习和AI技术的平台，这些平台正在引领药物发现的新方法。最近，Bender和Cortés-Ciriano发表了一篇论文，讨论了人工智能是否对迄今为止这种方法的药物发现和局限性产生了影响。在这里，我们解决了这些作者提出的问题，并简要介绍了每个团队的实施，战略和成功。这些方法中的每一种都可以在药物发现中引起理论和实际应用。

BenevolentAI

BenevolentAI团队正在研究一种药物发现方法，该方法涉及使用生物学知识图谱来确定新的治疗方法。他们使用一种称为自然语言处理（NLP）的AI技术，从科学文献中提取了知识图谱，以确定以前未知的相关性。由此产生的图代表了一个相互关联的概念网络，通过链接语义元数据将科学数据置于上下文中。该框架允许BenevolentAI团队整合以前未连接的研究，以确定可能成为药物开发目标的联系。

该网络发现巴瑞替尼（一种批准用于治疗类风湿性关节炎的药物）可以重新利用，作为COVID-19的疗法，通过抑制适应剂相关蛋白激酶1（AAK1）来缓解细胞因子风暴。通过利用这一知识库，该团队在2020年2月之前完成了这项分析，而这距离美国报告了第一例COVID-19病例仅几周。到同年11月，BenevolentAI和Eli Lilly已经完成了临床试验，并作为COVID-19的治疗方法，获得了FDA的紧急使用授权。

BenevolentAI还有一个子项目，分析和比较3D结合位点，其中蛋白质袋和配体的正负结合对都用于训练蛋白质袋匹配网络。通过编码结合位点的3D形状，BenevolentAI的网络能够了解蛋白质-口袋表示的哪些特征预测结合亲和力，并且可以筛选许多口袋以识别新的药物靶标。这种机器学习方法称为"远程度量学习领域"，并使BenevolentAI团队能够预测以前未知的DTI结果。

Atomwise

另一个新兴平台是Atomwise，它使用一种称为卷积神经网络（CNN）的AI技术来分析生物活性，以预测小分子的结合亲和力。CNN 是一类主要用于理解影像的神经网络。使用CNN对小分子进行分子形状分析可以预测不同分子与蛋白质结构的测量结合亲和力。这使得Atomwise能够预测小分子的生物活性和药理学，用于药物发现。

Atomwise网络应用特征位置和分层组成来模拟药理活性和化学相互作用。他们的网络在有用（对接）诱饵增强数据库（DUD-E）方面显示出有希望的结果，在DUD-E中57.8%的对接目标上实现了大于0.9的曲线下面积（AUC）。Atomwise使用这项技术筛选了数百万个针对已知SARS-CoV-2蛋白的分子，以探索用于治疗COVID-19和其它冠状病毒感染的广谱疗法。

Insilico Medicine

Insilico Medicine团队提出了一种基于生成对抗网络（GAN）的独特方法，用于合成针对个体疾病的新药。GAN通过发现输入数据中的模式来发挥作用，模型可以从中生成可能从原始数据集中合理绘制的新样本。Insilico Medicine的GAN网络通过迭代生成分子来合成新化合物；同时分析某些分子参数，如生物活性和合成可行性。然后，系统对其设置参数进行优化，并生成新分子，直到达到局部最大值。这样的网络可以产生针对药理学靶标具有某些性质或活性的分子，使该网络可用于初始发现。然而，只有少数衍生药物设计的例子在体外或体内实验中得到了验证。

Insilico Medicine最初将工作重点放在产生靶向SARS-CoV-2主蛋白酶的化学表型上。到2020年2月4日，Insilico Medicine发布了他们的第一个潜在的从头蛋白酶抑制剂。Insilico医学团队最近发表了十种具有代表性的蛋白酶抑制剂结构，用于针对COVID-19的潜在治疗。即便如此，使用GAN的最大复杂性在于网络本身的性质。这种GAN的任何输出都是在"黑匣子"系统中得出的，使研究人员对基础分析几乎没有解释或理解。鉴于数据中识别的模式和规律只有人工智能系统知道，因此需要广泛的实验室测试来确认该技术的任何发现。

ComboNet

布罗德研究所（美国马萨诸塞州剑桥市）的ComboNet团队利用DTI来确定针对SARS-CoV-2的协同组合。ComboNet系统从所分析化合物的分子结构中预测DTI。ComboNet架构包括两个主要组件：一个图卷积网络（GCN），它被训练成代表化合物的分子结构，以及一个靶向疾病关联的模型。

使用这种方法的优点是能够从具有不完整DTI信息的化合物中进行预测。第二个模型学习生物靶标和分子结构特征如何相互作用以呈现抗病毒活性和协同作用。该团队使用了来自NIH针对SARS-CoV-2的NCATS细胞病变效应测定以及SARS-CoV-2药物组合测定的训练数据，并使用BLISS模型对协同作用进行了评分。

DeepDrug

DeepDrug团队是IBM Watson Artificial Intelligence XPRIZE竞赛的半决赛选手，他们创建了一个基于AI的高效平台，用于设计新化合物并重新利用现有药物治疗新发传染病。DeepDrug能够使用束搜索技术自动合成靶向药物分子，以及根据化学标准（例如，Lipinski的五法则）和潜在的不利影响筛选候选药物。这使得该团队能够预测最有可能在患者群体中取得成功的候选药物。

DeepDrug本质上是模块化的，目前包括eMolFrag、eSynth、eToxPred、 eDrugRes、eVir和其它几种基于AI的过滤器。给定一组分子，eMolFrag会产生一组独特的片段和药效团，作为"构建块"。

图3显示了eMolFrag从已知药物中识别生物活性片段的能力。eSynth使用波束搜索技术将这些分子片段从头组合成新的分子。它在几分钟内组装数百万个分子，同时记录用于构建每个分子的相关化学反应。对于化学反应的追踪可用于在湿实验室环境中合成任何这些分子。然后可以进一步筛选这些分子的毒性、特异性和可合成性。

图3 无毒和有毒化合物的组合物。散点图显示了来自美国FDA批准的（无毒）和TOXNET（有毒）分子的eMolFrag提取的化学片段的频率。黑色虚线是回归线，灰色区域表示相应的置信区间。FDA批准的三种常见片段（哌啶、哌嗪和氟苯基）的示例为绿色，而来自 TOXNET 数据集的更常见的毒性片段（氯苯基、正丁基和乙酸）的片段为红色。

使用其中两个模块，DeepDrug团队从通过分解四个腺苷受体拮抗剂获得的成分中合成了腺苷受体。腺苷受体拮抗剂在炎症、疼痛和免疫反应中具有重要作用，使其成为药物治疗的有吸引力的靶标。

DeepDrug的第三个模块（eToxPred）用于评估小分子的毒性和可合成性。毒性评估是整个DeepDrug管道的关键组成部分，可以快速主动地过滤掉具有不良反应的化合物。与使用手动制作的描述符的其它方法相比，eToxPred使用化合物的分子指纹直接模拟毒性，使其对高度多样化的数据集更有效。

图4显示了eToxPred使用机器学习技术根据结构特性过滤候选药物分子的潜在毒性。输出的eToxPred值是介于0和1之间的毒性评分，零表示毒性最小，1表示毒性的可能性很高。FDA批准的药物毒性评分中位数最低，为0.34，而DUD-E数据集中活性化合物的毒性略高，中位毒素评分为0.46。天然产物和传统草药数据集中的分子都显示出更高的毒性评分，中位毒素评分为∼0.55。这些结果得到了其它研究潜在有毒成分的验证。

图4 用eMolFrag碎片化、来自有用（对接）诱饵增强型（DUD-E）数据库的生物活性化合物。eMolfrag能够平均每个分子产生六个片段。eSynth使用光束搜索技术，通过以化学综合方式组合eMolFrag生成的构建块来创建新的药物分子。通过使用eMolFrag生成的片段，eSynth可以重建78.3%的活性化合物，Tanimoto系数（TC）为1.0，88.4%的TC≥0.8。

eDrugRes的创建是为了通过探索微生物蛋白质-蛋白质相互作用网络中的药物效应和突变来鉴定针对抗生素耐药细菌的有效化学物质。该系统使用GCN来预测特定的化合物是否对某些细菌菌株具有治疗活性。

最近，DeepDrug 中增加了几个新模块。第一种是eVir，它可以确定药物的病毒特异性，目的是重新利用现有药物。它使用AI技术生成药物和已知抗病毒肽（AVPs）的指纹。在所有细胞蛋白质相互作用的数学表示中捕获它们的属性和上下文。

通过在数据上下文中比较这些指纹，系统为病毒感染的三种机制（例如，进入、融合和复制）提供了单独的预测，从而在药物选择中提供了更高程度的特异性。这使得eVir能够根据特定的相关机制和蛋白质相互作用来解释其预测。

DeepDrug团队已经使用eVir鉴定了多种药物和药物疗法，这些药物和药物疗法对SARS-CoV-2的疗效很高。这些疗法在体外研究（Vero E682和Calu-3细胞）以及使用转基因小鼠的体内研究中都证明了其对SARS-CoV-2感染的有效性。最后，DeepDrug AI平台可以预测药物组合中的DDI，以及特定药物组合疗法与最新模块eComb的协同作用。

技术比较

药物发现与具有多个方面的复杂工作流程相关联。上述创新团队（表1）各自致力于与药物发现相关的特定领域。根据其特定的用例，团队使用不同的技术，每种技术都有自己的优点和缺点。

表1 新兴AI团队及其各自技术的比较

例如，Insilico Medicine团队使用GAN，其基本分析很难解释。然而，当应用于COVID-19的背景下时，研究小组确定了十种蛋白酶体抑制剂，这些抑制剂目前正在全球几个研究小组的实验室中进行测试。

与Insilico Medicine不同，Atomwise的系统只能重新利用已知的分子。然而，他们的方法需要大量的实验和结构数据。

相比之下，BenevolentAI利用了大量的数据集和先前开发的知识图谱，成为第一个确定细胞因子风暴可能抑制剂——baricitinib的团队。BenevolentAI系统的缺点是，它仅基于现有文献语料库的自然语言处理来发现已知分子的能力有限。BenevolentAI还具有仍处于早期测试阶段的蛋白质结合预测网络。

ComboNet旨在通过使用GCN模拟化合物和生物靶标结构特征来预测药物协同作用。该技术的优点是能够预测实验数据不完整的化合物的DTI，缺点是结构训练集对一些关键的病毒性SARS-CoV-2蛋白具有高特异性，而药物组合则基于先前测试过药物（如瑞德西韦）的旧整理数据。目前还不清楚这样的训练集是否能够准确预测训练集以外的化合物（需要在一个不相干的测试集上进行广泛的测试）。不幸的是，ComboNet只在体外测试了他们预测的针对SARS-CoV-2与Vero E6细胞的联合疗法。

最后，DeepDrug能够从头合成新分子或重新利用药物，同时预测其人类毒性，合成难度和靶标特异性的可能性。

总体而言，药物发现中的AI是一个非常强大但刚刚起步的工具。公司和团队设计的系统只能熟练地处理特定类型的分析。由于每个团队各自的数据集都是经过精心汇总和单独整理的，因此他们的参考框架可能只在狭窄的领域有用。

此外，此类数据被认为是专有的，并且通常在团队中受保护。例如，现有 AI 管道提供的建议没有考虑患者的既往状况。这种全局上下文信息可以以去标识化患者电子健康记录的形式提供。获得这样的数据将允许提供更多对环境敏感的建议，这在临床环境中是有价值的。

总体而言，这些新兴的人工智能工具可以用来朝着最终目标前进：快速确定传染病的治疗方法。虽然某些类型的分析，如药物组合协同作用、预期剂量和药物不良反应也很重要，但这些方面的预测算法尚未得到广泛开发。从毒理学到DDI，再到药物蛋白特异性，科学家们正试图在药物发现的各个方面完善这些预测系统。从长远来看，这些技术是迈向全面管线的第一步，这样的管线能够快速识别关键药物，以对抗任何新出现的传染病，而时间和成本只是其中的一小部分。

结语和展望

目前的药物开发过程缓慢，效率低下且成本高昂。与传统方法相比，迫切需要开发新的平台和方法来快速抗击疾病。人工智能在其它领域的应用正在大幅提高平台效率，完善目标结果，并改变劳动密集型流程。这种效率是打破当前制药行业停滞的关键。

大型制药公司对新病原体的反应不够，给全球医疗保健系统带来了负担，并最终导致生命受到危害。大规模的数据预测（Data projection）、挖掘和分析将帮助科学家和药理学家通过交叉分析数百万种化学组合来识别最有效的化合物。本文中描述的所有AI平台都在将尖端技术应用于各自复杂的药理学挑战。这些用于药物发现和开发的新方法是颠覆制药行业变革性的第一步。我们需要在当前COVID-19疫情的动荡中接受这些新技术和战略。

参考资料

Adam Bess, Frej Berglind, Supratik Mukhopadhyay, Michal Brylinski, Nicholas Griggs, Tiffany Cho, Chris Galliano, Kishor M. Wasan, Artificial intelligence for the discovery of novel antimicrobial agents for emerging infectious diseases, Drug Discovery Today, 2021, ISSN 1359-6446, https:///10.1016/j.drudis.2021.10.022.