【原】AI用于COVID-19的药物发现和疫苗开发

DrugAI 2022-04-19

展开全文

SARS-COV-2号召科学界采取行动，以对抗日益增长的大流行病。撰写本文时，还没有新型抗病毒药或批准的疫苗可用于部署作为一线防御。了解COVID-19的病理生物学特性可通过阐明未探索的病毒途径来帮助科学家发现有效的抗病毒药。实现这一目标的一种方法是利用计算方法在计算机上发现新的候选药物和疫苗。过去的十年中，基于机器学习的模型在特定的生物分子上进行了训练，为发现有效的病毒疗法提供了廉价且快速的实施方法。给定目标生物分子，这些模型能够以基于结构的方式预测候选抑制剂。如果有足够的数据提供给模型，则可以通过识别数据中的模式来帮助寻找候选药物或疫苗。

背景

冠状病毒科是一个负责引起类似肺炎症状的病毒家族，自2002年首次爆发以来，一直对全球造成威胁。2002年和2013年分别出现的严重急性呼吸道疾病(SARS)和中东呼吸综合征(MERS)，引起的疾病以胃肠道和肺功能障碍为特征。2019年，SARS-COV-2是第三次冠状病毒爆发的病原体，并被确认为COVID-19病毒，其症状从普通感冒到更严重的呼吸衰竭。

当采用试错策略进行COVID-19药物发现时，由于基于实验室的高通量筛选效率低下，虚拟筛选已成为发现有效化合物的流行方法。虚拟筛选用于合理的药物发现，本质上是一种方法，它涉及通过计算瞄准细胞的特定生物分子，以抑制其生长和/或激活。基于结构和基于配体的药物发现和设计是这类筛选的两个重要方法。鉴于可以获得通过计算和实验确定的病毒蛋白结构，虚拟筛选为确定抗病毒候选药物提供了一种快速和具有成本效益的策略。

传统的疫苗发现方法成本很高，可能需要很多年才能开发出针对特定病原体的合适疫苗。20世纪90年代初，一种被称为 "反向疫苗学"(RV，Reverse Vaccinology)的基于基因组的疫苗设计方法的引入，彻底改变了这一领域，使其达到了更高效的状态，部分原因是确定疫苗靶点不再需要细菌培养。此外，所有的假定靶蛋白抗原都可以被鉴定，而不是仅限于从细菌培养物中分离出来的抗原。所有这些优势综合起来，促使科学家们研发了RV预测程序。

过去十年中，基于人工智能(AI)的模型在总体上彻底改变了药物发现。AI也导致了许多RV虚拟框架的创建，这些框架通常被归类为基于规则的过滤模型。机器学习(ML)能够创建模型，这些模型能够学习和概括现有数据内的模式，并能够从以前未见过的数据中进行推断。随着深度学习(DL)的出现，学习过程还可以包括从原始数据中自动提取特征。此外，最近发现与其他计算机辅助模型相比，深度学习的特征提取可以带来卓越的性能。

本文研究人员提供了基于人工智能的COVID-19药物发现和疫苗开发模型的调研。此外，还确定并评估了未来治疗开发的最佳候选靶标。研究人员建议，应该共同努力使用机器学习方法来利用已有数据的知识。为此，研究人员提出了一个广泛的小分子、多肽和表位的治疗发现集合，这些小分子、多肽和表位也可以以智能的方式指导基于AI的模型、筛选或生成。

机器学习方法用于治疗发现的背景

近年来，机器学习已经彻底改变了科学和工程的许多领域。它在很大程度上改变了我们的日常生活，从语音和人脸识别到定制化的定向广告。自动提取特征学习的力量，结合海量数据，极大地促进了机器学习的成功应用。受影响最大的两个领域是药物和疫苗发现，在这两个领域中，机器学习提供了化合物性质预测、活性预测、反应预测以及配体与蛋白质的相互作用。

预测方面，图卷积神经网络(GCN)一直是药物发现应用中最受欢迎的工具。这些网络能够处理图形，并通过编码特征内的邻接信息来提取特征。利用GCNs从分子中成功地进行表征学习，已经在药物性质预测、蛋白质界面预测、反应预测和药物-靶点相互作用预测中得到了验证。由于自然语言处理领域的进步，基于序列的模型，如基因组学、蛋白质组学和转录组学也得到了一些关注。最近一代基于上下文的模型是使用注意机制和自监督从序列中提取表征的变换器。变换器已经证明了预测药物-靶标相互作用、模拟蛋白质序列和预测逆合成反应的能力。这些模型可以学习从序列中提取关于输入标记的位置、上下文和顺序的特征。循环神经网络（RNNs）和长短期记忆（LSTM）网络已经成功地证明了当对分子或蛋白质序列进行训练时，能够执行预测二级结构、定量构效关系(QSAR)建模和功能预测。

生成方面，新设计从深度学习的应用中受益最大。这个子领域已经从传统的使用基于配体的模型和从子块创建分子的方法中得到了极大的发展。目前的方法涉及使用最先进的深度学习模型，如生成对抗网络(GANs)来创建面向数据的分子。传统的全新设计通过限制配体或片段库分子的生成，无法完全实现这种探索。最近的方法利用深度学习生成模型创建原子序列。这种方法解除了基于配体设计的限制，并允许生成具有更大多样性的独特分子。

过去的20年里，机器学习也改善了疫苗设计领域。VaxiJen是机器学习在反向疫苗学(RV)方法中的第一个实现，并在抗原预测方面显示出了可喜的成果。此外，最近开发的Vaxign-ML是一个基于网络的RV程序，利用机器学习方法进行细菌抗原预测。从本质上讲，这些方法包括特征提取、特征选择、数据增强和交叉验证实施，以预测针对各种已知导致传染病的细菌和病毒病原体的候选疫苗。该领域的方法中，生物、结构和理化特征的使用非常普遍，这在反向疫苗学和免疫信息学方法中可以看到，如IEDB和BlastP，它们是基于人工智能模型的特征提取器，用于研究不同的病原病毒。最近，基于图的特征也显示出了代替专家设计的特征来表示抗体的能力。深度学习方法还通过改进新抗原及其HLA结合亲和力的预测，为癌症疫苗学领域带来了革命性的变化。深度学习的自动编码器在提取人类白细胞抗原（HLA-A）的特征方面表现出了有希望的改进，这可以被利用在移植和疫苗发现中。

疗法发现的关键是安全性和可靠性。疫苗不良事件报告系统(VAERS)和疫苗安全数据库(VSD)一直是跟踪、记录和预测疫苗安全性的最受欢迎的免疫登记系统之一。过去的几十年中，计算模拟和数学模型的实现，通过利用上述资源，显著改善了安全性和有效性评估之间的权衡。Zheng等人实现了自然语言处理(NLP)对Tdap疫苗相关不良事件的识别。

药物研发过程中产生的最终候选药物需要保证人类食用的安全性。这就需要对药物的副作用进行观察，同时也需要确认药物是无毒的。为了实现这一目标，21世纪毒理学项目（Tox-21）已经从70种筛选试验中筛选出约1万种化合物，建立了一个可用于促进毒性建模的数据库。此外，该项目还扩大了ToxCast数据集，包含700种检测方法，近1800个分子。副作用预防方面，在计算中预测并最大限度地减少脱靶相互作用。这样做的过程中，选择潜在的候选药物，并考虑其非靶向多药学特征。

综上所述，人工智能已经应用于药物发现和疫苗开发的许多子领域。这种改进对于当前形势和眼前的SARS-COV-2治疗发现至关重要，主要原因有以下几点。首先，深度学习的自动特征提取能力可以支持模型的准确性更好，提供更可靠的结果。其次，利用深度学习模型所表现出的生成能力，可以创造出更多的成药性分子和更好的表位预测，降低试验管线的失败几率。最后，病毒的新颖性导致围绕其可能的治疗方法的数据稀缺，这是迁移学习和利用从以前任务中学习到的知识的合适场景。迁移学习已经被证明可以缓解这个问题，通过将学习到的知识和参数从一个次要任务中转移到当前任务中。因此，在SARS-COV-2的治疗发现中使用深度学习是非常必要的，以便对该病毒做出及时准确的反应。

COVID-19 的分子机制和靶标选择

冠状病毒是具有正单链RNA基因组的包膜病毒。已知它们既能感染人类，也能感染其他真核生物。新型冠状病毒由于增加了对其病毒spike等结构蛋白的修饰，设法以比SARS更高的亲和力与宿主受体结合，从而增强了传播能力。

SARS-CoV-2与宿主细胞的相互作用始于通过病毒spike(S)蛋白与宿主ACE2受体的连接。ACE2结合诱导宿主表面丝氨酸蛋白酶TMPRSS2，通过在S1/S2边界的裂解使S蛋白起作用，促进病毒与细胞膜融合。一旦进入细胞内，病毒RNA基因组就被释放到细胞质中，在那里被宿主核糖体翻译，产生两种多聚蛋白：pp1a和pp1ab，然后被病毒3CL蛋白酶和PL蛋白酶切割。这就产生了几个非结构蛋白(nsps)作为RNA依赖性RNA聚合酶(RdRP)的基础；然后这个RdRP转录基因组RNA的模板链，再从模板链转录亚基因组mRNA产物进行翻译。这些产物编码结构蛋白S、E、M和N，以及额外的附属nsps。

宿主反应的严重程度取决于对病毒识别的先天反应，包括1型IFNs和促炎细胞因子的表达。如果抗病毒反应延迟或抑制，病毒增殖可导致中性粒细胞和单核-巨噬细胞大规模招募到肺部，形成高炎症环境。在COVID-19患者中发现促炎细胞因子的过度释放，可导致急性呼吸窘迫综合征等严重并发症。

病毒进入, 复制和传播的整个过程中，有几种蛋白质可以作为治疗干预的合适靶点。S蛋白是最受关注的候选者之一，因为它是病毒进入宿主细胞的必要条件，并且对病毒本身具有高度特异性。宿主受体ACE2是另一个可能的靶点，但ACE2存在于心脏、肾脏和肠道等非肺组织中，可能使其抑制作用复杂化。另一种宿主蛋白TMPRSS2蛋白酶是病毒进入细胞的必要条件，使其成为另一个可行的靶点。

COVID-19 药物发现

基于蛋白质

人工智能在COVID-19中的最新应用包括虚拟筛选再利用的候选药物和新的化学实体。靶标是快速预测和利用相互关联的生物途径或现有药物的脱靶生物学，这些药物被证明是安全的，因此可以在新的临床试验中随时进行测试。早期的尝试中，Gordon等人通过实验确定了66个与26个SARS-CoV-2蛋白相关的人类蛋白，为候选药物的再利用铺平了道路。除了湿实验室方法外，基于网络的模型模拟一直是分析病毒与宿主相互作用的主要计算方法。Li等通过分析冠状病毒3个主要病毒家族成员的基因组序列，然后与人类疾病途径相关联，确定了30种可再利用的药物。Zhou等人提供了一种基于网络的组合方法，用于重新利用药物组合。

总部位于英国的BenevolentAI利用其AI衍生的生物医药知识图谱，整合了结构化和非结构化来源的生物医学数据。它以抑制宿主蛋白AAK1为靶标，并确定了已获批的治疗类风湿性关节炎的药物Baricitinib。同样，Beck等人也发表了他们基于深度学习的药物-靶点相互作用模型的应用，预测了市面上可能靶向SARS-COV-2相关蛋白酶和螺旋酶的抗病毒药物。Atomwise还专注于靶向多个SARS-COV-2蛋白结合位点，这些位点在多个冠状病毒物种中高度保守，以努力开发新的广谱抗病毒药物。Atomwise利用其AtomNet®深度卷积神经网络技术，与学术研究人员建立了15种不同的合作关系，在体外试验中测试预测的化合物，同时，Atomwise正在针对这些不同的靶点筛选数百万种虚拟化合物。

机器学习辅助的分子对接一直是虚拟筛选最普遍的方法之一。这个过程通常需要以下几个方面。(1)类药分子或批准分子的数据集，(2)靶标的晶体结构或同源模型，(3)分子对接程序，(4)计算资源。通过对接，已报道了许多分子符合病毒复制和感染所必需的各种SARS-CoV-2蛋白的结合位点。3CLpro、Spike Protein、RdRP和PLpro都是被筛选出来的，还有宿主ACE2受体和TMPRSS2蛋白酶。Ton等人通过创建和利用深度对接技术方法，发现了至少1000种蛋白酶抑制剂。

3CLpro是最受欢迎的虚拟筛选靶标。其主要原因是其在病毒复制和转录中的关键作用以及其明确的结构信息。病毒蛋白酶抑制剂作为其他病毒的治疗方法已经被广泛研究。此外，深度学习辅助方法一直是研究的重点，因为其自动特征提取可以加速发现。引用的数据集通常依赖于ZINC数据库，而其他筛选的数据集包括FDA批准的或所有可购买的药物。

基于RNA

已有证据表明，受保护的结构元素在冠状病毒的生命周期中发挥着关键的功能作用。通过与宿主RNA结合蛋白和螺旋酶的直接相互作用，结构元素为病毒RNA中编码的调控信息增加了一层复杂性。靶向性地破坏这些结构元素的调控功能提供了一种基本上未被探索的策略，它可以限制病毒负荷，而对正常细胞的生物学影响最小。虽然这个想法在仅仅5年前还很牵强，但人工智能驱动的计算建模和高通量实验RNA形状分析的进展已经全部克服了关键障碍。

在一些病毒家族中已经发现了高度保守的RNA结构元素，其中许多已经得到功能验证。SARS-CoV-2′s 5′UTRs结构元件中的一些环在β冠状病毒中是保守的，并且已知会影响病毒的复制。有许多功能性RNA结构元件也属于编码序列和3′UTR内。Rangan等人确定了106个结构上保守的区域，这些区域将成为未开发的抗病毒药物的合适生物靶点。此外，他们预测在SARS-CoV-2内至少有59个非结构化区域是保守的。Park等人在基于靶点的虚拟筛选中发现了一个针对SARS-CoV-1的RNA Pseudoknot-Binding分子。

研究RNA信息的变化也可以识别新的和进化的靶标。最近FDA批准的一种名为Remdesivir的药物可以与新型冠状病毒的RNA结合通道结合。他们通过分析对RNA处理和途径至关重要的蛋白质，发现了其他候选药物。看来，病毒基因组、RdRP和经过处理的mRNA将成为有希望的药物再利用靶标。

分子生成方法

分子生成是近十年来，人工智能驱动药物发现带来最大变革的领域之一。如前所述，VAE是一种用于增强生成数据多样性的生成器模型。自动编码器将分子表示成一个捕捉键序、元素和官能团等属性的向量。Chenthamarakshan等人与IBM研究人员一起展示了一种在潜在空间中捕获分子的VAE。一旦捕捉到就会根据所需的属性对原始分子向量进行变化。然后，这些可以被解码回新型分子。为了优化结构，使用定量评估类药性(QED)、合成可及性(Synthetic Accessibility)和LogP回归器来改善潜在空间的变化。

在不同的方法中，Tang等人通过开发一种新型的基于片段的药物设计的高级深度Q-学习网络(ADQN-FBDD)，克服了传统生成模型的许多问题。这使得通过一次一个片段组装SARS-CoV-2分子，而不是依靠潜在空间调整，增强了对空间的探索。在进行连接并奖励具有最像药物的分子后，使用药效团和描述符过滤器来完善该集合。他们展示了一种强大的方法，用于设计新颖的高亲和力化合物。要设计一个药物生成网络，需要做到以下几点：

收集类药分子；
这些分子在计算中的表示；
改变分子以增加多样性；
对改变后的分子进行筛选和修饰。

GAN相关模型，Insilico Medicine使用了其之前验证过的三种生成化学方法来靶向主要蛋白酶，即基于晶体衍生和活性口袋的分子生成、基于同源模型的分子生成和基于配体的分子生成。与基于靶点的虚拟筛选类似，主蛋白酶一直是科学家们进行新药发现的主要对象。

COVID-19疫苗发现

为了抵御病毒的高感染率，确定开发疫苗的最佳靶标至关重要。宿主免疫系统通过B细胞产生抗体或通过T细胞的直接攻击来对抗病毒感染的细胞。HLA基因编码MCH-I和MCH-II蛋白，它们作为抗原决定因素呈现表位。这些蛋白协助B细胞和T细胞抗体结合和攻击入侵者的能力。机器学习方法，包括随机森林(RF)、支持向量机(SVM)和递归特征选择(RFE)，已经成为从蛋白质序列中识别抗原的基本工具。然而，由于它们在某些情况下预测局部聚类相互作用的敏感性较低，深度卷积神经网络(DCNN)一直是MHC和肽的结合预测的更有效的选择。

Feng等人利用iNeo工具设计了一种同时包含B细胞和T细胞表位的疫苗。这种多肽疫苗可以提供一种对抗SARS-CoV-2的新策略。此外，他们还发现了17种涉及两种免疫细胞的疫苗多肽。Ong等人利用Vaxign-RV将非结构蛋白优先列为SARS-CoV-2的疫苗候选物。Nsp3是冠状病毒家族中最大的非结构蛋白，被认为是继Spike之后最有希望的潜在疫苗开发靶标。Malone等人还研究了Spike之外的整个SARS-CoV-2蛋白质组，并利用NEC免疫分析仪、IEDB和BepiPred工具建立了不同HLA等位基因的表位图，为SARS-CoV-2提供了全面的疫苗设计蓝图。

自然语言处理模型，特别是语言建模技术在COVID-19疫苗发现领域也产生了影响。预训练好的转化器被用来预测蛋白质的相互作用，并对碳水化合物化学中的分子反应进行建模，这可以在疫苗开发过程中加以利用。Chen等人讨论了基于LSTM的seq-2-seq模型用于预测某些SARS-COV-2蛋白的二级结构。另外，Beck等人还利用转化器通过预测市售药物与SARS-COV-2病毒蛋白的相互作用来重新利用市售药物。

综合这些工作，很显然，spike蛋白已经成为虚拟疫苗发现的最热门候选者。由于SARS-COV-2的spike蛋白对病毒进入至关重要，针对Spike受体结合域的特异性中和抗体可以阻断病毒蛋白的附着和融合。这种方法可以提供模拟序列，作为进一步发现针对COVID-19和未来可能出现的新人畜共患病的疫苗的指导。

数据采集

数据驱动的解决方案依赖于数据中蕴含的模式，以提取数学模型。尽管如此，对于任何最近出现的病毒，数据收集活动将面临大量挑战，主要是由于有限的数据中存在偏差和不平衡。因此，即使是最复杂的建模方法在这样的数据集上进行训练时也将是无效的。为了克服这个问题，研究人员对现有的文献、数据集和在线资源进行了多方面的综合调查，以提供潜在的小分子、多肽和抗原表位。在发现或设计治疗COVID-19的新型药物的过程中，当与传统的和基于数据驱动的人工智能方法一起使用时，这类元素是有益的。

研究人员选择关注潜在的抗病毒药物和宿主生物靶点抑制剂。所提供的表中题为CoronaDB-AI的数据包括了由计算和体外方法提出的小分子和多肽。除了针对冠状病毒的结构蛋白的候选骨架外，还考虑到对其他呼吸道病毒的潜在抑制，以增加治疗潜力。抗菌肽已被验证为有效的抗病毒药物，破坏病毒膜或病毒的额外分子机制。如前所述，细胞因子风暴和宿主的免疫反应升高在疾病并发症中起着至关重要的作用，所以候选的免疫抑制剂也被添加为宿主靶向药物。候选药物除了药效外，关键是药物要有高选择性和低毒性。因此，研究人员还从不同的数据库中收集了完整的毒性数据集，包括ToxCast和Tox21。最后，研究人员收集了一个全面的基于表位的数据集，该数据集也可以指导基于深度学习的模型，以改善疫苗开发和表位的生成。

总结

SARS-COV-2迅速转变为全球性的挑战，夺去了成千上万人的生命，使医疗系统不堪重负，并威胁到全世界的经济。正如上面所展示的那样，通过实验及时对所有候选药物和疫苗进行全面的药效评估是极具挑战性的。相信利用能够过滤和生成可靠疗法的计算模型可以显著加快这些发现工作。事实证明，采用人工神经网络和监督学习方法，在用于虚拟过滤和新设计时，是一个重要的游戏规则改变者。然而，为了在这样的智能方法中实现预期的性能，除了大规模的训练数据集之外，还需要有识别最相关生物靶标的知识。这一事实促使研究人员对虚拟药物和疫苗发现文献中已经采用的生物靶标进行调查。研究者观察到，由于病毒穗蛋白和宿主蛋白酶的重要性，它们分别是疫苗开发和药物发现中最普遍的选择。此外，收集了一个名为 "CoronaDB-AI "的数据集列表，可以用于特定应用。有了这些关键要素的使用权，就可以消除计算机科学家和生物信息学家收集训练数据和所需知识的负担，从而提高研究结果。

参考资料

Keshavarzi Arshadi A, Webb J, Salem M, Cruz E, Calad-Thomson S, Ghadirian N, Collins J, Diez-Cecilia E, Kelly B, Goodarzi H and Yuan JS (2020) Artificial Intelligence for COVID-19 Drug Discovery and Vaccine Development. Front. Artif. Intell. 3:65.

doi: 10.3389/frai.2020.00065