分享

【机器学习】应用迁移学习方法快速筛选抗新冠病毒药物分子

 GoDesign 2022-08-17 发布于北京

新冠病毒肺炎自爆发以来,已经在全球造成了上亿人的感染和数百万人的死亡,我们急需有效的措施来应对新冠病毒的挑战。除了采取严格的防控措施、研发接种疫苗以外,进行针对新冠病毒的抗病毒药物研发也是重要的应对手段之一。由于从头药物研发的周期普遍较长,难以满足当前迫切的需求,药物重利用方法提供了一个快速且有效的抗病毒分子筛选途径。根据文献报道,研究者们已经将包括FDA批准的药物,过往发现的针对SARS、MERS病毒的活性分子、以及针对HIV等其他病毒的活性分子等进行了抗新冠病毒活性检验,并从中发现了一系列有潜在活性的药物分子。相较于实验筛选方法,基于机器学习模型的计算筛选方法提供了一种新的快速的药物筛选策略,并允许我们探索更大的药物化学空间,从而能够帮助加速新药研发进程。近期,本课题组在Briefings in Bioinformatics上发表了题为“A Transferable Deep Learning Approach to Fast Screen Potential Antiviral Drugs against SARS-CoV-2“的文章,在文章中,我们应用机器学习方法构建了用于抗病毒药物筛选的COVIDVS模型,并通过体外测活实验验证了模型的有效性。

——数据收集——

为了构建抗新冠病毒分子活性预测模型,我们首先需要一个包含了已知的抗病毒活性分子和非活性分子的数据集用于模型的训练。由于新冠病毒出现时间较短,针对新冠病毒的实验数据也相当有限,我们通过文献搜集到了70个活性分子和84个非活性分子的数据。这些分子显然不足以用于训练机器学习模型。SARS-CoV、MERS-CoV和HCoV-OC43病毒,与新冠病毒同属β冠状病毒。这些病毒共享一些高度保守的功能蛋白,例如3CLpro,RdRp等,对其中一种病毒有活性的分子往往也会对其他病毒展示出活性。针对这些病毒的研究已经积累了较多的活性分子数据,我们将这些活性分子称为抗β冠状病毒活性分子。借助于迁移学习模型,我们能够利用这些数据来帮助训练抗新冠病毒活性分子预测模型。

我们从文献中搜集了一系列对HCoV-OC43、SARS-CoV、MERS-CoV具有活性的分子作为阳性数据,所有在实验中未显示出活性的分子作为阴性数据。最终,我们得到了由90个阳性数据和1862个阴性数据组成的训练集,称为Training Set 1。Training Set 1和新冠病毒特异性的数据(称为Fine-tuning Set 1)一起被用于COVIDVS模型的开发当中。

——模型构建——

COVIDVS模型是一个分类模型,采用了Chemprop模型作为基础框架,如图1B所示。Chemprop模型是一个基于图的有向消息传递网络(D-MPNN)模型,化学分子首先被编码为图模型,然后通过消息传递模块编码为分子水平的特征向量,再通过前馈神经网络输出分子抗病毒活性的预测结果。

COVIDVS模型的构建过程如图1A所示。首先,我们利用Training Set 1,训练了一个抗β冠状病毒活性分子预测模型COVIDVS-1。然后,我们借助迁移学习方法,使用Fine-tuning Set 1数据集对COVIDVS-1模型进行Fine-tuning,得到了SARS-CoV-2特异性的模型COVIDVS-2。同时,我们将来自筛选ReFRAME数据库得到的17个活性分子添加到Fine-tuning Set 1中,并用更新后的数据集对COVIDVS-1模型进行Fine-tuning,得到了COVIDVS-3模型。最后,我们利用COVIDVS-3模型筛选了ZINC15中的drug-like分子库(包含了约490万分子),选出了排名靠前的分子,测试了其对3CLpro的抑制活性,其中,ZINC000017053528分子表现出了对3CLpro的活性,IC50为37.0μM(如图2所示)。

图1. (A) COVIDVS模型的开发流程。(B)COVIDVS模型的架构。

图2. ZINC000017053528的结构和对新冠病毒3CLpro的体外活性。

——讨论——

数据缺乏是我们在开发抗新冠病毒活性分子预测模型过程中面临的主要问题。在本工作中,我们将数据来源拓展到了抗β冠状病毒的活性和非活性分子,并利用这些分子训练了抗β冠状病毒的分子预测模型,然后,我们借助迁移学习方法将模型学到的知识迁移到了新冠特异性模型当中。这一思路可以被应用于其他小数据集问题当中。同时,利用模型进行虚拟筛选得到的分子,在经过实验验证之后,可以进一步的添加到训练集当中来提升模型的性能。与抗病毒分子的预测类似,我们可以将模型应用到对特定靶标的抑制剂预测当中,例如3CLpro靶标。总之,希望我们的模型能够对抗新冠病毒药物研发提供帮助。

参考文献:

1. Yang, Kevin, et al. "Analyzing learned molecular representations for property prediction." Journal of chemical information and modeling 59.8 (2019): 3370-3388.

2. Wang, Shiwei, et al. "A transferable deep learning approachto fast screen potential antiviral drugs against SARS-CoV-2." Briefings in bioinformatics (2021).

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多