分享

JCIM|监督学习方法对超大型高通量分子对接的影响

 智药邦 2023-05-04 发布于上海
2023年4月10日,来自奥斯特拉尔大学的研究者在Journal of Chemical Information and Modeling上发表了题为的”The Impact of Supervised Learning Methods in Ultralarge High- Throughput Docking“的研究论文。论文讨论了超大型高通量虚拟筛选的动机和问题,特别强调了被动监督学习和主动监督学习在虚拟筛选中的应用和发展前景。

1 摘要‍‍‍

如今,基于结构的虚拟筛选方法(structure-based virtual screening methods)是计算药物发现的关键支柱之一。近年来,有很多对大型数据库(大小从数百到数千万种化合物)进行基于对接的虚拟筛选(docking-based virtual screening),筛选结果进一步在实验中进行验证以确定新的苗头化合物的工作报道。同时出现了基于机器学习的方法(machine learning- based protocols)来加速超大化学空间内的虚拟筛选。本文阐述了筛选大型数据库背后的动机和问题,概述了机器学习方法特别是监督学习方法的关键概念和基本应用。本文还讨论了该领域与这些新发展的关系,强调了未来的研究方向。
图 暴力方法与监督学习方法用于虚拟筛选

2 引言 

虚拟筛选在药物发现领域发挥着重要作用。与高通量筛选相比,出现了虚拟筛选方法,即采用计算方法对化合物进行排序,然后用生物实验方法验证,使药物发现的初始阶段更省时、省钱。
在基于结构的虚拟筛选中,最常用的蛋白质-小分子相互作用建模方法之一是分子对接,其旨在评估给定分子在受体结合位点内的结合姿势,并将对接得分作为结合可能性的衡量标准。分子对接已成功用于启动药物发现项目,其通常从几十万到几百万种化合物进行筛选。

随着可利用的化学数据库的不断扩大,基于结构的虚拟筛选领域面临着新的机遇和挑战。机器学习方法的使用应运而生,能够加速分子对接,可以减少用于实验对接评估的数量而不会显著损失先导化合物。下文探讨了两种不同机器学习方法(被动监督学习和主动监督学习)如何加速高通量分子对接。表1展示了可用于大型的基于结构的虚拟筛选的计算资源。

表1 可用于大型的基于结构的虚拟筛选的计算资源

3 监督学习方法用于基于结构的虚拟筛选 


3.1被动监督学习

加速分子对接的最直接的选择之一是根据机器学习预测的对接分数进行筛选,将机器学习作为一个过滤器。机器学习在训练阶段需要一定的有标签训练集,然后进行预测。这样那些预测得分“好”的化合物可以用于下游的对接实验进行验证(图1)。图1展示了监督学习如何加速分子对接。(A)展示了暴力方法进行蛋白质-分子对接进行虚拟筛选。(B)展示了监督学习方法,共分为5步:(1)划分分子数据库为训练集和测试集;(2)对训练集进行对接,标注数据;(3)训练机器学习模型;(4)对测试集进行预测得到打分;(5)根据预测打分排名过滤数据进行对接验证。

图1 通过减少用于对接验证的分子数量,监督学习方案可以加速分子对接。黑色的是未知对接分数的分子。蓝色是通过机器学习预测的高分分子,之后用于对接验证。

3.2主动监督学习

主动监督学习与被动监督学习最大的不同是:被动监督学习首先就需要大量已标注样本训练模型,而被动监督学习则是利用少量标注样本,大量未标注样本训练模型,然后迭代地选择对模型增益最大的样本进行标注,进而不断迭代以训练获得更好的机器学习模型。
图2展示了采用基于池的样例选择策略的主动学习。其主要包括4个成分:少量有标记样本、无标记样本预测函数和样本对模型的增益效果评估工具。该主动学习每次迭代包括4步:(1)训练预测函数;(2)根据预测无标记样本;(3)根据评估所有无标记样本所能给模型带来的增益;(4)选择增益最大的部分样本进行标记。然后不断迭代,得到最优的机器学习模型用于虚拟筛选。

图2 基于池的样例选择策略(Pool-based sampling paradigm);第  次迭代。黑色表示未标记数据。红色表示标记数据。蓝色表示采用模型进行预测的数据。‍‍‍

3.3主动监督学习应用于分子对接

采用主动学习迭代地进行分子对接的方案如图3所示。其主要包括两个主要的阶段:初始化阶段和迭代阶段。其中初始化阶段包括以下3步:
1.随机选择 << 个分子进行对接实验,得到对接分数。   
2.根据对接分数选择合适阈值定义正样本和负样本。
3.训练分类模型。
迭代阶段包括以下3步:
4.对未知分子进行预测,得到预测分数。
5.选择 << 个最”好“的分子进行对接实验。  
6.根据对接实验的结果重新定义合适的阈值和增强训练机器学习模型。
作者回顾了Ton等人采用深度主动学习来虚拟筛选具有抗SARS-CoV-2活性的苗头化合物。据此,作者观察到采用主动学习进行大数据库的虚拟筛选有以下两个优点:   
1.筛选超大型数据库识别的苗头化合物具有化学多样性:在Ton等人研究中识别的前1000个苗头化合物,只有10个存在于ZINC15库,该库包含1100万种通常用于分子对接的化合物。   
2.通过筛选一个大型数据库,可以发现对接得分更好的苗头化合物:来自ZINC15数据集的前1000个苗头化合物的对接得分优于来自ZINC15数据库中随机选择的100万个分子所组成的数据库的结果,也优于蛋白酶抑制剂数据库的对接得分。
图3 在分子对接中,采用主动学习方案加速苗头化合物的筛选。黑色表示未标记数据。红色表示采用对接进行标记的数据。蓝色表示采用模进行预测的数据。

4 讨论 

作者认为机器学习虽然有助于加速大规模的虚拟筛选,但目前还不能取代小规模的分子对接。一方面,目前有大量关于启动药物发现的小规模虚拟筛选项目的例子,另一方面,现在完全判断大规模的虚拟筛选完全取代小规模的分子对接还为时过早,还需要观察更广泛的蛋白质靶标以及不同的分子对接的结果。由于在大型化学数据库中对接每一种化合物的暴力方法是不可行的,机器学习方法在苗头化合物识别方面具有效率高的优势。特别是,如前文所述,主动学习方法已经取得了令人印象深刻的实验结果。随着这些有希望的结果以及更多研究和验证的出现,作者相关研究将是朝着加速且更准确的基于结构的虚拟筛选的方向发展。
参考文献
Cavasotto C N, Di Filippo J I. The Impact of Supervised Learning Methods in Ultralarge High- Throughput Docking[J]. Journal of Chemical Information and Modeling, 2023.

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多