分享

Briefings in Bioinformatics | 一种提高蛋白质-小分子对接和筛选准确性的评分函数

 DrugAI 2022-04-19

近日,深圳先进院-上海智峪生科-深圳超算-南洋理工联合团队在《Briefings in Bioinformatics》(影响因子IF=11.622)上发表了题为“Improving protein–ligand docking and screening accuracies by incorporating a scoring function correction term”的论文。该论文提供了一种新的蛋白质-小分子对接评分函数的设计思路,即结合对小分子对接构象的偏差估计作为传统评分函数的修正项,可以显著提升分子对接和筛选的精度,对于小分子药物设计和筛选有着重要意义。本文通讯作者是南洋理工大学慕宇光教授和深圳先进技术研究院魏彦杰研究员,第一作者是郑良振博士(智峪生科小分子算法负责人、深圳先进院联合培养博士后)

图1

1

背景介绍

评分函数(scoring function)是蛋白质-小分子对接和筛选中的关键要素。传统的评分函数,通常是基于经验函数或分子力场的,又或者是基于统计模型的。比较成功的评分函数有GlideScore[1]和AutoDock Vina score[2]。这些评分函数已被证明有助于小分子的药物筛选和设计。这些传统评分函数的主要优势包括(但不限于)以下几点:1)计算速度快,能够实现超大规模虚拟库的筛选。2)稳健性相对较好,对于不同类型的靶点的筛选都能有一定的小分子富集率。

但是,随着蛋白质-小分子结构和亲和力数据库的持续扩增,让机器学习和深度学习也逐渐在评分函数设计上有了比较好的应用空间。例如,比较早期的RFscore和NNscore模型及其改进版本,以及近年来日渐增加的深度学习模型如AtomNet,Pafnucy[3],RoseNet[4]和OnionNet[5]等模型。基于蛋白质-小分子的晶体结构的数据集训练的亲和力预测模型往往并不能在筛选应用上获得较好效果,因此更多模型开始引入小分子的对接构象作为训练数据。

这些机器学习/深度学习模拟可以在更大规模数据上,学习到蛋白质-小分子相互作用的非线性关系,以及相互作用的模式和强度,使得这些数据驱动的模型有更强大的表征能力和更大的应用前景。随着以AlphaFold2为代表的蛋白质结构预测算法的成功,未来围绕蛋白质结构的小分子筛选和设计可能会从中受益,因此持续研究蛋白质-小分子在三维结构层面相互作用模式和强度也有了可期的前景。

2

方法介绍

虽然已有多种基于高度精确的深度学习或机器学习的评分功能(如Gnina中的3DCNN的构象精度预测模型[6]和DeepBSP的预测模型[7]),但它们在对接和筛选方面的直接应用比较有限。传统评分函数关注晶体结构中,蛋白质-小分子的亲和力预测,而和上述的Gnina和DeepBSP模型类似,论文作者提出的OnionNet-SFCT模型关注的是小分子的对接构象和真实构象之间的偏差,并可以结合传统评分函数用于多种小分子相关应用场景。

具体来说,作者使用了PDBbind(v2018)[8]中的蛋白质-小分子复合物结构,以及基于这些蛋白质-配体复合物使用iDock生成的对接构象作为ML评分模型开发的训练、验证和测试集,同时还结合了其他分子对接和筛选的数据集如CASF-2016[9]以及DUD-E[10]和DUD-AD[11]。

图2

OnionNet-SFCT模型[12]通过显性的原子-氨基酸相互作用描述,使用基于Adaboost的随机森林模型,来拟合蛋白质-小分子的结合模式和真实状态之间的偏差(RMSD)。这种考虑蛋白质的氨基酸到小分子不同元素类型的相互作用,可以分层到不同的距离范围,从而同时增加了特征的数量和信息的丰富度。

这种特征描述的最早原型是RF-score[13]中,蛋白质不同元素类型和小分子元素类型的接触数统计量。后面演变成OnionNet中,蛋白质-小分子的不同元素类型组合的接触数在不同的距离截断范围的统计量,以及更近一步的OnionNet2[14]中,蛋白质氨基酸类型和小分子元素类型组合的接触数在不同距离截断范围的统计量。这种原子层面的统计量的主要优势是计算速度快,可解释性强,且能够抓住比较典型的蛋氨基酸-原子相互作用的局域相互作用模式(如图3)。而且还有一个非常重要的特点是,这种特征描述可以对原子坐标可导。这种可导的特征可能是将来基于神经网络的小分子构象优化的基础,有着比较重要的意义。

图3.蛋白质氨基酸和不同元素类型小分子原子的特征重要性

同时,作者发现现有模型对于近真实状态(near-native)的偏差预测不如传统算法,但是对于整体大范围的构象偏差预测则更准确。所以,该模型可以很好地和传统方法进行整合,来作为一种有益的修正(如下方程1)。

其中,P(R)是对构象预测的偏差(OnionNet-SFCT预测值),S(R)是传统评分函数的能量值(如来自AutoDockVina的能量)。这种组合的优势是,将OnionNet-SFCT预测值作为修正项可以保证在小分子构象若很大的偏差范围,可以被OnionNet-SFCT检查和预测得出,从而使得整体能量预测E(R)更合理。

3

结果描述

3.1模型在分子对接上面的表现

单独使用OnionNet-SFCT评分能量,不能显著提高重对接性能,甚至还有所下降,然而如果将OnionNet-SFCT作为传统对接评分函数的能量修正项,可以在多个数据集上提升分子对接的成功率。例如,OnionNet-SFCT修正Vina之后,可以在交叉对接(cross-docking)任务上将top1构象的RMSD平均降低0.736埃,而且可以将top1构象的成功率提升10.6个百分点(图4)。同时,基于标准测试集CASF-2016,OnionNet-SFCT修正Vina之后,在对接成功率上也有很好的表现。

图4.分子对接效果的比较

3.2模型在小分子筛选上面的表现

除了对接能力,筛选能力是评分功能评估的另一个评估指标。在CASF2016标准测试中,OnionNet-SFCT+Vina在达到了15.5的最高平均富集系数(Enrichment Factor at 1% ratio),是Vina分数本身(7.7)的两倍,也远高于商业软件GOLD和薛定谔Glide(图5)。

图5.模型在CASF-2016数据集上的表现

另一个筛选相关的测试集是DUD-E。该测试集旨在公平地比较用于筛选的不同的评分函数。某些评分函数在训练的时候,会部分使用该数据集的数据,并用剩余的数据进行测试,这种类型的训练和评估将促使评分函数记住“活性”分子而忽略蛋白质本身,从而引入了潜在的隐藏偏差(Bias)。而DUD-AD测试集则和DUD-E共用靶点结构(102个),并使用其他(101个)靶点的活性分子作为该靶点的非活性分子(decoys),因此可以比较好的改善这种bias。结果表明,相对于原来的评分函数,OnionNet-SFCT修正的Vina评分函数或OnionNet-SFCT修正的Gnina评分函数对于筛选任务更为准确。相比于重对接和交叉对接任务的性能提升,在筛选的关键指标富集因子(EF1%)性能提升更为显著(图6)。

图6

3.3模型在反向筛选上的潜在应用

最后,作者用植物激素脱落酸(ABA)作为例子,来说明OnionNet-SFCT模型的潜在应用价值。在拟南芥全蛋白质组(约2.7万个蛋白质)的脱落酸反向对接任务中,OnionNet-SFCT+Vina评分方案在排名前10位的蛋白质中检测到4个已知靶点(有14个已知的ABA天然靶点),相比之下,在排名前10位的蛋白质中,没有一个已知的靶点可以仅通过Vina评分确定。虽然这是仅仅是一个demo案例,但它展示了基于结构评分用于高通量高精度反向寻靶计算的巨大潜力。

4

结语

该论文提出了一个基于机器学习的评分函数修正项(OnionNet-SFCT),以提高传统评分函数的对接和筛选性能。该模型可以和多个分子对接应用程序相结合,作为一种对接结果再评分的工具,可以提高小分子构象选择的准确性和筛选能力,这表明它可以广泛用于基于结构的药物发现。在多个数据集上的结果表明,该模型是基于结构的药物发现的有用工具,有助于基于结构的药物发现精度和未来潜在的靶点寻找的效率。

全文链接

https://academic./bib/advance-article/doi/10.1093/bib/bbac051/6548372

代码

https://www.github.com/zhenglz/OnionNet-SFCT.git

参考资料

[1]Verdonk M L,Cole J C,Hartshorn M J,etal.Improved protein–ligand docking using GOLD[J].Proteins:Structure,Function,and Bioinformatics,2003,52(4):609-623.

[2]Trott O, Olson AJ. AutoDock Vina: Improving the speed and accuracy of docking with a new scoring function, efficient optimization, and multithreading. J Comput Chem 2009;

[3]Stepniewska-Dziubinska MM, Zielenkiewicz P, Siedlecki P.Development and evaluation of a deep learning model for protein–ligand binding affinity prediction. Bioinformatics 2018;34:3666–74.

[4]Hassan-Harrirou H, Zhang C, Lemmin T. RosENet: Improving Binding Affinity Prediction by Leveraging Molecular Mechanics Energies with an Ensemble of 3D Convolutional Neural Net-works. J Chem Inf Model 2020;60:2791–802.

[5]Zheng L, Fan J, Mu Y. OnionNet: a Multiple-Layer Intermolecular Contact-Based Convolutional Neural Network for Protein–Ligand Binding Affinity Prediction. ACS Omega 2019;4:

[6]LeCun Y, Bengio Y, Laboratories TB. Convolutional Networks for Images, Speech, and Time-Series, Vol. 14.

[7]Bao J, He X, Zhang JZH. DeepBSP-a Machine Learning Method for Accurate Prediction of Protein-Ligand Docking Structures. J Chem Inf Model 2021;61:2231–40.

[8]http://www./download/pdbbind_2018_intro.pdf

[9]Su M, Yang Q, Du Y, et al. Comparative Assessment of Scoring Functions: The CASF-2016 Update. J Chem Inf Model 2019;59:895–913.

[10]Mysinger MM, Carchia M, JohnJ I, et al. Directory of Useful Decoys, Enhanced (DUD-E): Better Ligands and Decoys for Better Benchmarking. J Med Chem 2012;55:6582–94.

[11]Chen L, Cruz A, Ramsey S, et al. Hidden bias in the DUD-E dataset leads to misleading performance of deep learning in structure based virtual screening. PLOS ONE 2019;14:e0220113.

[12]OnionNet-SFCT模型 :https://www .github.com/zhenglz/OnionNet-SFCT .git

[13]El-Hachem N, Haibe-Kains B, Khalil A, et al. AutoDock and AutoDockTools for Protein-Ligand Docking: Beta-Site Amyloid Precursor Protein Cleaving Enzyme 1(BACE1) as a Case Study.Neuroproteomics 2017;1598:391–403.

[14]Wang Z, Zheng L, Liu Y, et al. OnionNet-2: A Convolutional Neural Network Model for Predicting Protein-Ligand Binding Affinity based on Residue-Atom Contacting ShellsArXiv210311664 QBio. 2021.

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章