分享

【药物发现】基于机器学习的蛋白质-配体亲和力打分函数

 GoDesign 2022-08-17 发布于北京

药物发现是治疗疾病,提高人类生活质量的重要课题,但由于其高昂的时间和金钱花费,药物发现过程依然相当不易。为了节约成本,计算机辅助的虚拟筛选策略被用于药物设计初期的化合物筛选过程。虚拟筛选方法能够从庞大的化合物分子库中筛选出最符合要求的少部分分子,极大的减少了实验筛选所面临的劳动力和资金消耗。但同时,虚拟筛选的准确率将变得非常重要,因为对任何无效的分子进行后续的验证都将是极大的浪费。过去数十年,大量虚拟筛选方法被发展出来,其中,分子对接是被广泛使用的一种方法。分子对接能够挑选蛋白质和小分子结合的最优构象,评估小分子的生物活性,并预测蛋白-小分子结合亲和力,这些功能的实现,都依赖于对接方法中的打分函数。

打分函数的主要目标包括:小分子最佳结合构象的挑选(docking power),活性小分子和非活性小分子的判别(screening power),蛋白-配体结合亲和力的预测(scoring function)。通常,这三个目标都是由同一个打分函数来完成。早期的基于经验的打分函数在面对这三个目标时,往往捉襟见肘,难以兼顾。近年来,研究者们将迅速发展的机器学习方法引入到打分函数中,发展了一批基于机器学习方法的打分函数。尽管许多机器学习打分函数只着重于提高scoring power,但仍有一些方法实现了对打分函数综合性能的提升。

来自纽约大学的Yingkai Zhang等人提出了一个基于随机森林(Random Forest, RF)模型的打分函数△vinaRF20,该模型的性能相较于传统的打分函数在scoringpower, docking power和screening power等方面均有了明显提升[1]。该方法使用的训练集包含了两个部分,一部分是来自于PDBbind数据库[2]收集的实验测得的结合亲和力数据,另一部分来自于CASR decoy set,其中包含了计算机生成的非天然结合构象数据,这部分构象的结合亲和力由Vina程序计算得来。△vinaRF模型的目标并非直接预测结合亲和力,而是用于预测一个Autodock Vina打分函数的修正项△pKd(RF),即真实值与Vina计算值之间的误差(公式1),这样做的目的是保留Vina本身较好的docking power,并在此基础上提升打分的准确性。

随机森林模型使用了20种特征,分别包含了10种来自于Autodock Vina程序的特征项和10种计算得来的bSASA(buried solvent-accessiblesurface area)项。使用训练集和特征数据,一个包含了500棵树的RF模型被训练出来,用于预测修正项△pKd(RF)。

通过使用CASF-2013数据集[3]对RF模型进行测试发现,该RF模型在scoringpower,docking power和screening power方面均表现出了相较于传统打分函数更加优异的性能(图1)。值得注意的是,△vinaRF20是依托于Autodock Vina的打分函数,需要与Vina对接程序一起使用。

图1:RF模型性能比较

与Yingkai Zhang的方法不同,来自密歇根州立大学的Nihar R. Mahapatra等人[4]针对打分函数面临的scoring、docking和screening任务,设计了三个boosted Decision Trees模型来分别完成每项任务。同时,由于这三个任务具有较大的相关性,因此可以使用基于深度神经网络的多任务模型(MT-Net)来进行解决这一问题(图2)。MT-Net使用了PDBbind数据库作为训练集,对于每个蛋白配体复合物,2700个描述符特征被提取出来作为输入,这些特征首先通过一个共享层提取深层次特征,然后将共享特征分别传递给三个独立的模型进行对应任务的训练。

图2:多任务打分函数模型框架

根据作者给出的MT-Net模型在测试集上的测试结果,可以看出该模型在各项任务上均表现出了优异的性能,其中,MT-Net在scoring power上的皮尔森相关系数达到了0.804,这一结果显著高于其他类型的打分函数。

图3:MT-Net模型的测试结果

——小结——

理论上,要想获得一个理想的打分函数,我们通常需要:(1)高质量的训练集;(2)数据集具有丰富的多样性和足够的规模;(3)使用综合的、准确的描述符;(4)使用合适的模型和学习算法。上述两个机器学习打分函数的优异表现表明了机器学习模型在改进打分函数性能上具有很大的潜力,并且,基于机器学习本身的特质,机器学习模型的性能会随着训练数据集的增加而得到进一步的改善。这些新的打分函数,将会在虚拟筛选和药物发现领域发挥重要的作用。

参考文献:

[1]Wang, Cheng, and Yingkai Zhang."Improving scoringdockingscreening powers of protein–ligand scoring functions using random forest.” Journal of computational chemistry 38.3 (2017):169-177.

[2]Wang, Renxiao, et al. "The PDBbind database: Collection of binding affinities for protein− ligand complexes with known three-dimensional structures." Journal of medicinal chemistry47.12 (2004): 2977-2980.

[3]Li, Yan, et al. "Comparative assessment of scoring functions on an updated benchmark: 1. Compilation of the test set." Journal of chemical information and modeling 54.6(2014): 1700-1716.

[4]Ashtawy, Hossam M., and Nihar R. Mahapatra. "Task-Specific Scoring Functions for Predicting Ligand Binding Poses and Affinity and for Screening Enrichment." Journal of chemical information andmodeling 58.1 (2017): 119-133


GoDesign

ID:Molecular_Design_Lab

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章