分享

【机器学习】UCBShift:结合结构比对和机器学习方法的蛋白质化学位移预测

 GoDesign 2022-08-17 发布于北京
背景——

核磁共振波谱中的化学位移信息能够包含蛋白质二级结构、主链扭转角、残基暴露比例等定量信息,为了充分利用高质量的NMR测定结果,有必要开发将高精度结构和NMR位移之间联系起来的计算模型。受到实验数据量所限,传统机器学习方法通常需要与序列比对的经验结果相结合,由此开发了SHIFTX2[1]SPARTA+[2]等程序。2020年,来自加州大学伯克利分校的TeresaHead-Gordon研究组在Chemical Science上发表题为“Accurate prediction of chemical shifts for aqueous protein structure on 'Real World’ data”的论文,他们设计了一个名为UCBShift的化学位移计算程序,相较SHIFTX2等预测方法,在蛋白质的化学位移预测上具有较为显著的改进。

——研究方法——

UCBShift预测器分为两个子模块:机器学习模块(UCBShift-X)和迁移预测模块(UCBShift-Y),如图1所示。这两个模块设计分别与SHIFTX2中的对应组件SHIFTX/Y+类似,UCBShift-X模块主要从给定残基中按原子类型提取特征,并将提取特征映射到化学位移,UCBShift-Y模块则对数据库中的蛋白质进行序列比对和结构比对从而迁移已有的化学位移信息。

图1 UCBShift的总体架构

UCBShift-X模块相较SHIFTX+,首先其会同时根据查询的残基的前后残基进行特征提取,并包含了更多类型的特征,包括残基的φψ角、DSSP产生的二级结构信息、绝对和相对可及表面积、接触模型的S2阶参数、多项式转换后的某些残基特征如氢键距离(dHB)等可能与二次化学位移相关的特征。在提取特征后用管道的方式先后经过决策树和随机森林预测,通过决策树通过从特征范围均匀分割的割点中决策,得到中间结果。而随机森林则将上述决策结果以及分割前的特征进行比较,计算上述最优割点拆分前后的信息熵差异,即基于决策树的结果和所有其他输入特征进行预测和学习,得到预测结果(R1),这可以视为是一种boosting算法的变体。
UCBShift-Y模块首先使用本地BLAST算法在RefDB数据库中进行序列比对,并使用mTM-align算法[3]进一步比对显著匹配的序列的PDB和所查询的PDB结构,保留TM-score大于0.8以及RMSD小于1.75Å的结果。对于匹配的PDB序列,使用Needleman-Wunsch结构比对来决定最佳的RefDB序列,如果残基完全相同,那么直接迁移RefDB的化学位移,否则,迁移来自RefDB的二次化学位移。残基I原子A的化学位移根据参考残基J的位移以下式进行计算:

其中是原子A在两个残基的无规则卷曲段时的位移,而是数据库中所匹配片段对应残基的化学位移。
接着,采用第二个随机森林(R2)预测器,除了从结构提取的特征以及R1以外,还接受UCBShift-Y的二次化学位移、以及匹配质量打分, 并使用UCBShift-Y能够成功预测的子集进行训练,由此,整个算法最终预测结果参考了R1(当没有比对结果时)或R2生成的结果,以完成总的化学位移预测,即:


——结果和讨论——

作者选用了200个具有高分辨率X射线结构且RefDB中具有化学位移的蛋白质形成单独的测试集,且滤除同源性大于30%的蛋白质,生成了由100个蛋白组成的低同源性的测试集(LH-Test)进行测试。结果如表1所示, 可见如果设计的序列同源性很高时,UCBShift能够据此获得比SHIFTX2更准确的结果,而对于低同源性数据集(LH-Test)时,相较SHIFTX2的优势则不那么明显,这说明该方法可能对成员数量较多的蛋白家族的预测更有帮助。
1 在测试集、低同源测试集上与SPARTA+,SHIFTX2RMSE横向比较

为分析结构比对的性能,将UCBShift-Y和SHIFTY+的比对结果进行了比较,结果显示预测低序列同源性的蛋白时,能够较好地降低RMSE。作者还以蛋白1E4V为例展示结构比对的性能,如图2所示,与通过序列比对查找到的其G10V突变体(pdbID:4AKE)进一步进行结构比对来进行化学位移预测,能够将相关系数提高至0.94,并将RMSE降低到0.25ppm。说明结构比对能够较明显地改善仅仅序列比对带来的离群值

图2 使用序列比对(B)和结构比对(C)的迁移预测模块结果分析

作者认为,受数据量限制,基于决策树的预测器可能比基于深度学习的方法在次级化学位移预测上更具有竞争性,UCBShift-X和加入结构比对信息的预测结果如表2所示。由表可知拥有参考同源序列的结构比对方法预测比R1更加准确,但加入机器学习方法会进一步提高准确性,说明仅参考R0UCBShift-Y)时,R1对次级化学位移的预测能够进一步改善预测结果ML with R2),此处的UCBShift是总体对于序列和结构比对结果不确定的蛋白的预测结果,是不利样本的评估。
表2 UCBShift各部分预测的RMSE

——小结——

总体而言, SHIFTX2等算法在低序列同源度的蛋白预测中常出现离群值,这些离群值大多是由序列信息之外,包含在高级结构的差异所造成的,因此UCBShift通过结合结构比对能够大大改善对离群值的预测结果。然而当缺少高置信度的参比序列时,机器学习算法提供的结果还具有较大的提升空间。缺乏高质量的数据是应用深度学习方法的一大阻碍,但能否应用半监督学习等方法弥补数据的缺陷,笔者期待有这方面的应用和报道。

参考文献:
[main] Li, Jie, et al. "Accurate prediction of chemical shifts for aqueous protein structureon “Real World” data." Chemical Science 11.12 (2020): 3180-3191. doi: 10.1039/ C9SC06561J
[1] Han, Beomsoo,et al. "SHIFTX2: significantly improved protein chemical shift prediction." Journal of biomolecular NMR 50.1 (2011): 43. doi:10.1007/s10858-011-9478-4
[2] Shen, Yang, and Ad Bax. "SPARTA+: a modest improvement in empirical NMR chemical shift prediction by means of an artificial neural network." Journal of biomolecular NMR 48.1 (2010): 13-22. doi: 10.1007/s10858-010-9433-9
[3]Dong, Runze, et al. "mTM-align: an algorithm for fast and accurate multiple protein structure alignment." Bioinformatics 34.10 (2018): 1719-1725. doi:10.1093/bioinformatics/btx828

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多