分享

【深度学习】精准预测脂质结合蛋白无序区域残基的深度学习方法

 GoDesign 2022-08-17 发布于北京

背景

在生理条件下,很多蛋白都会有部分片段缺乏稳定的三级结构,这种称之为蛋白质内在无序区域(intrinsically disordered regions, IDRs)。有很多研究表明,这些无序区域参与了细胞的很多功能,它会跟蛋白、DNA、RNA、脂质,以及很多小分子发生相互作用。而这些在实验中很少有被注释,基于此发展了很多计算的方法来跨越这个鸿沟。目前这些方法都是集中在发展蛋白结合的无序区域预测,只有一个是DNA和RNA结合无序区域的预测方法,而脂质结合无序区域的方法暂时还没有。加上相比于版本Disprot7.2数据库,最新版本Disprot 8.0增加了50%的脂质结合无序区域的实验注释数据,基于此,Katuwawala等人近期在Bioinformatics发表了首个脂质结合蛋白无序区域的预测方法:DisoLipPred,并提供web server  http://biomine.cs./servers/DisoLipPred/供用户使用。文章的通讯作者Lukasz Kurgan来自弗吉尼亚联邦大学计算机科学系,是一位生物信息学领域的专家,他有过自动化、生物工程、计算机等学科背景的训练。他也在无序蛋白领域开发了很多方法,其中flDPnn在Critical Assessment of Protein Intrinsic Disorder Prediction (CAID)赢得了第一名。

方法

图1提供了方法的流程图,总共包括四个模块,分别是bypass module, sequence profile module, deep neural network and rescaling module. 

图1:DisoLipPred的预测流程图。

首先输入一条蛋白序列,然后过无序蛋白领域最准确的预测器之一SPOT-Disorder,接着过bypass module,这个模块的主要作用是利用现有无序蛋白区域预测非常成功的经验,来直接区分有序和无序,从而将重点放在无序上。

表1:预测与其他分子有相互作用的无序区域所用的sequence profile

中心这部分数字是根据其他预测器得到的sequence profiles,其中一个profile(红色框,包括溶剂可及性ASAquick,二级结构预测,PSIPRED等,具体见表1)用于预测相互作用无序区域而无视相互作用的具体分子;另一个profile(蓝色框,包括ASAquick, PSIPRED,  putative disorder from SPOT-Disorder,还有46个人工经验挑选出来的物化特征,具体见表2)用于DLBRs(disordered lipid-binding residues)。

表2:用于DLBRs所用的profile和物化特征

因为有相互作用的无序区域残基特别多,而与脂质又相互作用的无序区域残基较少,基于此,作者借助于迁移学习,先构建一个partner–agnostic deep network(见图2A),随后将里边的参数冻住,去除最后一层,加了额外的层来训练脂质结合无序区域残基预测(图2B)。

图2A)partner–agnostic deep network,B)在A的基础上添加的额外的层用于脂质结合无序区域预测。

最后一个模块是rescale,这个模块的做法主要是降低有序区域脂质结合的假阳性,因为最初预测有序的时候是直接利用了SPOT-Disorder。

结果

该方法的主要创新包括引入现已学习,脂质结合的相关特征,还有bypass module。为了评估他们的影响,作者采用了消融实验。评估指标源于confusionmatrix,步骤见表3,结果见表4。可以看到这几个特征对预测还是有显著性贡献的。

 表3:消融实验设置步骤

表4:固定sensitives 和specificities下,DisoLipPred 和其变体有显著性差异(P-value <0.05) 

随后作者跟其他间接性的方法进行比较,并在Saccharomyces cerevisiae proteome做了预测。还评估了膜蛋白,发现DisoLipPred能够很好地区分跨膜区域与脂质结合无序区域。这里介绍作者提供的一个案例-Sec-independent protein translocase protein TatA,见图3。有意思的是N端模型预测成了Lipid结合区域,而实验上也并没有明显证据显示这是有序还是无序区域。随后作者PDB中alignment也没有找到明显的结构片段。随后作者查阅文献发现这可能是一个与细胞膜上脂质结合的区域。预测结果与实验吻合。

图3:TatAprotein的预测结果。

总结

本文介绍了一种用于脂质结合蛋白无序区域预测的深度学习方法,这也是首个脂质结合蛋白无序区域预测的方法,该方法在多个数据集上进行测试得到,模型质量得到验证。相应的web server  http://biomine.cs./servers/DisoLipPred/  供用户使用。

参考文献:

Akila Katuwawala, Bi Zhao and Lukasz Kurgan "DisoLipPred: accurate prediction of disordered lipid-binding residues in protein sequences with deep recurrent networks and transfer learning". Bioinformatics 2022, 38, 115–124. 

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多