背景 在生理条件下,很多蛋白都会有部分片段缺乏稳定的三级结构,这种称之为蛋白质内在无序区域(intrinsically disordered regions, IDRs)。有很多研究表明,这些无序区域参与了细胞的很多功能,它会跟蛋白、DNA、RNA、脂质,以及很多小分子发生相互作用。而这些在实验中很少有被注释,基于此发展了很多计算的方法来跨越这个鸿沟。目前这些方法都是集中在发展蛋白结合的无序区域预测,只有一个是DNA和RNA结合无序区域的预测方法,而脂质结合无序区域的方法暂时还没有。加上相比于版本Disprot7.2数据库,最新版本Disprot 8.0增加了50%的脂质结合无序区域的实验注释数据,基于此,Katuwawala等人近期在Bioinformatics发表了首个脂质结合蛋白无序区域的预测方法:DisoLipPred,并提供web server http://biomine.cs./servers/DisoLipPred/供用户使用。文章的通讯作者Lukasz Kurgan来自弗吉尼亚联邦大学计算机科学系,是一位生物信息学领域的专家,他有过自动化、生物工程、计算机等学科背景的训练。他也在无序蛋白领域开发了很多方法,其中flDPnn在Critical Assessment of Protein Intrinsic Disorder Prediction (CAID)赢得了第一名。 方法 图1提供了方法的流程图,总共包括四个模块,分别是bypass module, sequence profile module, deep neural network and rescaling module. 图1:DisoLipPred的预测流程图。 首先输入一条蛋白序列,然后过无序蛋白领域最准确的预测器之一SPOT-Disorder,接着过bypass module,这个模块的主要作用是利用现有无序蛋白区域预测非常成功的经验,来直接区分有序和无序,从而将重点放在无序上。 表1:预测与其他分子有相互作用的无序区域所用的sequence profile 中心这部分数字是根据其他预测器得到的sequence profiles,其中一个profile(红色框,包括溶剂可及性ASAquick,二级结构预测,PSIPRED等,具体见表1)用于预测相互作用无序区域而无视相互作用的具体分子;另一个profile(蓝色框,包括ASAquick, PSIPRED, putative disorder from SPOT-Disorder,还有46个人工经验挑选出来的物化特征,具体见表2)用于DLBRs(disordered lipid-binding residues)。 表2:用于DLBRs所用的profile和物化特征 因为有相互作用的无序区域残基特别多,而与脂质又相互作用的无序区域残基较少,基于此,作者借助于迁移学习,先构建一个partner–agnostic deep network(见图2A),随后将里边的参数冻住,去除最后一层,加了额外的层来训练脂质结合无序区域残基预测(图2B)。 图2:A)partner–agnostic deep network,B)在A的基础上添加的额外的层用于脂质结合无序区域预测。 最后一个模块是rescale,这个模块的做法主要是降低有序区域脂质结合的假阳性,因为最初预测有序的时候是直接利用了SPOT-Disorder。 结果 该方法的主要创新包括引入现已学习,脂质结合的相关特征,还有bypass module。为了评估他们的影响,作者采用了消融实验。评估指标源于confusionmatrix,步骤见表3,结果见表4。可以看到这几个特征对预测还是有显著性贡献的。 表3:消融实验设置步骤 表4:固定sensitives 和specificities下,DisoLipPred 和其变体有显著性差异(P-value <0.05) 随后作者跟其他间接性的方法进行比较,并在Saccharomyces cerevisiae proteome做了预测。还评估了膜蛋白,发现DisoLipPred能够很好地区分跨膜区域与脂质结合无序区域。这里介绍作者提供的一个案例-Sec-independent protein translocase protein TatA,见图3。有意思的是N端模型预测成了Lipid结合区域,而实验上也并没有明显证据显示这是有序还是无序区域。随后作者PDB中alignment也没有找到明显的结构片段。随后作者查阅文献发现这可能是一个与细胞膜上脂质结合的区域。预测结果与实验吻合。图3:TatAprotein的预测结果。 总结 本文介绍了一种用于脂质结合蛋白无序区域预测的深度学习方法,这也是首个脂质结合蛋白无序区域预测的方法,该方法在多个数据集上进行测试得到,模型质量得到验证。相应的web server http://biomine.cs./servers/DisoLipPred/ 供用户使用。 参考文献: Akila Katuwawala, Bi Zhao and Lukasz Kurgan "DisoLipPred: accurate prediction of disordered lipid-binding residues in protein sequences with deep recurrent networks and transfer learning". Bioinformatics 2022, 38, 115–124. |
|