【原】【深度学习】精准预测脂质结合蛋白无序区域残基的深度学习方法

GoDesign 2022-08-17 发布于北京

展开全文

背景

在生理条件下，很多蛋白都会有部分片段缺乏稳定的三级结构，这种称之为蛋白质内在无序区域（intrinsically disordered regions, IDRs）。有很多研究表明，这些无序区域参与了细胞的很多功能，它会跟蛋白、DNA、RNA、脂质，以及很多小分子发生相互作用。而这些在实验中很少有被注释，基于此发展了很多计算的方法来跨越这个鸿沟。目前这些方法都是集中在发展蛋白结合的无序区域预测，只有一个是DNA和RNA结合无序区域的预测方法，而脂质结合无序区域的方法暂时还没有。加上相比于版本Disprot7.2数据库，最新版本Disprot 8.0增加了50%的脂质结合无序区域的实验注释数据，基于此，Katuwawala等人近期在Bioinformatics发表了首个脂质结合蛋白无序区域的预测方法：DisoLipPred，并提供web server http://biomine.cs./servers/DisoLipPred/供用户使用。文章的通讯作者Lukasz Kurgan来自弗吉尼亚联邦大学计算机科学系，是一位生物信息学领域的专家，他有过自动化、生物工程、计算机等学科背景的训练。他也在无序蛋白领域开发了很多方法，其中flDPnn在Critical Assessment of Protein Intrinsic Disorder Prediction (CAID)赢得了第一名。

方法

图1提供了方法的流程图，总共包括四个模块，分别是bypass module, sequence profile module, deep neural network and rescaling module.

图1：DisoLipPred的预测流程图。

首先输入一条蛋白序列，然后过无序蛋白领域最准确的预测器之一SPOT-Disorder，接着过bypass module，这个模块的主要作用是利用现有无序蛋白区域预测非常成功的经验，来直接区分有序和无序，从而将重点放在无序上。

表1：预测与其他分子有相互作用的无序区域所用的sequence profile

中心这部分数字是根据其他预测器得到的sequence profiles，其中一个profile（红色框，包括溶剂可及性ASAquick，二级结构预测，PSIPRED等，具体见表1）用于预测相互作用无序区域而无视相互作用的具体分子；另一个profile（蓝色框，包括ASAquick, PSIPRED, putative disorder from SPOT-Disorder,还有46个人工经验挑选出来的物化特征，具体见表2）用于DLBRs（disordered lipid-binding residues）。

表2：用于DLBRs所用的profile和物化特征