分享

基于深度学习的蛋白质二级结构预测模型

 GoDesign 2022-08-17 发布于北京

    众所周知,蛋白质三维结构决定其生物学功能,获取结构的途径通常源于三种实验方法:X射线晶体衍射法(X-ray diffraction method)、核磁共振波谱法(nuclearmagnetic resonance spectroscopy, NMR)、冷冻电镜三维重构(cryo-electronmicroscopy,Cryo-EM)。然而部分蛋白质难于结晶、蛋白质相对分子质量大,实验上无法直接获取结构,使得人们发展理论预测蛋白质结构的方法。

    蛋白质的三维结构很大程度上取决于其氨基酸序列,然而直接从蛋白质序列预测三维结构是非常困难的。蛋白质的二级结构反映了蛋白质结构局部类型,因此准确的二级结构预测能够有利于产生更精确和高分辨率的三级结构。蛋白质二级结构预测研究可以追溯到20世纪70年代,最早是采用统计模型分析氨基酸出现在不同二级结构元素helix (H),、strand(E) 、coil (C)的概率。得益于21世纪的各种机器学习方法,尤其是深度神经网络的发展,人们提出了众多基于序列的蛋白质二级结构预测模型,任务是识别序列上氨基酸的8分类问题:3种螺旋(G for 310helix, H for alpha-helix, and I for pi-helix),2种链(E for beta-strand and B for beta-bridge),3种卷曲(T for beta-turn, S for high curvature loop, and L for irregular)。

1)基于卷积神经网络模型DeepCNF[1]

    DeepCNF 使用21维PSSM 矩阵和21维one-hot二值向量来表征蛋白质序列特征,由深度卷积层CNN对输入矩阵进行特征提取,条件随机场CRF两层连接卷积层提取的信息,输出识别的类别,具体见图2。

图1 左图全连接神经网络,右图卷积神经网络;卷积网络可以获取局部邻近信息。

图2 DeepCNF 结构:输入特征到多层卷积层,CRF两层:连接卷积层,输出类别层。

    该工作针对5个数据集(CullPDB, CB513, CASP10,CASP11 and CAMEO)进行了评估,与过去的模型对比在分类预测上取得更好的表现。不仅如此,文章中更进一步分析了模型超参数对分类结果的影响,并且更细致地比较了模型的召回率和精确度,详见论文结果分析。

表1 在5种数据集上的Q8 准确率对比。

2)基于循环神经网络模型DCRNN[2]

    DCRNN模型同样采取了21维PSSM矩阵和21维one-hot二值向量作为蛋白质序列的特征输入,为了避免21维二值向量稀疏产生的影响,作者使用自然语言处理的方法将其映射到50维稠密向量。通过多层卷积神经网络对蛋白质序列进行特征提取。相比于DeepCNF,作者为了模型在预测时能更好地从特征提取中获得局部独立信息、长程信息,引入双向GRU层来进一步特征提取。最终将提取的特征输入给两层全连接用于多任务分类预测。该模型跟过去的模型相比取得进步,通过模型结构的改进,为人们对二级结构预测模型的拓展提供了新的思路。

图3 DCRNN结构:输入特征到多层卷积层,BGRU3层,全连接2层,多任务输出层。

表2 在CB513数据集上的Q8 以及各个二级结构标签准确率对比。

表3 CB6133数据集上训练,CASP10、CASP11数据集外部测试。

——总结——

    目前,将深度神经网络应用于蛋白质结构预测是一个重要的研究方向,不仅如此,人们致力于设计高效、简洁的端对端模型,试图建立理解蛋白质序列内部信息的可解释模型,从而还能拓展到诸如蛋白质相互作用、蛋白质分类等计算生物学任务。

参考文献:

1. Wang,Sheng , et al. "Protein Secondary Structure Prediction Using DeepConvolutional Neural Fields." Scientific Reports 6 (2016).

2. Li,Zhen , and Y. Yu . "Protein Secondary Structure Prediction Using CascadedConvolutional and Recurrent Neural Networks." International Joint Conference on Artificial Intelligence (IJCAI) 2016.


GoDesign

ID:Molecular_Design_Lab

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多