三维结构信息的表示对蛋白质结构相关的机器学习任务具有重要意义。图神经网络(GNN)编码蛋白结构虽然擅长于描述残基间的关系,但是缺少了几何信息。发表在ICLR 2020的文章"learning from protein structure with geometric vector perceptrons"开发了GVP这一网络模块,可以将蛋白3D结构向量融入GNN中,不仅满足旋转平移协变性,并且在结构质量评估、蛋白质设计的任务上取得了不错的效果。GVP(geometric vector perceptrons)模块:GVP模块的输入为一组标量与向量(s, V),该模块较为简单。输入向量是坐标间的向量(如Cαi+1−Cαi)可以保证平移的不变性。通过利用向量的L2范数,可以实现s的旋转不变与V的旋转协变(或不变)。作者将GVP模块加入到GNN中,可以将graph的节点与边加入更加丰富的向量信息表达用于学习。在该模型中蛋白结构被表示为一个graph G = (V, E)。其中节点特征Vi包含了主链二面角sin和cos的标量信息(由Ci−1, Ni ,Cαi , Ci , Ni+1坐标计算的φ, ψ, ω)、Cαi+1−Cαi和Cαi−1− Cαi单位向量信息、Cβi – Cαi单位向量信息(假设Ni、Cαi、Ci、Cβi组成接近一个正四面体)。如果用于结构评估任务,还加入氨基酸组成的标量信息。Ej→i的特征包含了Cαj−Cαi的单位向量、CαjCαi距离的高斯径向基表示、j-i序列间隔的正弦表示。该网络被称作GVP-GNN网络,网络以消息传递的方式,不断更新节点的信息。g表示GVP模块,与分别表示节点i与边j->i的embedding,代表从节点j到i传递的消息。在蛋白设计任务中,GVP-GNN构成masked encoder-decoder架构,学习结构给定条件下序列的联合分布,自回归(autogressive)地生成序列信息。在结构质量评估任务中,GVP-GNN结合全连接层,输出节点平均的预测值。 蛋白质设计的数据集来自CATH 4.2 数据集(来自 Ingraham et al. (2019)),模型质量评估的数据集来自CASP5-12比赛。该模型在CATH4.2的测试集上取得了state-of-the-art的成绩,分别在长度短于100蛋白、单链蛋白和全测试集上,都超越了Structured Transformer(Ingraham et al. (2019))和Structured Transformer文章ablation实验中表现最好的Structured GNN。 在TS50外部测试集上sequence recover为44.9%,排名第二。 在CASP11、12、13测试集上,GVP-GNN预测GDT-TS值也取得了优秀的表现。与其他只基于结构信息的预测模型进行了比较,GVP-GNN几乎在global与平均per-target的pearson相关系数都是最优。作者开发了GVP模块可以充分利用蛋白三维坐标的信息,增强了GNN对蛋白的表达能力,并且GVP模块可以以轻量级的参数完成生物大分子几何的协变与不变表示。参考文献: Jing, Bowen, et al. "Learning from Protein Structure with Geometric Vector Perceptrons." International Conference on Learning Representations. 2020. John Ingraham, et al. "Generative models for graph-based protein design. " In Advances in Neural Information Processing Systems, pp. 15794–15805, 2019.
|