【原】Nat Methods｜ScanNet：基于结构的蛋白质结合位点预测深度学习模型

智药邦 2022-06-03 发布于上海

展开全文

根据蛋白质的结构确定蛋白质的功能特性具有挑战性。

2022年5月30日，以色列特拉维夫大学Blavatnik计算机科学学院的Haim J. Wolfson等人在Nat Methods杂志发表文章，提出了一种可解释的深度学习模型，该模型直接从原始数据中学习具有功能的结构基序 (motifs)，从而可以将蛋白质结合位点和抗体表位准确地映射到蛋白质结构上。

摘要

从蛋白质的结构中预测其功能位点 (如小分子、其他蛋白质或抗体的结合位点)，可以了解其在体内的功能。目前，主要有两类方法：建立在手工创建的特征之上的机器学习模型和比较模型。它们分别受限于手工创建的特征的表现力和类似蛋白质的可用性。在这里，我们介绍了ScanNet，一个端到端的、可解释的几何深度学习模型，它直接从三维结构中学习特征。ScanNet根据原子和氨基酸相邻的空间化学排列建立了原子和氨基酸的表征。

我们训练ScanNet检测蛋白质-蛋白质和蛋白质-抗体结合位点，结果证明了其准确性，而且学到的滤波器 (filters) 是可解释的。最后，我们预测了SARS-CoV-2 刺突蛋白的表位，验证了已知的抗原区域，并预测到以前未被描述的抗原区域。总的来说，ScanNet是一个通用的、强大的、可解释的模型，适合于功能位点的预测任务。

ScanNet的网络服务器：

http://bioinfo3d.cs./ScanNet/

前言

尽管最近在实验性和基于人工智能的蛋白质结构测定方面取得了进展，但在结构和功能之间仍然存在差距。

最准确的功能位点预测方法是比较模型：给定一个查询蛋白，搜索具有已知功能位点的类似蛋白，将其位点映射到查询结构上。比较模型法有几个缺点：首先，它的覆盖范围是有限的，因为实验特征的蛋白质折叠或结构基序池很小；其次，功能位点在整个进化过程中得到了不同程度的保留。一方面，病毒蛋白的B细胞表位 (BCE) 经常发生抗原漂移，即仅在一个或几个突变后就消除了抗体的识别；另一方面，一些蛋白质-蛋白质相互作用 (protein–protein interactions, PPI) 主要由少数“热点”残基驱动，其他界面残基的突变和/或构象变化可以保持相互作用。这种“功能-结构基序”在序列和构象空间中的不变性一般是与基序相关的，因此是未知的。这阻碍了我们使用传统的比较方法来定义和识别这种基序的能力。

替代比较模型的方法是基于特征的机器学习。对于查询的蛋白质的每个氨基酸，计算出各种几何 (如二级结构、溶剂可及性、分子表面曲率) 、物理化学 (如疏水性、极性、静电势) 和进化 (如保守性、位置-权重矩阵、协同进化) 性质的特征。然后，使用随机森林或梯度提升等表格数据的机器学习模型对目标性质进行预测。对数学定义的特征进行推理有三个优点：(1) 能够泛化到与任何训练集蛋白质都不相似的蛋白质；(2) 序列敏感性高，即能够对高度相似的蛋白质序列输出不同的预测结果；(3) 推理速度快。然而，机器学习模型受到所使用的特征的表现力的限制，因为这些特征不能捕捉表征具有相关功能的基序的、原子或氨基酸的空间化学排列。

端到端可分模型，即深度学习，有可能克服这两种方法的局限性。事实上，深度学习模型可以通过反向传播直接学习数据特征及其不变性，尽管有大量的参数，但仍有很好的概括能力。将深度学习方法适应于蛋白质结构需要为蛋白质定义一个合适的表征方法。蛋白质可以用多种互补的方式表征，例如序列、残基图原子密度图、原子点云或分子表面，每一种都捕捉到不同的功能相关特征。

在这里，我们介绍了ScanNet (spatio-chemical arrangement of neighbors neural network, 邻接神经网络的空间化学排列)，一个为蛋白质结构定制的新的几何深度学习架构。ScanNet根据原子和氨基酸相邻的空间化学排列建立了原子和氨基酸的表征，并利用它们来预测每个氨基酸的标签。根据结构，ScanNet是端到端的可微分的，具有最小的结构预处理，产生快速的训练和推理。ScanNet的预测是局部的，在欧几里得变换中是不变的，并且以协同的方式整合了来自多个尺度 (原子、氨基酸) 和模式 (结构、多序列排列 (MSA) ) 的信息。其相应的参数函数是有表现力的，这意味着它可以有效地接近已知的手工创建的特征。通过适当的参数化和正则化，ScanNet学到的滤波器可以很容易地被可视化和解释。

我们在两个相关任务上展示了ScanNet的能力：预测蛋白质-蛋白质结合位点 (protein–protein binding sites , PPBS) 和抗体结合位点 (antibody binding sites , BCE)。ScanNet优于基于机器学习、结构同源性和基于表面的几何深度学习的基线方法。我们进一步对网络所学到的表征进行可视化和解释。我们发现它们包含已知的手工特征，并找到检测简单的、通用结构基序 (如氢键) 的滤波器，以及识别复杂特定任务的基序 (例如 O 形环和跨膜螺旋结构域) 的滤波器。应用于SARS-CoV-2刺突蛋白，ScanNet预测验证了已知的抗原区域并预测了以前未被表征的区域。

研究结果

ScanNet

ScanNet将蛋白质结构文件作为输入 (也可以选择从MSA中得到的位置-权重矩阵)，输出一个残基的标签概率。其四个主要阶段如图1所示，分别是：原子邻域嵌入、原子到氨基酸池化、氨基酸邻域嵌入和邻域关注。

图1：ScanNet结构概述

ScanNet的输入是一级序列、三级结构，也可以选择从进化相关蛋白质的MSA中计算出的位置-权重矩阵。首先，对于每个原子，从结构中提取相邻的原子并将其定位在一个局部坐标框架中 (左上)。所得的点云通过一组可训练的线性滤波器检测特定的空间化学排列 (上图中)，产生一个原子尺度的表征 (上图右)。在氨基酸水平上对原子表征进行聚合并与氨基酸性质相连接后，对氨基酸重复这一过程，得到一个氨基酸的表征 (底部)。后者被投射和局部平均，用于残基的分类。

ScanNet首先为每个重原子建立一个以其位置为中心并根据其共价键定向的局部坐标框架。接下来，它确定其最近的邻接原子。由此产生的邻域，即带有坐标和性质 (原子组类型) 的点云，通过一组空间-化学线性滤波器，产生一个原子级的表征。

为了计算氨基酸输出，原子表征在氨基酸尺度上汇集，并与嵌入的氨基酸信息 (氨基酸类型或位置权重矩阵) 相连接。构成一个氨基酸的原子有各种类型，可能发挥不同的功能作用。特别是，一些手工创建的特征 (如可接触的表面积) 是所有原子的平均信息，而其他特征如二级结构只考虑子集 (骨架原子)。因此，我们使用了一种可训练的、能够学习哪些原子与每个特征相关的多头注意集合操作，而不是传统的对称集合操作 (如平均或最大)。

最后，通过将氨基酸表征投射到标量值，在局部邻域中对其进行平滑处理，并通过逻辑函数转换为概率，得到空间上一致的输出概率。

用于预测蛋白质-蛋白质结合位点的ScanNet

蛋白质的PPBS (蛋白质-蛋白质结合位点) 被定义为直接参与一种或多种天然、高亲和力PPI的残基。

对一个蛋白质的PPBS的了解使人们了解它在体内的行为，特别是当它的伙伴未知并能指导对接算法时。用传统的方法预测PPBS是具有挑战性的，因为PPBS的结构基序比小分子结合位点更多样化、更不保守且更扩展。此外，从结构数据中只能得到不完整和有噪声的标签，因为 (1) 一个给定的蛋白质的大多数PPIs没有被结构化，(2) 相当一部分 (大约15%) 被结构化的蛋白质-蛋白质界面不是生理性的，而是晶体诱导的。

我们构建了一个非冗余的数据集，该数据集包括20K个具有代表性的蛋白链，这些蛋白链的结合点来自于Dockground数据库的蛋白复合物。PPBS数据集涵盖了广泛的复合物大小、类型、生物分类学、蛋白质长度，包含约5M个氨基酸，其中22.7%是PPBS。为了解决蛋白质空间采样不均的问题，我们为每条链引入了采样权重。

我们在PPBS数据集上评估了三种模型：(1) ScanNet， (2) 基于手工创建特征的机器学习管道和 (3) 结构同源管道。对于手工创建的特征基线，我们为每个氨基酸计算了各种几何、化学和进化特征，并使用xgboost (一种最先进的基于树的分类算法)。对于结构同源管道，首先使用MultiProt构建训练集链和查询链之间的成对局部结构排列，然后对排列进行加权和汇总，产生每个氨基酸的结合点概率。

ScanNet的单个模型的训练和评估需要1-2小时 (不包括预处理时间，使用单个Nvidia V100 GPU，每步大约10毫秒)，机器学习基线需要几分钟 (不包括特征计算时间，使用28核的Intel Xeon Phi处理器)，结构同源基线需要一个月 (28核的Intel Xeon Phi处理器)。我们还评估了Masif-site，一个基于表面的几何深度学习模型。由于Masif-site不是在同一个数据集上训练的，我们只报告了它的全局测试集性能。

我们发现，对于完整的测试集，ScanNet的精度-召回曲线下面积 (AUCPR) 为0.694 (表1)，准确率为87.7% (补充表1)，50%召回率下的精度为73.5% (扩展数据图4e,f)，以很大的优势达到了最佳性能。第二好的模型是结构同源基线，而Masif-site和手工创建的特征模型表现相似。当只考虑子集时，模型的排名有所不同 (图2a-d)。结构同源性基线在高同源性情况下表现最好，但其性能随着关联度的提高而迅速下降；当测试蛋白在训练集中没有类似的折叠时，它是最差的算法。相反，手工创建的特征基线的性能随着同源性程度的增加而缓慢增加，这意味着它不能忠实地识别以前看到的折叠。相比之下，ScanNet既能识别以前见过的折叠，也可以推广到未见过的折叠。

图2：用ScanNet对PPBS进行预测

代表性示例的ScanNet预测的可视化 (图2e 、f和补充图1-4) 说明预测在空间上是连贯的，并且在大多数情况下，结合位点被正确识别。总的来说，该网络在不同的复合物类型和大小、蛋白质长度和生物体上的表现都很一致 (扩展数据图5)。

接下来，我们对ScanNet表现不佳的训练和测试实例进行了识别和可视化 (补充图5)，证明了预测对训练标签中的噪音的稳健性。我们还进行了消融实验来研究网络组块的重要性 (表1和扩展数据图4)。

表 1 预测PPB的性能评估

表中显示了AUCPR。测试集的蛋白质被细分为四个不重叠的组，如图2中所述。对于Masif-site，只显示聚合性能，因为它的训练集与我们的不同。粗体表征最佳性能。

最后，我们使用Dockground非结合X射线和模拟数据集调查了结合时构象变化 (即诱导拟合) 对ScanNet预测的影响。总的来说，基于结合和非结合结构的预测是高度一致的，准确率从结合到非结合仅有轻微的下降。

表征的可视化和解释

ScanNet学到了什么？该网络是仅仅通过与训练实例的比较来推理，还是学习了结合的基本化学原理？它在样本外的环境中会有什么表现，比如无序的区域？为了更好地理解所学到的表征，我们在原子 (图3) 和氨基酸 (图4) 水平上可视化了表征的空间化学模式和低维投影。

图3：学习的原子表征法的可视化

图4：学习的氨基酸表征法的可视化

总的来说，这些发现支持了ScanNet学习到PPI的一些基本物理化学原理的假设。

为了巩固这些发现，我们使用Rosetta将ScanNet预测与实验性丙氨酸扫描和残基对结合能的贡献进行了比较。我们发现在结合残基中，具有较高结合概率和较大注意力系数的结合残基往往对结合自由能的贡献更大。此外，氨基酸过滤活性反映了结合所涉及的相互作用类型 (范德华、静电等)。

用于预测BCE的ScanNet

BCE (抗体结合位点) 被定义为直接参与抗体-抗原复合物的残基。

对BCE进行详尽的、高通量的实验测定是具有挑战性的，因为它们可能跨越多个非连续的蛋白质片段。由于它们在整个进化过程中的不稳定性，以及缺乏对特定抗原的详尽表位映射，预测也具有挑战性。对BCE的计算预测可用于构建基于表位的疫苗和设计非免疫原性的治疗性蛋白质。

我们从SabDab数据库中获得了带有注释BCE的3,756条蛋白质链的数据集。在这里，8.9%的残基被标记为BCE。数据集被分成五个子集进行交叉验证训练，来自不同子集的序列对之间的序列同一性不超过70%。我们在三种设置中评估了ScanNet：从头开始训练、在没有微调的情况下进行PPBS预测训练、使用PPBS网络作为起点通过迁移学习进行训练。

我们将其与手工创建的特征基线、结构同源基线和Discotope (一种基于几何特征和倾向性分数的流行工具) 进行了比较。我们还报告了没有进化数据的ScanNet、空预测器和仅基于溶剂可及性的预测器的性能。

通过迁移学习训练的ScanNet表现优于其他模型，AUCPR为0.178，L/10的正预测值为27.5% (图5a和补充表5)。与PPBS不同，ScanNet在有或没有进化信息的情况下表现同样出色。

图5：用ScanNet预测BCEs

总的来说，ScanNet的预测与刺突蛋白的已知抗原概况非常一致，并预测了一个通过高通量线性表位扫描无法检测的新表位。我们还预测了其他三种病毒蛋白的BCE：艾滋病毒包膜蛋白、流感HA-1和流感HA-3血凝素 (补充图10)。我们注意到，尽管HA-1和HA-3的折叠相似，但血凝素的表位预测却不同，这表明ScanNet可以适用于研究抗原漂移。

讨论

蛋白质的功能是基于一系列不同的结构基序。这些基序以原子和氨基酸的复杂空间化学排列为特征，不能完全包含在手工创建的特征中。相反，通过比较建模进行检测具有挑战性，因为它们的不变量，即功能-序列/构象扰动的集合是未知的。ScanNet是一种端到端的几何深度学习模型，能够通过反向传播直接从原始结构数据中学习这些基序及其不变量。我们通过对新编译的带注释的PPBS和BCE数据集的详细比较证明，它有效地利用了这些基序，优于基于特征的方法、比较建模和基于表面的几何深度学习。ScanNet达到87的准确度。

通过适当的参数化和正则化，模型学习的空间化学模式可以被明确地可视化并解释为先前已知的基序和新的基序。

最近使用深度学习在蛋白质结构预测方面取得了突破、推动了大量准确的蛋白质结构模型的发布。我们预计，ScanNet将被证明对分析这些蛋白质有深刻的意义，因为人们对这些蛋白质的功能知之甚少。

ScanNet对其输入是可区分的，并且不需要进化信息，可以与结构预测工具一起使用，以指导具有特定的结合或非结合特性的蛋白质的设计 (例如，非免疫性的治疗性蛋白质)。

最后，可解释的端到端学习与自我监督学习技术相结合，可以为在自然界中发现的具有功能的结构基序的完整词库铺平道路，加深我们对蛋白质功能核心原理的理解。

参考资料

Tubiana, J., Schneidman-Duhovny, D. & Wolfson, H.J. ScanNet: an interpretable geometric deep learning model for structure-based protein binding site prediction. Nat Methods (2022). https:///10.1038/s41592-022-01490-7

ScanNet uncovers binding motifs in protein structures with deep learning. Nat Methods (2022). https:///10.1038/s41592-022-01492-5