【原】【蛋白设计】基于表面指纹的蛋白质结合位点预测和binder设计

GoDesign 2022-11-28 发布于北京

展开全文

——背景——

蛋白质-蛋白质相互作用（PPI）是大多数生物过程中蛋白质功能的基础，虽然基因组、蛋白质组和结构数据不断增长，人类对驱动这种作用力的决定因素依然理解不透彻，这种知识差距也一直是全面了解PPI网络和从头开始设计蛋白质的主要阻碍。今年六月，Bruno E. Correia教授课题组在bioRxiv上发表了题为“De novo design of site-specific protein interactions with learned surface fingerprints”的文章，提出了一种利用蛋白质表面互作指纹（MaSIF，Molecular Surface Interaction Fingerprinting）来指导蛋白质结合位点预测和binder从头设计的方法^[1]。MaSIF方法其实早在2020年被发表在Nature Methods上^[2]，本篇文章是对之前方法的进一步延伸扩展以及通过大量的实验案例证明了其模型的有效性。

——指纹生成——

MaSIF的主要思想是： PPI一般是在具有化学和几何互补性的蛋白质分子表面之间形成的，而互补性特征的出现是范德华相互作用（几何互补性）、疏水效应和静电相互作用（化学互补性）这些因素对稳定PPI贡献的结果，因此用包含了这些特征的描述符来表示蛋白质将有利于互补表面片段的可靠识别。

MaSIF的生成过程如下：

1、首先对蛋白质表面进行网格打点，以每个点为中心，12埃为半径将表面分解为具有固定测地线半径的重叠块，每一个组块称为一个patch。其中，12埃为经验值，此时patch的表面积为400平方埃左右，与瞬态相互作用界面的中值大小接近；

2、对于patch中的每个顶点，计算每个顶点的两个几何特征（形状指数，距离相关曲率）和三个化学特征（亲水指数，静电分布，自由电子和质子供体的位置），引入极坐标对这些特征进行空间定位；

3、把这些特征输入到一个卷积神经网络里，最后输出包含了几何和化学信息的每个patch的矢量指纹描述符。

图1. MaSIF生成流程

——设计流程——

为了解决从头binder设计问题，作者设计了一个三阶段的计算流程：i）使用MaSIF预测目标蛋白的可能结合位点；ii）基于MaSIF在包含1.4亿个patch的数据库中搜索与结合位点指纹互补的结构基序（binder seed）；iii）利用Rosetta MotifGraft在scaffold数据库中搜寻包含seed结构的蛋白质，并用RosettaDesign对设计的相互作用界面进行优化，前两步流程合在一起称为MaSIF-seed。

结合位点预测

作者预先训练了一个称为MaSIF-site的模型，以蛋白质表面指纹为输入，输出每个表面顶点参与PPI的可能性预测分数，在包含12002个有共结晶结构的蛋白质的数据集上进行了训练和测试。

互补binder seed 搜寻

基于MaSIF，可以发生相互作用的两个patch指纹描述符应该互补。文章中判断指纹互补的方式为：对其中一个patch的数字特征乘于-1后，其与互补patch的特征向量的欧几里得距离应该接近于零。基于此标准，文章预训练了一个MaSIF-search模型来进行两个patch之间指纹描述符的距离计算。作者从PRISM等数据库收集可发生固有或瞬时PPI的蛋白质对，构建了包含超过100, 000对具有高形状互补性的相互作用patch，以及一组随机选择的用作非相互作用的patch的数据集。模型每次以binder，目标蛋白和非binder的patch指纹三个数据为一套作为神经网络输入，输出矢量描述符间的欧几里得距离，训练时以最小化binder和目标蛋白指纹描述符间的欧几里得距离、最大化目标蛋白与非binder指纹描述符间的欧几里得距离为目标。实际预测筛选时，当数据库中的patch与目标蛋白的欧几里得距离小于某个边界值即可认为其是一个可能的binder seed，文章中取的边界值为2.0左右。

图2. 结合MaSIF和Rosetta的binder设计流程

——模型性能——

为了对方法进行基准测试，作者从PDBBind数据库中收集了31对具有PPI的蛋白质，在每一对中，其中一个蛋白质的界面包含单个α螺旋段。然后作者从PDB中随机提取了1000个螺旋片段，分解为600, 000个patch，测试模型是否能在这些patch中识别出真正的binder seed，并与其他一些传统的对接方法进行了比较。

表1. MaSIF-seed性能的基准测试，平均时间以分钟为单位

由表可见，MaSIF-seed不仅binder识别能力远远比对接方法更优，31个案例中有18个能识别出正确的binder seed，而且模型需要的时间仅为其他方法的1/200左右，效率大大提高。

——实例研究——

文章中选择了三个靶点：SARS-CoV-2刺突蛋白的受体结合域（RBD）、PD-1和PD-L1，使用上述的流程对这三个靶点进行了binder设计，并通过实验测试了这些binder的结合能力。

SARS-CoV-2刺突蛋白的RBD

模型找出来的位点为一个与ACE2结合区域不同但重叠的位点，因此理论上设计出的binder应该可以抑制ACE2-RBD相互作用。最初的一轮设计给出了63个binder，但经酵母展示实验测试后，所有binder的结合能力较低。经3轮突变优化后，其中代号为DBR3_03的一个binder展现出了良好的亲和力，K_D为80nM并且结构折叠稳定。进一步的实验表明，融合蛋白Fc-DBR3_03能与大多数受关注的新冠病毒变体的刺突蛋白结合，但具有 L452R 突变的变体除外。此外，其中和omicron的效力与阿斯利康临床批准的一个抗体混合物（AZD）相差一个数量级左右。

图3. 模型预测出的SARS-CoV-2刺突蛋白上的结合位点（红色）

图4. Fc-DBR3_03 与大多数关注变体的刺突蛋白结合（左）和其与阿斯利康抗体混合物中和omicron效力的比较（右）

PD-L1

此次模型识别的位点与PD-L1本身结合位点显著重叠，但第一轮设计出来的binder依然结合力较弱，对其中一个binder进行4轮突变优化后可获得K_D值为65nM的结构。

PD-1

由前面两个案例可以看出，模型初始设计出的蛋白结合亲和力不高，需要依赖后续的突变优化，因此作者对原先的设计流程进行了优化，一是在找到binder seed后先对其序列进行优化；二是利用Rosetta进行界面优化时着重优化极性相互作用。利用优化后的流程针对PD-1进行binder设计，识别出的位点与实际结合位点重合度较高，并且仅通过一轮设计就得到了K_D为4.2μM的结构。

图5. 优化后的设计流程

——总结——

1、基于蛋白质分子表面指纹，可以在令人生畏的搜索空间中快速可靠地识别与特定目标结合的片段；

2、但本篇文章仅是针对螺旋的设计，在构象灵活性和蛋白质主链对突变的适应性上有所欠缺。

参考文献：

[1] P. Gainza et al, De novo design of site-specific protein interactions with learned surface fingerprints. bioRxiv(2022). DOI: 10.1101/2022.06.16.496402.

[2] P. Gainza et al, Deciphering interaction fingerprints from protein molecular surfaces using geometric deep learning. Nature Methods 17 (2022): 184-192. DOI: 10.1038/s41592-019-0666-6.