分享

【蛋白设计】ChemNet: 蛋白-小分子复合物构象系综生成

 GoDesign 2024-12-23 发布于北京

—背景——

蛋白质与核酸、小分子、多肽以及金属等配体的相互作用对生物功能至关重要,但原子级别建模这些相互作用并预测其构象系综仍然面临较大挑战。已有的基于深度学习的结构预测工具通常针对特定类别的相互作用进行建模,这限制了对不同功能蛋白质的通用建模,同时这些方法对分子的输入特征因输入分子的类型而异,一定程度上限制了网络学习一般物理化学原理的能力。
为解决上述挑战,David Baker课题组开发了用于蛋白质-配体相互作用的全原子级建模网络ChemNet [1]。作者认为,要实现对蛋白质与各种类型配体结合构象的通用预测方法,需要实现对配体与蛋白质口袋原子的统一建模,这样有希望捕捉到本质的物理化学信息,实现在不同的结合状态,都能准确描述构象系综。这样的统一建模必须在全原子级别上进行。在原子级别上,在以往的以蛋白质为主的模型如AlphaFold系列、RoseTTAFold等中使用的进化信息与结构的相关性较小,因此,作者认为从蛋白序列生成构象系综不合适,应以结合位点或催化口袋周围的蛋白质主链的坐标,以及小分子、侧链的键连几何结构为起点。与蛋白质相互作用的小分子和氨基酸侧链的键合几何的原子级描述。这样的模型虽然无法从序列预测结构,但对于模拟小分子或结合肽的构象以及蛋白质结合位点和相互作用侧链的构象非常有用。
对整个复合物进行全原子级建模势必会导致体系过大而难以计算,作者认为,由于蛋白质的结构可以从PDB获取,或者用AF2或RF生成,可靠的蛋白质主链结构是较容易获得的。在已知结合位点(或相互作用区域)的情况下,此时的任务就是将配体对接到结合位点,调整蛋白质侧链和配体分子本身的构象。ChemNet将学习问题框定为结构去噪任务,在已知系统的所有化学(原子、成键)信息的前提下,从打乱的原子坐标重新生成结合构象。比如,在蛋白质-小分子对接的体系中,网络的输入包括蛋白质主链坐标、氨基酸序列和其侧链坐标(这些侧链的原子坐标会在Cα原子周围随机初始化),以及小分子的化学结构(原子坐标在分子中随机原子周围随机初始化),通过去噪过程生成预测的结合构象,并通过多次构象生成构象系综。作者将ChemNet应用在酶活性中心设计中,取得了较好的效果

——模型架构——

如图1所示,在模型输入中,所有类型的分子都用图来表示化学结构,节点代表重原子,边代表化学键。节点特征包含原子类型、初始3D坐标等信息。同时传入手性中心的信息,用一个4维向量描述3个原子绕手性中心顺时针排列的顺序。对于sp2碳,则用另一个feature描述sp2平面中心和相邻的三个原子。
ChemNet的网络架构借鉴了RoseTTAFold,使用了1D、2D、3D的三轨架构(图1D)。在将输入映射到1D、2D、3D嵌入(embedding)后,这3个嵌入被输入到迭代去噪模块,在对坐标去噪,输出3D构象以及构象的置信区间。

1. ChemNet的网络架构
在迭代模块(图2)中,首先对每个原子,基于空间距离选32个邻居构建原子邻接图,由图中的原子成对信息通过一个前馈层计算bias,来对2D嵌入计算attention,更新2D嵌入。然后使用一个SE3-Transformer网络,输出3D构象和1D嵌入。

图2迭代模块的架构
输入包含5部分(图3):1. 3D构象,即各原子坐标;2. 键分离邻接图,包含每个原子最近的16个成键邻居(图距离最近)和16个非成键邻居(空间最近)的信息;3. 1D嵌入;4. 2D嵌入;5. 键长、手性中心张角和sp2平面角的几何损失函数对原子坐标的梯度。根据更新的结构,重新计算原子邻接图并更新2D嵌入。之后在1D和2D轨分别接有原子和原子对(距离矩阵)的置信度预测头。最后对1D和2D嵌入进行残差连接。整个网络进行8次迭代,共享权重。

图3. 结构更新模块
模型训练的loss是由坐标预测偏差和置信度预测偏差组合而成的(图4)。坐标偏差包含键长、键角、手性中心张角、sp2平面角几项的偏差,和3个全原子FAPE loss。FAPE loss最初是在Alphafold2模型中用于蛋白质结构预测的,在这里修改为了对全原子体系计算坐标偏差。计算方法是:对成键的3原子组ijk,构建一个三维坐标系(如图5,基矢方向是平面法向量、三角形的一条边和其高,原点是高穿过的顶点),称为一个frame,在此坐标系下计算各个原子在预测构象和参考构象中的坐标偏差,对原子取平均值;再对每个frame计算平均偏差,对frame平均,得到FAPE。Interaction和small molecule FAPE则分别指对每个蛋白侧链的frame计算小分子的原子偏差以及只对小分子计算FAPE,使得训练过程更关注于配体构象的准确。

图4. 损失函数

图5. FAPE loss计算的示意图
置信度偏差中,plDDT即Alphafold2的plDDT函数,由对蛋白残基计算修改为对每个重原子计算;pRMSD为全原子RMSD的预测值;pDE是原子距离矩阵的预测偏差
——模型训练——
为了验证网络架构能够处理各种化学结构,作者用剑桥结构数据库(Cambridge Structural Database, CSD),对模型在小分子构象预测任务上进行训练。训练任务是基于其化学结构和随机初始化的起始坐标,预测小分子的构象。在CSD结构上训练ChemNet分为两个阶段:第一阶段在模型中串联了四个迭代模块,并且仅采用全原子 FAPE 作为损失项;第二阶段将迭代次数增加到八个,并增加了成键原子几何损失项(键长、键角、手性中心张角、平面角)以提升预测结构的局部质量(如图2B和C中红色与紫色所示)。对照实验表明(图6),将迭代次数减少到2次或用坐标和距离RMSD损失的组合替代FAPE,都会导致预测质量显著下降(如图2B和C中橙色和蓝色所示)。此外,当2D输入不包含键分离特征(一个整数,计算化学结构图中任意两个原子之间间隔的共价键的数量)而用一个0-1的特征表征两个原子是否属于同一个分子(即:能通过共价键构成的路径从原子A找到原子B)时,性能也会降低。训练完的ChemNet成功地准确生成了含有50多个原子的复杂大环化合物的三维结构。

图6. 模块必要性验证
而后,作者使用PDB(Protein Data Bank)中的蛋白质小分子复合物,对模型在复合物构象预测任务上进行训练。作者对PDB中的蛋白质小分子复合物进行了一定的筛选,去除了分辨率低(>2.5Å)、未解出原子多(>10%)、非标准残基多(>20%)以及所含小分子与设定的测试集中小分子过于相似(Tanimoto similarity > 80%)的结构,留下了近12万个结构作为训练和验证集。为了让模型学习分子在界面上的物理化学信息,这些结构中,只有水被移除,其他的如小分子、共价修饰、金属离子、核酸等都被保留。测试集为复合物结构预测任务是,在骨架原子位置不动的情况下,预测侧链原子和小分子的原子坐标。因为ChemNet用去噪过程来生成坐标,需要一个打乱的初始坐标,这里它的初始坐标是这样设置的:首先在结合位点附近随机选定一个原子截断中心,这个中心选定为小分子原子、蛋白原子、核酸原子、金属离子的概率比例为5:1:1:1,在截断中心空间距离最近(根据PDB结构算)的600个原子被选定,其他原子不动。选定的600原子,对骨架(蛋白质主链、核酸的磷酸-核糖链)原子,仅加σ为0.1Å的高斯噪声;对侧链原子,先坍缩到其相连的主链原子,然后加一个σ=1.5Å的高斯噪声;对小分子,会随机选其中一个原子,给坐标加一个σ=1.5Å的高斯噪声,然后所有其他原子坍缩到新坐标,也加同样噪声。由此获得一个骨架和小分子整体位置基本不动,但侧链和小分子的具体原子坐标打乱的结构。

图7. 模型在复合物构象预测任务的结果
由于大部分原子坐标被打乱,ChemNet的坐标生成不太依赖于初始构象(骨架坐标受影响较大);在结构生成的案例中,如图7的B、C、D、E(上下分别是heme和cortisol与蛋白质的复合物),从降维图(图7D)中看到,生成模型的采样基本能覆盖结合位点的构象空间;图7E展示了RMSD预测的结果,作者任务在生成较好的构象中,模型预测的RMSD是可以给构象RMSD较好地排序。不过,似乎pRMSD区分预测准确和不准确(RMSD特别大)构象的能力不是那么强。作者使用的测试集包含65个药物靶标蛋白的非天然药物结合构象,每个靶标都有一个天然小分子共晶结构,和若干非天然小分子共晶结构,数据集共含有1112个非天然结构。作者希望用从非天然结构预测来说明模型对不同小分子复合物构象预测的泛化性。测试结果展示在图7F和图7G。在图7F中,灰色虚线表示在不同的构象采样数量下,采样到的构象中RMSD的最小值<2Å的体系比例;橙色线表示用pRMSD值排序,排名最高构象RMSD<2Å的体系比例。可以看到用pRMSD排序,能找到大约75%预测准确的构象。图7G展示的是对接成功率,亮条是以RMSD<1Å为对接成功的标准,灰暗条是以RMSD<2Å为标准。可以看到,pRMSD的对接能力比其他置信度指标强;而与当前表现最好的RoseTTA GALigandDock相比,ChemNet在RMSD<2Å标准下表现稍好,但RMSD<1Å下表现较差。使用通用Rosetta力场对网络生成的对接构象进行最小化,并估算结合自由能来挑选构象,在<2 Å时没有显著变化,在<1 Å时对接成功率提高了7.3%,接近于GALigandDock。作者认为,虽然ChemNet在对接能力上没有超越GALigandDock,这仍是一个值得注意的表现,因为ChemNet对蛋白复合物体系统一建模,包含了复合物中除水外的所有分子,没有专门对非天然复合物的对接任务进行训练;且ChemNet直接从噪声生成构象,其他方法的结果受到初始构象的影响
——应用——
作者将ChemNet在复合物构象系综预测上的能力,利用在酶设计领域,取得了较好的效果。
在从头设计酶中,除了靶标的主链结构,关键催化侧链和反应底物的结合构象也至关重要。关键侧链的官能团与底物或过渡态之间的氢键和静电相互作用,对催化至关重要,由于氢键对距离和键角非常敏感,距离的0.5Å偏差和键角的30°偏差就可对氢键解离能产生很大影响,因此对构象预测精度的要求相当高。预组织(preorganization)是天然酶活性位点的重要特征,它指即便底物不存在,催化口袋中残基侧链也应保持形成氢键、静电作用等相互作用时的位置,这样酶结合底物时的熵损失小,并且催化残基位置能确保与底物或过渡态以正确的姿势结合。因此在酶设计时,需要评估活性位点的预组织性。过去的方法如Rosetta Rotamer Bolzmann,对侧链使用了转子(rotamer)近似,且对蛋白和小分子分别采样构象,无法考虑侧链移动与小分子运动的耦合。作者希望用ChemNet克服这一限制,达到在远小于MD模拟的运行时间下,获得比Rotamer Boltzmann更准确考虑侧链与小分子运动耦合的预组织性预测。RA95系列的逆羟醛缩合酶(retro-aldolase),含有一系列天然版本和定向进化改造的版本(图8B,这些版本的酶都有高分辨率的晶体结构),其催化羟醛缩合逆反应的机理如图8A,核心催化残基是活性位点的Lys。作者分析,中间体1和2涉及的基元反应活化能较高,是反应决速步,如果酶能稳定这些中间体,则可提高反应速率。作者用ChemNet预测了不同版本的RA95酶的催化口袋与中间体1、2的结合构象(图8C),考察模型给出的pRMSD,pRMSD越小,说明侧链位置预组织性越高。结果中,活性低的版本pRMSD都较大,越小的酶活性越高,这表明预组织性低是早期酶设计工作的一个主要缺点,MD模拟给出了类似的结果。由此说明,ChemNet可以快速评估酶活性位点的预组织性,指导酶设计工作。

图8. 逆羟醛缩合酶的预组织性预测、活性及设计
此外,作者还前瞻性地测试了ChemNet在指导蛋白质设计中的使用,以深度学习生成的NTF2样折叠为骨架进行了一轮全新的逆醛缩酶设计。NTF2样折叠此前成功地生成出高活性的新型荧光素酶。设计的步骤包括:NTF2样折叠骨架生成;识别潜在催化活性位点;理论酶(theozyme)安装;打分筛选酶设计;实验验证。全新的酶设计首先需要确定理论酶(theozyme),即过渡态(或中间体)被酶活性位点的官能团通过相互作用稳定的结构。作者使用活性最高的RA95逆醛缩酶的活性中心,作为理论酶(如图S3)进行后续设计。作者推测ChemNet可能能通过对预组织性的预测,辅助挑选酶设计(设计出的酶)。

图9. 理论酶设计
首先作者使用RoseTTAFold joint inpainting(RFjoint2)生成大量NTF2样折叠骨架,接下来需要将理论酶“安装”到骨架的合适位置。作者使用修改过的XML-Matcher确定骨架中的哪些位置能在几何形状上容纳与中间体相互作用的4个残基,得到一系列用于匹配理论酶与骨架位置的约束文件。然后将频繁出现在不同骨架中的理论酶与骨架位置的组合应用到10000个NTF2样骨架中,用LigandMPNN在有底物的条件下生成剩余的骨架序列。用Alphafold2验证序列结构,选出iDDT值高的序列进入下一步。接下来需要评估这些设计序列是否有高催化活性,作者使用一组理论酶中侧链极性原子之间的距离“nuc(NZ)” - “brd(OE1)”、“sup(OH)” - “brd(NE2)”、“nuc(NZ)” - “sht(OH)”来衡量氢键网络的形成,在能形成氢键网络的酶设计中,评估酶的预组织性来筛选酶设计。作者提出了两个策略:(1)naive策略:计算在“由AlphaFold2预测的结构”与“LigandMPNN设计的结构中”理论酶侧链重原子的RMSD。选取侧链极性原子间距在2.0-3.3Å的酶设计,按照侧链重原子RMSD排序,筛选出RMSD最小的90个酶,对这些设计用体外转录翻译系统(IVTT)测试活性。(2)ChemNet策略:以AlphaFold2预测的酶蛋白构象作为骨架结构,使用ChemNet生成50个复合物构象,并预测置信度;选取理论酶侧链的极性原子平均间距在2.0-3.3Å的酶设计,根据侧链极性原子pRMSD筛选设计,用IVTT测试活性。
由IVTT结果(图10,列出的设计为分别为两种策略筛选出的top 12设计,control组为已知的酶)可以看出,ChemNet策略筛选出来的酶设计活性显著高于naive策略。其中活性最高的酶,kcat/Km = 11,249.4 M-1min-1,活性与近期使用RFdiffusion 加 proteinMPNN设计的酶相当,远高于定向进化前早期的酶设计,该酶被命名为cnRA-50(图8D)。作者用ChemNet预测cnRA-50与其他设计的step1与step2结合构象的预组织性(图8E, F),发现活性最高的酶活性中心的侧链pRMSD显著小于无活性蛋白(图8G)。

图10. 两种评估策略筛选结果的活性对比
——总——
ChemNet用统一的全原子建模,实现了在给定蛋白质序列和主链原子位置的情况下,生成任意分子的构象集合,包括单独的分子和蛋白质复合物。在主链基本固定的场景下,它相比与Alphafold3、RoseTTAFold All-Atom等其他蛋白质结构预测方法,计算速度大大加快,从而能生成构象系综。统一的全原子建模,适用于所有类型分子的相互作用,便于扩展到生物分子之外的其他复杂的小分子。ChemNet快速生成蛋白质-小分子复合物构象系综的能力,对于计算酶设计和小分子结合位点设计工作具有相当的实用性:可以轻松评估活性位点的结构精度,以及关键催化/相互作用侧链基团的预组织程度。作者在全新逆醛缩酶的设计中使用ChemNet生成构象系综进行筛选,其活性远高于此前的设计。作者预计,基于ChemNet的构象系综生成将广泛用于预测复杂非蛋白质分子及其蛋白质复合物结构,并普遍地应用于评估酶和蛋白质-小分子结合位点设计
参考文献:
[1] Ivan Anishchenko, Yakov Kipnis, Indrek Kalvet, Guangfeng Zhou, Rohith Krishna, Samuel J Pellock, Anna Lauko, Gyu Rie Lee, Linna An, Justas Dauparas, Frank DiMaio, David Baker, Modeling protein-small molecule conformational ensembles with ChemNet, bioRxiv, 2024, DOI:10.1101/2024.09.25.614868.


作者:凌心辽
审稿:王宇哲
编辑:王宇哲

GoDesign
ID:Molecular_Design_Lab

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多