【原】【深度学习】粗粒化分子构象生成

GoDesign 2022-09-15 发布于北京

展开全文

——介绍——

分子模拟的粗粒化 (CG) 通过将选定的原子分组为珠子简化了粒子的表示，并大大加速模拟。然而，这种CG过程会导致信息丢失，这使得精确的反向映射，即从CG坐标恢复细粒度 (FG) 坐标，成为一个长期的挑战。来自MIT的Rafael Gomez-Bombarelli团队和唐建团队在2022年的ICML上联合发表了"Generative coarse-graining of molecular conformations"来解决这个问题。

——背景——

粗粒化分子动力学模拟 (CGMD) 可以通过更简单的组合规则显著加快化学空间的计算发现。对于具有几十万个原子的大分子模拟，CGMD能够达到观测蛋白质折叠等长时间尺度的事件。然而，这样的加速是以丢失FG原子细节为代价的，这对于研究原子级结构的性质和相互作用或在FG尺度上继续模拟是非常重要的。如何从CG坐标准确地恢复到FG坐标仍然是一个具有挑战性的问题。

传统的反向映射有随机投影和基于几何规则的。然而，这些方法通常只能产生较差的初始几何结构，还需要后续的MD来精修结构，从而产生相当大的计算成本，甚至可能导致与原始结构相比有较大的结构偏差。这些方法还需要维护体系特定的片段库，而仅适用于预定义的映射模式，因此其泛化性不强。而目前的几个机器学习模型在反向映射的FG几何结构上都不够理想。

——方法——

作者提出了一种新模型CGVAE (Coarse-Graining Variational Auto-Encoder, 图1)，该模型严格嵌入了反向映射变换的重要概率性质和几何一致性要求，将FG不确定性编码到隐空间中，并通过等变卷积将其解码回FG结构。具体来说，编码器部分负责提取FG和CG的结构特征，经过消息传递和pooling后映射到CG空间，得到CG尺度的隐变量，进一步得到后验分布。另外，仅考虑CG结构，再训练一个先验模型，得到先验分布，并利用此先验分布和后验分布计算KL散度，作为一个损失函数，是一个较典型的条件VAE编码器。编码器方面，作者利用vector neuron对边做卷积，预测坐标的相对位移。为了考虑手性，额外引入pseudoscalars和pseudovectors。最后再经过channel selection，基于CG-FG的映射，从CG节点的隐空间嵌入挑选出对应FG原子的嵌入向量，拼接后形成FG尺度的特征，并额外加入辅助损失函数来保证合理的键长，得到最终的重构损失函数。

图1. CGVAE的总体架构

——实验结果——

作者使用丙氨酸二肽和chignolin的MD轨迹作为数据集，五折交叉验证进行训练和评估。如下图2所示，反向映射后FG结构的质量是可观的。

图2. 左图为CGVAE在丙氨酸二肽和chignolin的粗粒化结构和反向映射的全原子结构;右图为不同分辨率(CG珠子的数目)下重构的全原子和GT结构的RMSD比较

作者还将模型与其他几个较为简单的baseline (MLP和Linear) 作了比较，下图2是用于比较的可视化结果。

图3.CGVAE和其他两个baseline的重构CG结构的可视化比较

——总结——

在这项工作中，作者提出了CGVAE模型，用于将CG结构反向生成FG结构。作者计划在未来将CGVAE这套框架扩展到更复杂的凝聚相系统中，在分子内和分子间水平上进行精确的反向映射。有研究兴趣或者有应用需求的读者可以访问源码: https://github.com/wwang2/CoarseGrainingVAE