分享

【深度学习】利用基于深度学习的力场实现小分子的构象生成

 GoDesign 2022-08-17 发布于北京

——背景——

在许多计算化学问题中,我们需要获得小分子能量稳定的构象,但是实现这一常见的任务却存在非常多的挑战。为了精确计算小分子在特定构象下的能量,我们通常需要采用基于量子力学的方法,这些方法非常耗费时间和计算资源。基于经验的力场函数虽然计算起来更快,但是缺乏准确性。

近期,来自蒙特利尔大学和北京大学的史晨策等人在2021年ICML会议上发表了题为《Learning Gradient Fields for Molecular Conformation Generation》的论文,提出了一种新的小分子构象生成方法ConfGF。该方法先利用小分子三维结构数据训练一个基于深度学习的小分子力场,然后使用Langevin动力学对构象进行采样。

——方法——

分子构象生成的目的是从如下玻尔兹曼分布中采样:

其中U(x)代表在构象处于x时分子的能量。在已知U(x)时,我们可以利用MCMC(马尔可夫链蒙特卡洛),如Langevin动力学,对构象x进行采样。准确计算U(x)非常耗费时间和资源,利用深度学习,我们可以构造神经网络逼近U(x)来加快运算速度。

目前,大多数基于深度学习的力场函数,如DeepPotential,都通过直接拟合量化计算得到的势能来完成训练。相较这些工作,ConfGF使用了另一种损失函数来拟合立场:

其中为神经网络所参数化的力场梯度(对应于体系每个原子的受力情况)。直观的来讲,该损失函数使得力场有“降噪”效果,即在对原子进行扰动后,我们能够通过该立场的单步梯度下降回复到扰动前的状态。从统计学上来讲,该方法拟合的是构象分布对数似然值的梯度,即score matching。

理论上,需要是旋转协变的。即在我们对体系进行旋转变换后,每个原子所收到的力也需要进行相应的变换。为实现该目标,模型使用如下的方法构建

可以验证通过该方法构建的网络满足旋转协变特性。模型训练的损失函数和网络构架如图1所示。

图1:模型训练的损失函数和网络构架

在完成训练后,我们可以利用结合Langevin动力学对构象进行采样。过程如图2所示。

图2:小分子构象生成流程

——结果——

作者将ConfGF与以往方法进行了比较,发现ConfGF能够实现更好的表现。下表展示了模型生成分子构象的多样性(使用COV衡量,越高越好)以及准确性(使用MAT衡量,越低越好)。在数据集GEOM-QM9和GEOM-Drugs上,ConfGF相比RDKit以及另外三种基于深度学习的方法(CVGAE,GraphDG,CGCF)展示出了更好的表现。

表1:模型在数据集GEOM-QM9和GEOM-Drugs上的表现

下图展示了模型对部分分子生成的构象:

图3:模型对部分分子生成的构象

——小结——

史晨策等人开发了一种新的分子构象生成方法ConfGF,该方法利用score matching学习了一套基于神经网络的小分子力场用于构象生成,在表现上优于已有方法。未来的工作可以使用类似的方法实现三维分子设计,或者将该方法用于其他类型的体系,例如蛋白三维结构预测。

参考文献:

[1] Shi, Chence, et al."Learning gradient fields for molecular conformation generation." International Conference on Machine Learning (2021).

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章