分享

ComENet 丨一个能高效且完整学习3D分子图的神经网络

 DrugAI 2023-03-15 发布于韩国
撰稿人:肖宇航 审稿人:于洲

在机器学习中,分子、蛋白质和量子系统常被建模成图像用于计算,比如2D图神经网络(GNNs)。这些基于2D图像的算法目前已被广泛学习。但随着机器学习的发展,2D图固有的缺陷逐渐显现在很多研究中,3D信息变得愈加重要,于是出现了新的数据形式——3D图像。不过目前的基于3D图的方法还存在缺陷:1)无法完整地结合3D信息;2)无法高效习得3D图。大多数方法只能使用含有部分3D信息的3D图,或者通过增加计算上的花费来追求信息完整性。

2022年9月29日,来自德克萨斯A&M大学和弗洛里达州立大学的Limei Wang团队在arXiv上刊登了一篇题为ComENet: Towards Complete and Efficient Message Passing for 3D Molecular Graphs的文章。他们开发的ComENet是第一个完整且高效的3D分子图学习图神经网络,它可以完全地结合3D信息而不会丢失信息。这一创新开发将在药物发现和材料发现等应用中发挥重要作用。

作者首先给出了完整性的定义:直观来说,如果几何变换在使用任何两个不同的3D图时生成不同的表示,则可以认为该变换是完整的。基于这一定义,作者提供了一个新的消息传递方案,即通过重要的旋转角度来实现全局完整性。他们保守地假设1跳邻域的局部完整性已知,在这基础上来获得2跳邻域的完整性(如图1)。图中Ni和Ni2表示结点i的1跳;邻域和2跳邻域,通过具体化|Ni|的所有旋转角度后,就可以得到结点i的2跳邻域上的完整表示。实现多跳邻域的方式也是类似的,已知n跳邻域来获得n+1跳邻域的完整表示。根据此方法便能轻松地得到全局完整性。

此外,作者还提出了一个新的且更高效的方法来实现局部完整性:SphereNet为基准,把1跳邻域作为本地结构,然后建立轻量级局部坐标系对结点i的元组(d,θ,φ)进行操作。我们的方法可以在更少的时间复杂度内(Ο(nk))实现更高的效率,从而改善了SphereNet(Ο(nk2))的性能。

作者在文中也提供了他们的方法实现几何完整性的严格证明。结合新的消息传递方案和量子启发特征,ComENet被开发用于3D分子图。作者将ComENet应用于两个大规模数据集——OC20和Molecule3D,以及一个常用的数据集QM9。实验表明,ComENet的性能与现有的最佳方法相似,但在多种数据集的训练和推理上加速了6到10倍。

ComeENet的贡献有如下几点:

  1. 第一个用于3D分子图学习的严格完整的算法。

    它能不丢失任何信息的结合3D信息,同时能区分各种分子结构;

  2. 具有高效性。

    相比于当下的方法,它的信息传递在时间复杂度上快于前者几个数量级,且在训练和推理速度上有显著提升;

  3. 高适用性。

    ComENet能使用现实中在数量和大小上都非常大的分子数据集;

3D信息对于3D分子图学习来说至关重要。虽然ComENet目前来说是第一个完整的、高效的3D GNN模型,但也有和已知方法一样的局限性——模型使用的都是基于已知的3D信息。目前获取3D信息的方法都需要花费很多时间,所以长远地看,作者建议从两个方向上来解决这一问题:1)研究从2D图中生成3D图或者在开发生成模型的过程中发现3D图的生成规律;2)假设有一组最小的训练数据和3D信息,但大量的未知数据或新数据缺少这样的3D信息。通过开发新的对比学习组件,以强制2D图形与其3D几何视图之间的对应性和一致性,然后将这些组件集成到端到端学习系统中,以便基于2D图形数据进行应用。

参考资料

Wang, L., Liu, Y., Lin, Y., Liu, H. and Ji, S., 2022. ComENet: Towards Complete and Efficient Message Passing for 3D Molecular Graphs. arXiv preprint arXiv:2206.08515.

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多