【原】Chem. Sci. | 用于定量建模有机化学反应的深度主动学习框架DeepReac+

DrugAI 2022-04-19

展开全文

本文介绍来自同济大学刘琦教授课题组发表在Chemical Science上的文章“DeepReac+: Deep active learning for quantitative modeling of organic chemical reactions”。在这项工作中，作者开发了首个用于定量建模有机化学反应的深度主动学习框架DeepReac+。该框架借助图神经网络，直接将反应组分的二维分子结构作为输入, 端到端的学习与任务相关的反应表征，适用于不同的反应机理、预测目标和实验平台。而且，通过结合精心设计的主动学习(Active Learning)策略，该框架只需要用少量的训练样本就能得到最佳预测性能以及快速确定最优反应条件，可以为高通量合成反应的实验人员节省大量的成本和时间。

介绍

有机化学合成是诸多学科和行业的基础支柱，因其复杂性常被描述为一门艺术，需要多年的不断实践与经验累积才能完全掌握。在现代有机化学的背景下，反应表现，诸如产率和选择性（化学选择性、区域选择性、立体选择性），会受到多种变量的控制，包括离去基团、催化剂、温度、溶剂和添加剂等等。这些因素的组合会产生一个巨大的反应空间，即组合爆炸，使得合成化学家去评估所有可能的选择来确定最优反应条件变得不现实而且充满挑战。

越来越多的企业和研究人员已经意识到这个问题，借助高通量实验和流体化学开发了各种系统性合成技术。虽然这些合成技术实现了标准化和并行化，对整个反应空间的穷尽搜索依旧不现实。于是，各种机器学习模型开始用于预测合成反应的实验结果。然而，当前的计算方法存在两个限制：（1）在建模不同类别化学反应时缺乏通用性和泛化性。对于不同的反应机理或预测任务，研究人员不得不基于某种科学假设来设计不同的定制化反应描述符。这些人为设计的描述符的应用范围有限，而且易被特定设计者的偏见影响，无法保证考虑并很好地呈现足够的任务相关信息，这也是众所周知的传统机器学习的瓶颈。（2）需要大量的实验数据来训练模型以获得较好的预测表现。

图1 DeepReac+的整体框架

方法

作者通过将图神经网络（GNNs）以及主动学习（active learning）进行结合，实现了一个通用且高效的计算框架DeepReac+（图1），用于预测化学反应结果和选择最优反应条件，专注于解决上述两个限制。其包含两个核心组件：（1）为化学反应表示学习设计的深度学习模型DeepReac；（2）用于减少所需训练数据的主动学习策略。

2.1 DeepReac介绍

作为一个基于图神经网络的表示学习模型，DeepReac将分子的二维结构直接作为输入，并构建虚拟反应图以显式建模反应组分之间的相互作用，最终学习与具体任务相关的反应特征表示（图1A）。这使得该模型可以处理任何反应表现预测任务，包括产率和立体选择性，并且无需对内在的反应机理有深入了解。对于那些不适用甚至无法用图结构表示的反应组分，我们采用一个机理无关的嵌入策略，能进一步扩展DeepReac的应用范围。

2.2 主动学习策略的设计

结合精心设计的主动学习策略，DeepReac可以通过每次增加少量选出的实验数据进行迭代训练来快速达到令人满意的预测表现。作为主动学习的核心，采样策略用于在数据中区分出有较高价值的那部分数据。主动学习的传统策略是基于不确定性的，即未标注的数据经过预测，其中预测置信度较低的将优先被标注。然而，深度学习模型倾向于对其预测结果过度自信，使得相应的不确定性估计变得非常困难和不可靠。因此，我们借助深度学习强大的表示学习能力，设计了两种基于表示的采样策略：基于多样性（图1B）和基于对抗性（图1C）的采样。前者是期望多样化的数据可以提供给模型一个反应空间的全局观，以此提升其泛化能力；后者则期望通过标注对抗性样本来使得模型更加鲁棒。另外，在上述基础上，我们也提出了基于平衡的采样，用于最优反应条件搜索。

结果

3.1 数据集收集

我们选择了三个有机反应数据集来测试DeepReac+框架。为了验证该解决方案的用途广泛，这三个数据集涵盖了不同种类的反应和预测目标：

（a）数据集A：为了研究异恶唑基团在Buchwald–Hartwig C–N偶联反应中起到的抑制作用，Doyle等人进行了机器人辅助的高通量反应筛选，包含4608个反应。为了预测这些反应的产率，作者从每个反应组分中提取了原子层面、分子层面以及振动方面的描述符并将它们拼接成反应特征。然后用这些数据训练诸多传统机器学习模型，最终发现随机森林的效果最佳。

（b）数据集B：辉瑞公司的研发团队借助流体化学，进行了Suzuki–Miyaura C–C偶联反应的高通量筛选，包含5760个反应。在原报告中未提出机器学习模型，之后由Cronin等人用独热编码对反应进行处理，训练了一个多层感知机来预测反应产率。

（c）数据集C：和上述两个任务不同，这个数据集的预测目标是立体选择性，将手性磷酸作为催化剂的不对称N,S-acetal formation反应。Denmark等人对反应进行人工筛选，包含1075个反应。作者开发了一种基于泛函计算的多种构象三维表示，称为平均立体占有率，用来表示催化剂。这种加权的格点占有率与计算得到的静电参数进行组合，用作反应特征来预测对映立体选择性。然后用这些数据训练诸多传统机器学习模型，最终发现支持向量机的效果最佳。

图2 DeepReac+用于提升模型预测表现

3.2 提升模型的预测能力

通过在上述三个数据集上进行模拟，我们测试了基于习得反应特征的两种采样策略，即基于多样性和基于对抗性的采样。除此之外，随机策略被用在基线进行比较。在模拟过程中，每一次选择数据并进行重训练后，DeepReac的预测表现会被记录下来（图2A-C）。结果显示，对于每个数据集，DeepReac都只用了大约30-50%的数据量就能达到之前未采用主动学习时70%数据训练得到的一样的预测表现（图中虚线所示）。和随机策略相比，在三个数据集上2种主动学习策略都能用少得多的训练数据得到一样好的预测表现。其中，基于对抗性的策略比基于多样性的策略又略胜一筹。

为了进行更客观和全面的比较，我们也在三个数据集上分别测试了将传统机器学习模型结合两种主动学习策略的效果，包括随机森林（random forest，RF）、多层感知机（multilayer perceptron，MLP）和支持向量机（support vector machine，SVM）。定制化的描述符（数据集A、C）以及独热编码（数据集B）被用作反应特征，并进行和上述过程一致的模拟测试（图2D-F）。从这些结果可以看到效果明显不如DeepReac+，因为描述符毕竟是人为预先定义的，而DeepReac+可以端到端地学习与任务相关的反应表示。

3.3 确定最优反应条件

确定最优反应条件一直是化学合成领域的关注焦点。贪婪策略已被用于该目标，即将预测为最优的样本进行优先标注。但是，该策略很可能导致模型的预测能力较低，这会反过来影响最优样本的选择。我们在这里提出一种基于平衡的策略，即不只是对抗性样本，而且预测为高产率的样本应被优先标注。为了使模拟更加符合实际，我们的目标是优化特定产物的产率。数据集A中有五个产物，而数据集B只有一个产物。考虑到两个数据集的产物数量，我们分别设计了两种不同的场景进行模拟并对前5轮迭代中选出的候选实验的目标值分布进行统计分析：有同类型反应历史数据的优化（图3A-E）以及从头优化（图3F）。该结果清晰地显示在早期迭代中，基于贪婪和基于平衡的策略都能比其他策略识别出更多有高产率的反应条件，而且后者不会影响模型预测能力的提升。

图3 DeepReac+用于确定最优反应条件

总结

综上所述，DeepReac+的表现在三个多样化的化学反应数据集上得到全面评估，它们涵盖了不同的反应机理、预测目标和合成平台。该计算框架的通用性和高效性在不同场景下得到研究和验证：（a）提升模型的预测表现；（b）确定最优的反应条件。该计算框架的优势在于：输入形式简单、通用且模型可以只用少量实验数据，快速地以不错的预测表现适用于不同类型的反应和预测目标。凭借以上优势，我们相信DeepReac+对于AI辅助化学合成的发展有巨大的潜力和实用性。目前DeepReac+框架已经和CRO公司合作，用于高通量合成反应的建模。

参考资料

Gong, Y., Xue, D., Chuai, G., Yu, J. & Liu, Q. DeepReac+: deep active learning for quantitative modeling of organic chemical reactions. Chemical Science (2021).

https:///10.1039/D1SC02087K