分享

【自动合成】基于AI的逆反应路线设计和自动化流动合成平台

 GoDesign 2022-08-17 发布于北京

——背景介绍——

具有合成复杂化合物的能力是发展药物小分子最为关键的一步。目前自动化合成已经取得一定的进展,但合成路线的设计和实验室操作仍需要化学家大量的手动设置和努力来适应不同的化学反应类型。理想的自动化合成平台是能够自动设计和执行相关反应并且具有放大规模生产的能力。虽然自动化学合成机器的工作已经被报道过(可以参考我们之前的文章“自动合成机器Chemputer真的能为所欲为?”),但是目前还没有任何一个系统整合了计算机辅助合成路线设计(Computer-Aided Synthesis Planning,CASP),优化反应条件的生成,以及机器人执行的自动化合成平台。来自MIT的Coley W. Connor等人最近发表在Science期刊上的题为“A robotic platform for flow synthesis of organic compounds informed by AI planning”的文章就提出了这样的合成路线设计和自动化合成的体系。这篇文章发展了一个开源的软件叫做ASKCOS, 其包含了计算机辅助逆合成路线设计(CASP),反应条件(反应配方)优化,以及反应结果评估这个软件包在GitHub上的链接是: http:github.com/connorcoley/ASKCOS。这个方法是基于从Reaxys数据库和美国专利商标局(US Patent and Trademark Office, USPTO)收集的反应来训练得到的,推荐的合成路线部分涵盖CRFs文件(refined chemical recipe files),需要用户提供额外的信息来定义停留时间,化学计量和浓度来保证连续的流程。同时,作者设计了一个拥有机器人手臂装载模块(包括反应器和分离器)的自动化合成平台来执行所有合成操作流程,实现合成自动化。这一套软件和自动化合成平台被证明完成了15个临床上正在应用或可成药性的化学小分子合成路线的设计和自动化合成的过程。

——合成路线规划模块——

从反应数据库(例如Reaxys, SciFinder)中搜索已知化合物的已知反应早已广泛应用,但目前只有基于专家编码转化规则(expert-encoded transformation rules)的Chematica可以对新化合物进行合成路线的设计。最近由于数据科学和机器学习的发展,尤其是Segler 等人发展的MCTS(Monte Carlo tree search)方法的应用促进了计算机辅助合成路线设计的发展。作者参考前人和他们之前发表的工作,提出的逆合成路线的设计方法如图1,具体的流程是:1、对于一个特定的目标分子,训练一个神经网络模型找出最合适反应规则/模板(反应规则的自动提取算法可以参考之前的“计算机辅助逆合成路线设计的前世今生——the end of the beginning(二)”文章);2、选出排序在前面的规则/模板,对目标分子实行逆合成分析,得到一系列候选反应物;3、评估单步逆合成反应的质量,剔除“假阳性”并进行候选反应物排序;4、得到的候选反应物如果可以购买,则停止搜索,否则返回第一步。

               

图1. A. 合成目标分子的一般工作流程(包括软件和硬件);B. 化学信息学平台的工作流程(软件);C.流动化学机器人平台(硬件)。

具体来说,作者从Reaxys数据库收集的1千多万(12.5million)单步反应中得到了163723个规则,然后训练一个神经网络模型来预测这163723个规则中最能够转化应用到目标分子结构上的规则。评估单步逆合成反应的质量是由两个模块组成,第一个模块是快速筛选,基于Segler 等人的'in-scope filter’删除低质量的反应建议。这里快速筛选的神经网络模型是基于15-million报道的反应作为正样本和115-million生成的负样本而训练得到的,回答的最根本的问题是:“is there any set of conditions for which these reactants will form this product”。第二评价模块是一个更加严格的正向预测模型,目的是预测能否根据提供的反应物和反应条件得到产物。根据模型提出的反应条件列出一系列优先的反应物,合适的溶剂,催化剂和温度。同时,这个正向预测模型也能预测副产物,这对于纯化步骤比较重要,如图2。

图2. 以新药safinamide为例说明软件的工作流程:A. 输入目标分子(一般用SMILES); B. 预测的合成路线;C. 预测的可能反应条件排序(top-10);D. 根据预测的反应物和反应条件判断主要的产物;E. 根据使用的反应模板连接报道过的反应先例。

——流动化学机器人平台——

本文同时也基于之前的plug-and-play单元操作设计了一个自动设置连续合成系统。该系统包含操作单元和试剂线的组装(如图3所示,操作单元包括各类型的反应器、分离器和溶剂体系)。这个合成路线设计软件和自动化合成平台能够预测和自动合成15个药用相关的小分子,需要8个不同的逆合成路线和9个特定的过程设置,而且所有路线需要是全新的合成路线。利用这套系统,作者合成了aspirin, secnidazole, lidocaine, diazepam, 和能够证明能识别立体化学的(S)-warfarin 和safinamide,以及两个化合物库中的分子,包括以24a为实例的5个ACE抑制剂以28aa为实例的4个非甾体抗炎药物(如图4所示)。具体的实际操作视频可以参考文章开头的反应视频。

图3. 流动化学机器人平台的组成模块

图4. 以quinapril (24a) and celecoxib(28aa)为例的合成预测和自动合成

——小结——

总的来说,这个工作说明结合CASP和流动化学机器人平台确实能够加速小分子化合物的自动合成。它的意义还是很大的,让大家发现解放化学家的手越来越成为可能。未来,更复杂的分子自动化合成必将成为下一个突破点。但是目前还存在一些挑战:1、选择合适的反应条件仍然很困难,因为目前所有的化学数据库基本上很少包含反应物的溶解性、反应物的比例、反应保留时间和加入的顺序。而这些数据目前还是需要专家输入。2、文章展示的反应例子都是单步或者两步的,真正意义上的自动合成还是有待发展的;而且目前自动流动化学中可使用的化学反应也是有限的,暂时来说更复杂的分子还是很难用这个平台合成得到(笔者个人观点)。尽管仍有不完善的地方,但从0到1的工作总是最重要的。

参考文献:

Coley, Connor W., et al. " A robotic platform for flow synthesis of organic compounds informed by AI planning." Science 365, 557(2019):453. 

DOI: 10.1126/science.aax1566.

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多