分享

计算机辅助逆合成路线设计的前世今生——the end of the beginning(二)

 GoDesign 2022-08-17 发布于北京

导读

这一系列文章主要讲述计算机辅助逆合成路线设计的前世今生。写这一系列的初衷,一是出自对前赴后继开拓“计算机辅助逆合成路线设计”(Computer-Aided Synthesis Planning, CASP)这一领域的前辈的敬意;二则是源自个人的疑惑:为什么CASP一直没有诞生类似QM的Gaussian和MD的Gromacs之类真正对化学研究有实质影响的程序。这一领域诞生于上世纪60年代,曾经一度沉寂,而最近几年似乎看到了突破的曙光,仿佛黎明前的漫漫长夜已经快到尽头。在第一章"风起云涌"中,我们介绍了从上个世纪60年代起化学专家手写反应规则来做逆合成分析的思路,但绝大多数程序都在新千年之前就销声匿迹了。这里我们继续讲述第二章:卷土重来”。

——卷土重来——

上文提到,原始时代(1969~2000)开发的绝大多数程序都退出历史舞台了。这些程序的一个非常大的共同点就是绝大多数的规则都是化学家总结并且通过特定的输入方式(如Connection Table、WLN线性表示和反应矩阵等,具体请查看第一章)来让计算机学好化学规则。这样会带来一个很大的问题,那就是一般来说每个程序只能涵盖部分常见的化学反应空间。因为刚开始并没有公开的化学数据集供大家使用,所以化学家只能凭借自己的经验来总结化学规则,这样带来一个隐患就是,每个化学家能想到的化学规则总是有限的。后来,随着化学数据库的建立,尤其是各大化学杂志出版商,基本都有自己专有的化学反应数据库,让化学反应数据的获取不再像上个世纪那么困难。而这些数据库,正是使自动化成为可能的关键因素。然而,如何从海量的化学反应(如Reaxys数据库就有超过1千万个化学反应)中提取反应规则,则是另外的难题,这也就衍生出了自动提取反应规则的算法。这里我们主要讲述自动化时代的两个代表:来自SimBioSys公司的ARChem和来自lnfoChem公司的ICSYNTH。

自动化时代,不同于原始阶段学术界作为主力军,这时候工业界也开始对这个领域感兴趣。1996年成立的SimBioSys算是最早涉足CASP的公司了。而它们的ARChem 反应库也是从各大化学反应数据库提取的,包括Wiley的CIRX Reaction Database。2009年,SimBioSys公司提出了最早的自动提取反应规则的算法。具体的过程分为如下:1)首先,进行atom mapping(atom mapping算法展开来说又是另外一段故事啦),简单来说就是如图一所示的给不同的原子标上数字标签,用来区分反应过程中变化了的和没变的原子;2)提取反应中心,也就是反应物和产物中变化了的原子;3)从中心扩展从而包含相关的邻近原子或者影响反应的官能团;4)给出一个泛化的反应模板/反应规则。目前最流行的反应规则描述方式当数SMARTS (关于SMARTS如何描述化学反应,感兴趣的读者可以查看这个网站https://www./dayhtml/doc/theory/theory.smarts.html),下图2所示为自动提取算法提取出来的反应规则的例子。

图 1.(a)说明反应中心提取和中心扩展的例子;(b)提取的反应中心;(c)扩展的反应中心包含影响反应的官能团。

图 2. 蓝色原子代表着属于反应中心或者反应中心外一层邻近的原子,提取出来的反应规则如Reaction SMARTS所示。

2015年,lnfoChem公司的ICSYNTH采用类似的自动提取算法,提出了几个目标分子的合成路线,并且与AstraZeneca(AZ)合作,打算放大反应进行实验验证。图3为最开始的路线,图4则为ICSYNTH预测出来的其中一条路线。不过由于后来没有经费,只实现了图4的所示的从17到13的反应。

图 3. 化合物13最开始的合成路线。

图 4. ICSYNTH预测出来的其中一条路线。

但是,这种算法有些致命的问题。首先,基本没有考虑stereochemistry和regiochemistry;其次,那就是没办法考虑全局的化学环境。虽然你可以定义某些特定官能团的适配性,但是有机反应的“稀有事件”太多了,你很难用自动化的方法去穷举绝大多数的有机反应,因为总有很多特例。最典型的就是官能团兼容性问题。比如,格氏试剂一般情况下可以与酮发生反应,但如果该分子含有更活泼的醛,那么就会选择和醛反应。再比如,傅-克反应的反应规则核心一般只提取到连接烷基或酰基的芳香碳,但一个显而易见的问题是,这种提取规则反映不出其它取代基带来的影响(包括在芳香环的上取代基)。总而言之,就是这种提取的规则考虑不了位阻效应和电子效应,尤其是在效应基团远离反应中心的情况下。

2016年以来,德国münster大学的Mark P. Waller组和来自MIT的Klavs F. Jensen组用类似的自动提取反应规则的方法进入这个领域。他们利用Elsevier提供的Reaxys数据库和Lowe博士开源的从USPTO (United States Patent and Trademark Office)中提取的有机反应专利数据集来做有机反应结果预测和逆合成路线预测,算是让整个领域焕发了新生。因为一直以来,整个领域不温不火的最重要原因之一就是开源化学数据集的缺乏,而Lowe博士的专利化学反应数据库可以说是给整个领域尤其是来自学术界的团队打了一针强心剂(虽然这个专利数据也有一些不尽如人意的地方)。尤其是Segler等人2018年在Nature上发表的文章,更是让整个CASP领域在传统化学圈引起广泛的讨论和关注。这部分内容,我们将在后续的文章中继续讨论。

——小结——

这个时期的另外一个特点是,工业界也开始进入CASP的领域,而且逐渐引起了资本的兴趣。这个时期的突出点是自动化的思路开始被重视,但是慢慢也发现化学反应规则太难被自动化提取了,因为特例或者说“稀有事件”太多了,导致能自动化预测准确的反应基本都是很显而易见的。这种思路在18年的Nature出来后仿佛引起了很大的关注,但是如上所述,它的内在缺陷依然没有被解决。而且,上述所提到的工作预测出来的路线至今没有一例被发表的实验结果验证过(有单步反应验证的,但没有整个路线验证过的)。请期待“卷土重来”下集。

参考文献:

1. Law, James, et al. "Route Designer: A Retrosynthetic Analysis Tool Utilizing Automated Retrosynthetic Rule Generation." Journal of Chemical Information and Modeling 49.3 (2009): 593-602.

2. Bøgevig, Anders. "Extraction of Chemical Structures and Reactions from the Literature." Organic Process Research & Development 19.2 (2015): 357-68. 

3. Coley, Connor W., et al. "Computer-Assisted Retrosynthesis Based on Molecular Similarity." ACS Central Science 3.12 (2017): 1237-45.

4. Segler, Marwin H. S., and Mark P. Waller. "Modelling Chemical Reasoning to Predict and Invent Reactions." Chemistry – A European Journal 23.25 (2017): 6118-28.

5. Segler, Marwin H. S., and Mark P. Waller. "Neural-Symbolic Machine Learning for Retrosynthesis and Reaction Prediction." Chemistry – A European Journal 23.25 (2017): 5966-71.

6. Segler, Marwin H. S., Mike Preuss, and Mark P. Waller."Planning Chemical Syntheses with Deep Neural Networks and Symbolic AI." Nature 555 (2018): 604.

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多