【原】【化学信息学】计算机辅助逆合成路线设计的前世今生——the end of the beginning（一）

GoDesign 2022-08-17 发布于北京

展开全文

导读

这一系列文章主要讲述计算机辅助逆合成路线设计的前世今生。写这一系列的初衷，一是出自对前赴后继开拓“计算机辅助逆合成路线设计”（Computer-Aided Synthesis Planning， CASP）这一领域的前辈的敬意；二则是源自个人的疑惑：为什么CASP一直没有诞生类似量子化学（QM）的Gaussian和分子动力学模拟（MD）的Gromacs之类真正对化学研究有实质影响的程序。这一领域诞生于上世纪60年代，曾经一度沉寂，而最近几年似乎看到了突破的曙光，仿佛黎明前的慢慢长夜已经快到尽头。这是第一章：“风起云涌”，参考文献将在最后一章文末再给出。

——背景——

逆合成分析是现代有机合成路线设计最基本、最常用的方法，在上世纪60年代由E. J. Corey提出。概括来说，逆合成分析就是从产物出发，不断递归选择合适的断键方式，直到得到容易得到的反应物。很明显，这需要在一个非常大的化学空间里边搜索，而这正是计算机擅长的地方。因为计算机可以储存大量的化学规则，这远比化学家可以储存的量多多了，而且，计算机不会忘记存储过的反应。所以，自逆合成分析的思想诞生以来，化学家就一直想用计算机来辅助逆合成路线设计，包括伟大的E. J. Corey。世界上第一个有迹可循的逆合成分析程序，应该是Corey等人研发的OCSS (Organic Chemical Simulation of Synthesis)。

——风起云涌——

1965年，早在E. J. Corey发表他关于“逆合成分析”的开创性文章的两年前，来自斯坦福大学的计算机科学家和化学家启动了一个叫“Dendral”的项目，最开始的目的是为了1）从谱图数据里直接预测有机分子的结构；2）用人工智能来让计算机学会设计合成路线。很遗憾的是，该项目没有看到任何有关合成路线设计的成果。Corey的“逆合成分析”思想不仅革命性的改变了解决合成问题的思路，而且总结出来的heuristic rules可以（起码在当时被认为可以）教会计算机如何了解化学反应的规则。在这里，我们大致把整个CASP的历史分为三个阶段：1）原始时代（1969~2000）；2）自动化时代（2000~2015）；3）智能化时代（2015至今）。这里的划分仅代表个人观点，可能不够严谨。我们这章主要讲述原始时代的情况，这一阶段的主要特点就是：专家手写规则。就是化学家把他们的化学反应规则用计算机能理解处理的语言表示，然后输入存储，需要时候调用。首先就有一个显而易见的问题，怎么在计算机里表示一个分子。Corey团队用了一种叫连接表的表示法（Connection Table）。图1和图2所示的atom/bond table entry就是这种连接表的最主要的组成部分。

图 1：连接表（Connection Table）的atom table entry

图 2：连接表（Connection Table）的bond table entry

在1969年，Corey就和他的博后Wipke展示了第一个CASP程序叫OCSS (Organic Chemical Simulation of Synthesis)，该程序的具体流程图如图3所示。不过这个程序很短命，不久就分为两个派系：分别是Corey领导的LHASA (Logic and Heuristics Applied to Synthetic Analysis)和Wipke领导的SECS(Simulation and Evaluation of Chemical Synthesis)。LHASA的反应规则用一种叫CMTRN (ChemistryTRaNslator)的化学语言来描述。它的问题在于处理不了手性，而且只能一步一步的手动输入目标分子，不能自动得到整条合成路线。如图4所示，LHASA也是最早使用GUI界面来展示化学分子结构的化学程序之一，LHASA的分子绘图模块后来就转变为ChemDraw的前身了。不过现在LHASA的网站已经没有维护了。更多关于LHASA的内容请查看这个网址（http://cheminf.cmbi./cheminf/olp/history.shtml）。而SECS思路和LHASA相似，最后也不了了之了。后来，来自伊利诺理工学院的P. Y. Johnson团队开发了名为SYNLMA的程序，不过没留下什么痕迹，就在1989年以后退出历史的舞台。

图 3：OCSS（1969）的流程图。

图 4：LHASA（1972）的功能模块组成，包括最早的分子可视化模块（ChemDraw的前身）。

1977年，纽约石溪分校的计算机系教授H.L. Gelernter等人也加入了CASP大军，研发出了SYNCHEM。不同于LHASA，他们采用了

Wiswesser linear notation（WLN）线性表示分子。值得注意的是，该程序第一次采用了树搜索来自动生成路线。而且连接了商业可及的原料和化合物，这样模型搜索到这些原料时就会自动停止。不过SYMCHEM依然处理不了手性和区域选择性问题（这也是线性表示的一个共通问题，现在流行的SMILES效果会好一些）。1997年，他们推出了并行版的SYMCHEM，提高了搜索的效率，但是后续再无什么进展。SYMCHEM的出现为计算机学家如何处理化学反应问题提供了很好的思路。

图 5：SYNCHEM（1977）预测的tirandamycic acid的合成路线。

随后，来自慕尼黑工业大学的Ugi团队也加入了角逐的队伍中，他们先后发展了IGOR (Intermediate Generation ofOrganic Reactions, 1985）和IGOR2（1993）程序。不同于之前的连接表和线性表示，他们将分子用键-电子矩阵（'bond–electron’matrix, BE matrix）的方式表示。这种表示，相比于之前最大的一个特点就是，可以预测潜在的新反应。如图6所示，对角线表示孤对电子数目（分子17中的O是4，分子19中的O是6），非对角线则表示共价键类型（单键/双键/三键）。中间的R矩阵是通过产物的E矩阵减去反应物的B矩阵得到的。如图7所示，新反应类型可以通过数据库已有的反应矩阵推导得到。但是这种方式相比SYNCHEM来说，计算更耗时，而且矩阵的操作很难做到多步路线预测。而随着Ugi在2005年去世，IGOR2也被淘汰出局了。

图6：IGOR2（1993）中的化学反应矩阵表示。

图 7：81à82的新反应类型是通过79à80反应矩阵推导来的。

——小结——

Corey和Wipke研发的OCSS无疑开创了先河，几乎后续所有的CASP程序或多或少都受到了OCSS（或者说LHASA）的影响。上述提到的程序只是其中几个代表性的例子。尽管在原始时代阶段，计算机辅助路线设计程序并没有给化学家的日常工作带来实质性的影响，更多的还只是toy而不是tool。但是也间接促进了如ChemDraw等优秀化学软件的诞生。

这些先驱者失败的原因很多，这里主要总结两点：1）基本上述提到的所有程序，里面包含的反应规则都非常有限，常常只有几百个反应规则，只能涵盖部分常见的化学反应空间。而化学家给计算机输入的应该是高度准确的反应规则，需要同时考虑官能团的适配性、保护基团的有无、而这不是简单几百个反应规则就能描述的（这里引申出来另外一个问题就是化学分子和反应该如何表示）。2）在上个世纪，计算机的存储和运算能力远没有今天的强大，这也是他们失败的另外一个主要原因。

既然在2000年之前绝大多数的CASP程序都失败了，那么为什么后来在2009年前后计算机辅助逆合成路线设计又开始有复燃的迹象了呢？请期待下一章：“卷土重来”。

参考文献：

参考文献将在最后一章文末给出。