分享

从大海捞针到系统搜索,苗头化合物发现的范式迁移

 DrugAI 2022-04-19

科因生物近期在Journal of cheminformatics上发表了一篇题为“Systemic Evolutionary Chemical Space Exploration For Drug Discovery”的文章。文章报道了一种新的全新药物发现计算平台,名为Systemic Evolutionary Chemical Space Explorer (SECSE)。受到乐高积木的启发,作者们尝试结合药物化学分子变化经验规则,CADD计算方法和深度学习,找到了避免盲目筛选,系统性探索的药物发现策略。

1

群雄逐鹿,谁可问鼎中原?

小分子药物发现是传统药物研发的早期的环节,该环节的效率与成果质量影响了整个药物研发项目的进度。当前的研发项目多是针对单个靶点开发治疗与其相关联疾病的创新药物。在这种需求下,评价一定数目的小分子是否与特定靶点结合或者干扰其功能的方法,即筛选技术,就变得尤为重要。

目前学术界和产业界广泛应用于发现苗头化合物的筛选方法和策略主要有:组合化学以及基于组合化学发展起来的高通量筛选、DNA编码化合物库筛选技术、基于片段的药物设计,和虚拟筛选等方法。高通量筛选技术在很多研发项目上可谓战功赫赫,但百万级的化合物筛选效率已经到了瓶颈,同时花费也不菲。DNA编码化合物库技术被称为组合化学2.0。这项技术可以在现有分子砌块及其兼容的水相反应限制的化学空间内进行网格化筛选,使得待筛选化合物的数量提升到千亿级别。基于片段的筛选技术的理念是对数千个片段的多样组合可以涵盖相当大的化学空间。该技术首先得到由结晶或NMR筛选等手段得到有微弱结合能力的片段,随后药物化学家通过对片段进行艺术合体,产生新的苗头化合物。这种技术增强了化合物分子的多样性,减少了药物筛选的盲目性,增加了药物设计的逻辑性,在实践中推进了较多的新药的发展。除以上的实验筛选技术以外,使用计算机和算法来寻找含有特征的化合物结构的虚拟筛选技术也被广泛应用。随着GPU的普及,计算机能力的增强以及人工智能技术的快速发展,人们开发了更多的虚拟药物筛选工具,丰富了的药物发现的工具包。

在药物筛选的赛道上,每种技术均展示着自己独有的飒爽英姿,群雄逐鹿,摩拳擦掌,准备问鼎中原。然而,随着低垂果实被逐渐摘尽,无论是老靶点新化学类型的发现还是新靶点新苗头化合物的发现,都难以在当下局限的化学空间内有新的突破。

2

系统搜索,范式迁移

一些虚拟筛选算法受形状匹配思想的启发,逐一计算数据库里的小分子是否适配于特定靶点的口袋。药物筛选的过程被形象的比喻成草垛里面找针,或大海捞针,说明茫茫化学空间内找到能与靶点相互作用的苗头化合物需要耗费大量资源。大海之中有无数种可能,因此扩大寻找范围和提升寻找效率,便是找到针的关键。

基于实体库的筛选技术往往也需要构建包含数目巨大的分子化合物库。因此一些容易合成的分子被优先放到了这些化合物库中,而部分合成有挑战的分子暂时未被收录。这就导致这类技术筛选的化学空间存在一定局限。很显然,靶点不会像人一样只寻找容易合成的分子来适配,且超大的化合物库的构建不会只针对某个特定的靶点。因此,采用这类技术主导的小分子药物发现逐渐地显露出了弊端。化合物库的体量越大,越能体现人们对更广阔化学空间的孜孜追求。但这一需求也恰恰限制了这些技术,因为不知道究竟多大才足够?

基于片段的筛选技术在一定程度上避免了上面提到的问题,仅仅需要几千个分子片段进行筛选。这些分子片段,可以类比成构建DNA编码库的分子砌块,虽然数目不多,但是有组建成超多分子化学空间的能力。但是片段库的构建仍然需要筛选高质量的片段,片段的组合也是限定在特定的片段连接方式中,所以仍然难以应对在更广阔的化学空间寻找苗头化合物的需要。

虚拟筛选技术,不管基于结构的还是基于配体的,也是建立在化合物库的基础上。虽然近几年兴起了使用深度生成模型产生新的分子结构的技术,但是这种技术仍然依赖化合物库作为训练集。训练集的化学空间的局限和数据分布的不均匀必然会禁锢新产生分子的化学空间。

作者们认真思考了化学空间探索和新靶标适配的问题,尝试解决对现有化合物库依赖的问题。他们认为人们由易到难的合成习惯给现有的化合物库加了紧箍咒。结合自己的研发经历和经验,作者找到了一条将海量筛选转变为系统性探索的药物发现策略。该策略以全新药物设计算法为起点,以高效合成技术为辅助,以提高DMTA循环效率为目标的苗头化合物发现平台。下面重点介绍一下文章中报道的全新药物发现计算平台SECSE,以及它是如何完成由筛选到系统搜索这一范式转变。

全新药物发现算法SECSE

作者们借鉴了基于片段设计和基于结构药物设计的策略,根据过往药物化学经验系统设计了片段生长的规则,整合遗传算法,构建了系统化学空间探索的药物发现计算平台。该平台算法主要含有三个部分,其一为片段生长,即分子生成变化。科因的药物化学家系统设计了变化的规则,包含了多种策略的变化方式。其二为评价方法,主要是用以判断分子变化是否达到合理区间,基于结构(例如分子对接)和配体(例如药效团匹配)的计算方法均可以加入到该模块。目前SECSE评价模块主要是用途最广泛的分子对接。其三为遗传算法,该部分主要是设定分子逐步进化的标准。该平台需要的输入非常灵活。小分子部分输入可以为优势片段,片段库,甚至是一些原子即可,如果使用SBDD思路,则需要定义好口袋的大分子三维结构。依托分子对接或者其他类似算法,片段分子逐步生长匹配蛋白质的口袋,形成新的苗头化合物。另外,如果没有三维结构,取而代之的是已知结构的小分子,也可以根据LBDD的技术,利用SECSE进行逐步生长。

系统性的分子进化和过滤规则是该平台的最大的优势。计算平台融合了药物设计的常用策略,包括生长,突变和电子等排替换,同时也将常见的化学反应加入其中,共计5000多条规则。另外,为了保证生成分子的类药性,作者同时设计了一套过滤规则。这套过滤规则可以将警示结构,和一些有代谢问题的片段提前排除。

该平台另外一个优势是整合了深度学习算法。因为资源问题,不可能将所有SECSE产生的分子都进行评价,因此借助深度学习模型可以加速评价过程。作者使用图来描述小分子拓扑结构,以评价模块的结果(例如分子对接打分)为目标,对已经产生并评价的全部分子进行训练,得到可以预测评价指标的深度学习模型。下图可以看到,随着产生分子的不断进化,评价指标模型的预测能力也会逐步提升。

为了让片段库的化学空间足够,作者重新定义了片段生成规则,利用自己定义的过滤策略,产生了重原子数目小于13的虚拟片段库【】。该片段库共有121,860,917个片段分子。所有片段的结构可以查看https:///10.6084/m9.figshare.17142236。

为了验证SECSE平台是否能产生有价值的分子,作者进行了分子重新发现的测试。他们选择了磷酸甘油酸脱氢酶(PHGDH)作为靶点,重新产生了PDB数据库中10个PHGDH共晶结构中的小分子化合物。他们以6RJ3为蛋白结构,使用分子对接程序Vina作为评价方法,并选择了部分常用生长规则。分子的产生路线如图所示。

为了验证SECSE系统探索特定靶点化学空间和搜索新苗头化合物的能力,作者们以6RJ3为蛋白结构,选择分子对接模式,以苯环为片段起点,分子量的限制为500,产生了一批结构新颖的分子结构。所有结果可以查看https:///10.6084/m9.figshare.17141879。下图为一个分子逐步生长的示例。从图中可以看到它由苯环在蛋白口袋内经过5轮生长成苗头化合物的过程。

在SECSE苗头化合物发现的计算平台中,5000条规则几乎可以在一定轮数内产生任意的具有类药性质的小分子,可以近乎涵盖整个类药的小分子化学空间。在这个基础上,可以认为SECSE有能力产生与任何靶点相互作用的类药小分子,这一点是确定的,不需要碰运气。至于如何确定的搜出它们,则需要系统性的搜索算法来实现。作者们选择了遗传算法,但是并不局限到一种,其他的优化算法也可以整合。虽然有较好的优化策略,但限于评价模块部分的效率,以分子对接为例,目前计算资源还不能够保证所有生成的小分子在可接受时间范围内得到评价。加入深度学习模型虽然部分程度上降低了对分子能力评价的准确性,但会极大的提升整个流程的评价速度,使得SECSE产生的分子都有机会被搜索。

精细的生长和过滤规则设计,系统性的优化算法,深度学习模型和开放的框架,这些元素共同构建了SECSE药物发现计算平台,也促进了药物发现由海量随机筛选向系统性搜索的范式转变。

3

深度开源,共建共赢

文章中报道SECSE是一个开放的平台。全部代码以及约300条分子生长规则和一些过滤规则已经开源。SECSE在整合不同方法的优势的同时也继承了它们本来有的劣势,例如分子对接模型中蛋白质不是动态的结构。所以SECSE仍然有许多地方需要进一步提升。作者欢迎学术界和工业界同行的使用反馈,改进意见或是基于SECSE的进一步开发。

参考资料

Lu, C., Liu, S., Shi, W. et al. Systemic evolutionary chemical space exploration for drug discovery. J Cheminform 14, 19 (2022). 

https:///10.1186/s13321-022-00598-4

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多