分享

化学空间计划~“GDB-17&分子数1664亿”

 北极熊_ 2022-01-21

有机分子到底有多少?这可能是分子多样性最简单的问题之一。为了回答这个问题,有研究者通过计算列举了所有符合一定规则的有机分子,那么,到底有多少可用的有机小分子?庞大的规模是如何计算而来的?可以进行枚举吗?其分子周期系统如何?可用于药物研发吗?请看本稿件。


01

图片

数据库GDB-17&分子数1664亿

有机小分子,其结构可由原子数量、原子类型、拓扑连接、立体化学进行描述定义;在药物化学背景下,至今已经制备>1亿数量的有机分子,对于所有遵守Lipinski五规则等方法,类药物化学空间规模估计为1060,且最多可以形成30多个主原子的组合。

数据库GDB-17,包含1664亿个分子,其组成最多包括17个C/N/O/S/卤素原子,是文献(见文末)报道的最大的小分子数据库。符合价态规则,但由于拓扑结构或官能团不稳定、不可合成的分子未被计算在内,由此也将枚举数量降低了至少10个数量级(要写出SMILES),不过也因此而使数据库更加可用,且数据库中的分子与已知分子高度相关。

GDB数据库是研究者开发虚拟筛选和可视化数据库的基础,并以“分子周期系统”的形式形成了6个不同的指纹空间,同时带有用于相邻搜索的网络浏览工具,以及用于研究GDB和其他大型数据库的彩色编码主成分MQN和SMIfp-Mapplet应用程序。

为了进一步验证GDB数据库在药物发现过程中的应用,通过虚拟筛选,进行了神经递质受体与转运蛋白配体之间的化学合成与活性测试;同时也证实了化学空间令人难以置信的深度,即任何分子的数百万计类似物都可以通过各种MQN空间的临近搜索进行快速识别。

图片

图1.1 GDB-17数据库及其功能特点

02

图片

枚举功能

1875年,图论研究者Cayley首次提出了非环支链烃数量相关的函数;之后,结构枚举算法如MOLGEN诞生,通过枚举符合的元素组成、质量、存在/不存在官能团预定义标准的分子,来实现计算机辅助结构解析(CASE)。

其他类型的结构生成器(例如SPROUT),主要依赖遗传算法,可使有机分子以最大限度的与目标蛋白进行对接;这些算法中,分子通常使用偶联反应从已知的模块中组装而成,这种方法也用于枚举虚拟组合库,如辉瑞公司做的全球虚拟库,对应着10万亿个分子,但这些化合物仅仅在一些特定搜索时才可被枚举。基于此,研究者通过控制化学稳定性和合成可行性,来枚举所有可能的分子,以对整个化学空间进行客观的研究。即从程序生成的图开始,同时考虑环的变化和拓扑结构,选择了适合构建饱和烃的34个图,后按照价态、芳香性和环应变的规则引入不饱和度,将这些图转换为骨架,再后考虑到官能团稳定性,将碳原子变为N、O、S和卤素,得到分子。

继数据库GDB-11和GDB-13之后,如上所述,研究者列举了GDB-17中收集的多达17个C、N、O、S和卤素原子的1664亿个分子。GDB-17数据库,包含约60%的Pub Chem、ChEMBL和Drug bank分子(最多17个原子),其余的40%主要特征是具有未列举元素(P、B、Si)和其他的官能团分子。

枚举可以带来很多结构类型的多样性,如已上市药物数百万计的类似物,其中许多具有非常接近的药效团和结构,但却从未被报道过,以及一些未知的环系统。对更大的化学空间进行枚举的一种方法,即是根据第一原理对已知分子进行变化以生成新结构。枚举GDB-17数据库以外的有机分子会是将来一项长期的挑战,甚至可能无法彻底完成;在研究者“化学空间旅行(CST)”算法中,例如分子A结构变化并进行迭代循环,找到具相似性的结构B,并产生代表起始和目标结构之间的十万个中间体的化学空间轨迹;这种方法已用于确定AMPA和CNQX之间的分子对接以作为可能的部分激动剂,其他研究者也通过这种方法来随机生成分子,以作为探索化学空间的一种方式。

图片

图2.1 化学空间旅行图示

03

图片

分子周期系统

GDB数据库补充了药物发现、香料、香料化学中受关注较高的其他大型有机分子数据库,它们共同构成了有机分子的已知、未知化学空间(见表3.1);这就需要对系统进行分类以搜索目标类似物,并形成可视化。通过遵循空间属性的概念,为分子配备数字描述符,收集在指纹中,并放置在多维空间的相应坐标位置,每个维度都可以代表一个描述符;分子之间在空间的接近程度即表现出相似程度。

表3.1 已知/未知的化学空间数据库

图片

受元素周期系统的启发,根据原子数和主量子数组织形成一个表格,使附近的元素具有相关属性,研究者设计了MQN系统的多维网格。将相同原理应用于另外五个指纹,可提供对分子结构的不同解析,从而计算出特定子结构的存在,编码扩展药效团。

根据分子特性(例如分子大小、刚性和极性)进行颜色编码,可以在各种数据库(例如PubChem、DrugBank、和GDB-13)中可视化化学多样性。这些图中的每个像素都可以通过在MQN和SMIfp小程序的帮助下进行缩放和可视化(见图3.1)。PS:这些Java应用程序可在www.gdb.unibe.ch上免费获得。一个相关的Fragrance-mapplet应用程序允许检查Flavornet和Superscent数据库以及如ZINC和GDB-13的子集。总而言之,相邻搜索浏览器和Mapplet构成了一个“分子周期系统”,以用于探索化学空间。

图片

图3.1 分子周期系统示意图

04

图片

药物发现

GDB数据库几乎只包含新分子(>99.9%),这提供了大量药物的发现机会。值得注意的是,大多数GDB分子满足药物相似性、先导相似性、片段相似性的标准,且因为杂原子的引入可以提供更多的碳原子数,因此也推出一些相对刚性和极性的分子。

如,研究者在开发GDB数据库时发现,二肽和二酮哌嗪从GDB-11中的甘氨酸类似物搜索中被鉴定为NMDA受体甘氨酸位点的抑制剂,降冰片烷天冬氨酸rac-16从天冬氨酸类似物搜索中被鉴定为谷氨酸的选择性抑制剂,通过合成和评估20-30种测试化合物,发现了具一定活性的目标分子。

使用类似的方法来选择烟碱型乙酰胆碱受体(nAChR)的调节剂,结合从GDB-11中奎宁环样二胺中选择性枚举PNU-282,987类似物,并与乙酰胆碱结合蛋白对接。根据>80种类似物的合成和测试,结果发现了竞争性α7nAChR抑制剂。由于对接方法的限定,仅允许评估从GDB-11中选出的5%的化合物在nAChR项目中,那么,进一步利用上述化学空间分类的概念,设想了一种更直接的虚拟筛选方法,即通过限制MQN值从GDB-13中提取出PNU-282,987的3-氨基奎宁环核的类似物。值得注意的是,当控制多达9个碳原子时,仅剩下344个类奎宁环二胺,含两个氮原子,环大小为5-7,无不饱和度,两个无环碳原子仅作为胺取代基,并且至少有两个键共享由两个环强制形成球状双环二胺。这344种二胺中的3种是根据与PNU-282,987的形状相似性、新颖性和合成可行性选择的。相对而言,合成要求很高,但该方法整体非常成功。选定的化合物rac-18和rac-19,以及来自之前方法的20种被证明是α3β2nAChR的正构调节剂(PAM),这是一种前所未有的活性类型结构。

图片

图4.1 选自GDB数据库的生物活性化合物

基于MQN的近邻选择,作为一种虚拟筛选工具,为研究者寻找α3β2nAChR PAM配体提供了惊人的助力。从已知的α7nAChR激动剂PNU-282,987开始,在ChEMBL中进行了MQN搜索。应用之前的限定CBD MQN≤12以确保高药效团和形状相似性,得到115个类似物,其中49个是3-取代奎宁环。对这些衍生物进行结构检查,发现2-氯苄基-3-氨基奎宁环是一种具潜力但尚未探索的nAChR化合物结构。通过合成光学纯化合物和一定的活性测试试验,证实2-碘衍生物(R)-25可作为一种有效的α3β2nAChRPAM。

图片

图4.2 化学空间的最近邻搜索示例

以上例子说明了MQN和相关指纹空间中的最近邻搜索,可以允许进一步开发非常大的化合物数据库,例如GDB,或者更直接的是ZINC中的市售化合物或ChEMBL中记录的生物活性化合物。研究者还为ZINC数据库建立了一个基于Web的公共多指纹浏览器,通过该浏览器可以从MQN、SMIfp、Sfp和ECfp4空间中检索查询任何分子的最近邻结构。


05

图片

结论与展望

化学空间的探索始于19世纪,化学信息学和超级计算机的出现实现了对分子进行枚举,以生成化学数据库GDB。文献中最大的数据库GDB-17的1664亿个结构,其大小主要取决于可用的计算能力、数据传输速率和内存大小。除了枚举之外,分子周期系统的形式还可对非常大的数据库进行虚拟筛选,并形成可视化。GDB在药物发现中的应用是通过将虚拟筛选、化学合成,并以神经递质受体&转运蛋白配体的活性测试为例,来结合实现的。

使用GDB进行药物类似物搜索,还证实了化学空间的深度,即任何分子都可能存在数百万个非常接近的类似物,包括骨架跳跃&药效团相似,这些类似物可以通过在各种GDB的MQN空间中进行最近邻搜索来轻松识别。化学空间项目,无疑为化学多样性打开了一扇前所未有的大门,而未来最大的挑战,无疑是枚举超过17个原子的分子以及用创新的骨架和药效团来合成未知的潜力分子。


参考文献:
The Chemical Space Project Published as part of the Accounts of Chemical Research special issue “Synthesis, Design, and Molecular Function”. Jean-Louis Reymond. DOI: 10.1021/ar500432k Acc. Chem. Res. 2015, 48, 722−730

版 权 信 息 

图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多