分享

【LorMe成果】SIDERITE:全面揭示化学空间隐藏的铁载体

 LorMe青年 2024-04-09 发布于江苏
2024年4月5日,南京农业大学LorMe实验室和北京大学前沿交叉学科研究院钱珑、李志远课题组在iMeta期刊上合作发表了题为《SIDERITE: Unveiling hidden siderophore diversity in the chemical space through digital exploration》的文章。该工作构建了目前为止最大最全的铁载体数据库Siderophore information database (SIDERTE) ,并提出了一种基于螯合铁功能基团搜索的方法来批量寻找潜在的铁载体。

导读


铁载体(Siderophore)是微生物中最常见的一类次级代谢产物,具有高度的结构多样性。铁是参与细胞复制和呼吸必不可少的元素之一。铁载体对铁具有强螯合力,帮助微生物摄取铁,在微生物生存和生长中具有重要作用。铁载体合成和摄取的相关途径广泛存在于微生物中,参与了微生物群落中复杂的生态博弈。作为一种特殊的天然产物,铁载体表现出显著的抗细菌和抗真菌活性,使它们成为新型药物研发的热点。过去几十年里,大量的铁载体结构被实验鉴定。然而,本领域缺乏被维护的铁载体数据库,更缺乏系统性整理的数字化铁载体数据集,这阻碍了铁载体领域向数据化、智能化的进一步发展。

本研究开发了铁载体信息数据库(Siderophore Information Database, SIDERTIE),以SMILES格式收录了截至2023年5月所有已知的649种具有独特结构的铁载体。利用SIDERTIE的数字化特性,本研究得到了迄今为止最全面的铁载体信息统计数据,涵盖了铁载体生物合成途径、产生者来源和化学特性。统计发现,已知的铁载体在天然产物的化学空间中呈散发状分布,暗示了铁载体结构的多样性尚未被充分探索。基于此,本研究提出了一种基于螯合铁功能基团的方法来批量发现新的铁载体的计算方法,并进行了实验证实。

图1. 左图为SIDERITE数据库中记录的649个铁载体结构的聚类。基于对已知铁载体的分析,本研究提出了一种基于螯合铁功能基团的方法来批量发现新的铁载体的计算方法,并进行了实验证实。

【作者寄语】除了文章中收录的649个铁载体,最近我们还更新了2023年5月至2024年3月新发现的和之前遗漏的54个新铁载体结构,目前数据库中的铁载体达到了703个(即将上线)。此外我们梳理了铁载体的发展历史,以各种铁载体功能基团的首次发现为里程碑。近些年来,平均每年都有20~30个新铁载体结构被发现,表明铁载体领域正在蓬勃发展。在这一背景下,综合型铁载体数据库SIDERITE应运而生。

图2. 铁载体历史及其里程碑


主要结果


1. SIDERITE概述
铁载体信息数据库(SIDERITE,http://siderite.)包含了872条记录,涵盖了截至2023年5月已知的所有铁载体,SIDERITE以SMILES格式记录了铁载体结构,将铁载体数字化使得计算分析成为可能。通过比较铁载体的规范化SMILES,本研究在总共872条记录中确定了649种结构唯一的铁载体。
数字化便利了对铁载体的统计分析(图3),SIDERITE 中649个独特铁载体主要由细菌产生,其次是真菌、植物和动物(图3A)。铁载体还可以根据它们的生物合成途径进行分类(图3B)。NRPS合成途径占比最多,其次是NIS途径,PKS途径最少,此外还有NRPS和PKS混合途径,NRPS和NIS混合途径。铁载体通过几种常见的配体螯合铁,其中异羟肟酸和儿茶酚是铁载体最常见的配体(图3D)。八面体几何结构,允许六个配体围绕铁中心排列,能够最小化排斥力,是铁载体-铁螯合过程中观察到的最常见的配位几何形态,分析结果显示,大多数铁载体的配位数为6(图3E)。统计数据显示:大多数铁载体的分子量在300~1100道尔顿之间(图3F)。此外本研究还预测了铁载体的水溶性和扩散系数,发现大多数铁载体具有良好的水溶性,预测扩散系数在2.66×10-10-5.50×10-10m2/s范围内。这些发现为理解铁载体的生物学功能和环境行为提供了基础。

图3. SIDERITE中649个结构唯一铁载体的统计数据。A.铁载体生产者在界中的分布。B.铁载体生物合成途径的分布。C.铁载体配体类型组合的分布。D.铁载体常见配体的分布。E.铁载体中配位数分布。F.铁载体分子量分布

2. 铁载体的结构相似性聚类
已知铁载体表现出显著的结构多样性。将铁载体转换为SMILES格式使本研究能够更有效地量化它们在SIDERITE数据库内以及与其他天然产物之间的化学相似性。通过化学相似性的Tree MAP(TMAP)进行可视化,本研究观察到这649个铁载体可以分为25个不同的簇(cluster),它们被COCONUT中的天然产物分隔开。聚类结果显示,铁载体的结构多样性分布不均匀(图4)。这些簇中大多数(25个中的16个)仅包含少量成员(<5),而最大的四个簇占总铁载体结构的89.37%。本研究按成员数量将簇索引按降序排序;例如,簇1包含最多的铁载体结构。
在每个簇内,都有螯合铁功能基团或生物合成类型的共同特征。簇1(201, 30.97%)包括由非核糖体肽合成酶(non-ribosomal peptide synthetase, NRPS)和不依赖NRPS的铁载体合成酶(NRPS-independent siderophore, NIS)合成的铁载体,其中螯合铁功能基团中含有苯环结构(例如,儿茶酚,酚)。簇2(197, 30.35%)仅包括由NRPS产生的铁载体。簇2中的大多数铁载体含有异羟肟酸(92.39%, 182/197)和α-羟基羧酸(37.06%, 73/197)。簇3(103, 15.87%)完全由NIS铁载体组成。与簇2类似,其中大多数铁载体含有异羟肟酸(90.29%, 93/103),并且许多还含有α-羟基羧酸(33.01%, 34/103)。簇4(79, 12.17%)是具有发色基团(例如pyoverdine)的NRPS铁载体(93.67%, 74/79)。其他小的簇都位于四个大的聚类群边缘(图4A)。它们由类似的功能基团组成,这表明可能会从常见铁载体中演化出不寻常的铁载体。

图4. SIDERITE中25个铁载体簇的可视化。(A)由化学相似性连接的铁载体网络。网络中的每个节点对应一个铁载体分子,节点与其最相似的邻居相连,形成最小生成树。节点根据其簇的索引进行上色。(B)对于四个最大的簇,提供了示例结构,并且对铁载体的功能基团进行了颜色标注。铁载体用圆角矩形圈出,以显示它们的簇(与(B)中的配色相同)。

3. 按簇和组命名铁载体
对于铁载体,簇仅提供了相对于其他天然产物分子的初始分类。此外,本研究根据它们的结构相似性系数,在每个25个簇内部定义了组(Group),共计得到了102个组。每个组由其所在簇的索引x和该簇中的组索引y命名。因此,每个铁载体被分配一个唯一的索引x.y.z,其中z代表这个铁载体是该组内的第z条记录在将来,新发现的铁载体被纳入SIDERITE数据库时也将被分配一个唯一的索引。
对于生物合成类型未知的铁载体,它们的生物合成类型可以通过同一组中已知生物合成类型的其他成员来推断,因为同一组中几乎所有成员都具有相同的生物合成类型。这对发现新的铁载体后在基因组中挖掘其生物合成基因非常有用。这将加速从结构到基因的铁载体研究。

4. 用基于功能基团的方法发现潜在的铁载体
已知铁载体的聚类分析揭示了这些化合物中常见螯合铁功能基团的存在。受到这一观察的启发,本研究提出了一种基于规则的方法,旨在通过化学结构发现新的铁载体(图5A-C)。在这种方法中,本研究首先从已知铁载体的特征中提炼出了15种常见的螯合铁功能基团。在规则中,任何含有至少一种这15种功能基团的分子都被确定为潜在的铁载体(图5D)。然后,本研究排除了含有任何8种被修饰铁载体功能基团的候选物(图5E)。因为被修饰的铁载体功能基团无法形成配位键以螯合铁。此外,虽然α-羟基羧酸功能基团在铁载体中普遍存在(图5F),但由于它在非铁载体分子中也普遍存在,本研究也将其从规则集中排除。为了验证这种方法,本研究将基于螯合铁功能基团的方法应用于大型化学数据库COCONUT,排除了数据库中已知的322种铁载体。本研究在这一具有超过40万天然产物的数据库中识别出了3199种具有潜在的铁螯合活性的分子。
5. 用CAS试验验证潜在的铁载体

随后,本研究从3199个候选物中搜索可购买的分子进行实验验证。48种分子(图5B)可在商业天然产物库中获得。通过用于检测螯合铁的分子的铬天青S(chrome azurol S, CAS)测试,确定这48种分子的螯合铁能力。结果显示22种水溶性化合物中有20种(90.9%),26种水不溶性化合物中有20种(76.9%)具有螯合铁的能力(图5G、H)。CAS测定的高阳性率支持了本研究基于螯合铁功能基团发现潜在铁载体方法的有效性。

图5.基于规则的铁载体发现方法和铬天青S(CAS)测试实验结果。(A)基于规则的铁载体发现方法的原理。这些规则是根据SIDERITE数据库中已知的铁载体总结的。然后通过实验进行验证。(B)基于螯合铁功能基团的铁载体发现流程。含有(D)中的至少一个功能基团且不含(E)中的任何一个修饰功能基团的分子被选择为铁载体候选物。(C)在开放天然产物(COCONUT)数据库中新潜在铁载体的结构多样性。具有潜在铁结合活性的3199个分子和已知的649个铁载体根据Tanimoto相似性进行了聚类。分子来源(COCONUT或SIDERITE)通过左侧条形图以黄色和黑色表示。(D)(B)中规则中的铁载体功能基团的结构。功能基团的稀有程度由不同的背景颜色表示。(E)(B)中规则中修改的功能基团的结构。导致功能基团失去螯合铁能力的修饰以红色标记。(F)常见功能基团α-羟基羧酸的结构。(G)22种水溶性铁载体候选物的CAS结果。溶剂为水。柱状图中显示了光密度(OD630nm)的平均值和±一个标准偏差。溶剂的OD630nm标记为红色线(平均值)和红色虚线(一个标准偏差)。CAS测试中结果为阴性的化合物标记为红色。(H)26种水不溶性铁载体候选物的CAS结果。溶剂为二甲基亚砜(DMSO)。其他图例与(F)相同。(I)具有铁螯合活性的代表性化合物示例。


总结


本研究开发了目前最全面的铁载体信息数据库(SIDERTE, https://siderite./),这是第一个采用SMILES格式将649种独特结构的铁载体数字化的存储库。这个数字化的铁载体存储库使研究人员能够克服手动方法的局限,为铁载体领域数据驱动的发现铺平了道路。基于这些数字化结构,本研究开发了一种计算方法,用于发现具有高准确度的新型螯合铁的分子,并发现在铁载体研究领域中尚未完全探索的结构多样性。SIDERTE为新型铁载体的发现提供了一个存储库。本研究在数据库或GitHub页面提供了教程材料和反馈渠道,并承诺持续维护SIDERTE数据库,并根据用户的反馈进行更新。


代码和数据可用性


本文的数据可在Zenodo上获取,网址为https:///doi/10.5281/zenodo.10369626。本文的代码可在GitHub上获取,网址为https://github.com/RuolinHe/SIDERITE。数据库可在http://siderite.上获取。补充资料(方法、图表、脚本、图摘要、幻灯片、视频、中文翻译版本和更新资料)可在在线DOI或iMeta Science(http://www.ience/)上找到。

论文信息

原名:SIDERITE: Unveiling hidden siderophore diversity in the chemical space through digital exploration

译名:SIDERITE:通过数字化探索揭示化学空间中隐藏的铁载体多样性

期刊:iMeta

DOI:10.1002/imt2.192

发表时间:2024.4

共同一作贺若霖,顾少华

通讯作者:钱珑、韦中、李志远

通讯作者单位:北京大学前沿交叉学科研究院、南京农业大学资源与环境科学学院

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多