分享

做代谢组学的你一定会用到它--HMDB 4.0

 terminator_523 2018-05-04

15



15

人类代谢组数据库HMDB(www.hmdb.ca)是一个可联网的代谢组学数据库,其中包含有关人类代谢物及其生物学作用,生理浓度,疾病关联,化学反应,代谢途径和参考光谱的综合信息。首次在2007年发布,HMDB现在被认为是人类代谢研究的标准代谢组学资源。在过去的十年中,HMDB一直在不断发展,以响应代谢组学研究人员的新兴需求和Web标准的不断变化。今年的更新,HMDB 4.0,代表了其历史上最重大的数据库升级。例如,完全注释代谢物的数量增加了近三倍,实验光谱的数量增长了近四倍,说明的代谢途径的数量增加了近60倍。HMDB的化学分类学,化学本体论,光谱查看和光谱/文本搜索工具也取得了重大进展。HMDB 4.0还添加了大量全新的数据。这包括大量预测的MS / MS和GC-MS参考光谱数据以及预测(生理上可行的)代谢物结构以促进新代谢物鉴定。还增加了关于代谢物-SNP相互作用的其他信息以及药物对代谢物水平的影响(药物代谢组学)。 HMDB网站的内容,界面和性能已经取得了许多其他重大改进,这些应用将极大地增强其在营养,生物化学,临床化学,临床遗传学,医学方面的易用性。

人类代谢组代表人体内发现的小分子物质的完整集合,包括肽,脂质,氨基酸,核酸,碳水化合物,有机酸,生物胺,维生素,矿物质,食品添加剂,药物,化妆品,污染物,以及人类摄入或接触的任何其他化学物质。代谢组学的发展(即代谢组学的研究)的关键是代谢组学数据库的发展。正如基因组学和蛋白质组学依赖GenBank和UniProt中的参考序列来标注基因和蛋白质,代谢组学依赖于参考化合物数据和参考光谱数据来标注代谢物。虽然KEGG,Reactome和Cyc数据库等存在许多“代谢”数据库,但真正的“代谢组学”数据库相对较少。一些较为知名的代谢组学数据库包括Metlin,MetaboLights, Metabolomics Workbench,Lipid Maps和HMDB。


三大功能PLUS解读

Treasure in the heart


01

HMDB现有数据的扩展和增强

自2007年以来,HMDB在其数据的深度和广度方面迅速扩大,并显着提高了其信息的质量和可靠性。表1总结了过去10年的变化。最显着的变化是HMDB中代谢物的数量。与以前的版本(HMDB 3.0)相比,HMDB 4.0将HMDB 3.0中的40153个代谢物的总数大大增加至HMDB 4.0中的114100个。这相当于增加了近五倍。如2013年所述,HMDB将代谢物分为三大类:(1)检测和量化,(2)检测到但未量化,以及(3)预期。归类为“检测”代谢物的化合物是那些具有测量浓度或实验确认其存在于人体生物体液,细胞或组织中的化合物。“预期”代谢物是已知结构的化合物,其生化途径是已知的,并且人体摄入/暴露频繁,但该化合物尚未在体内被检测到,或者精确的异构体尚未被正式鉴定。对于今年的发布,“检测和量化”化合物的数量从16714轻微增加到18557,“检测但未定量”化合物的数量从2798增加到3271。然而,经历最大增长的化合物类别是'预期'化合物,其从HMDB 3.0中的20641个化合物增长到HMDB 4.0中的82274个化合物。有趣的是,绝大多数(> 90%)新增加的“预期”代谢物都是脂质。因为脂质是具有众所周知的生物合成途径,头部基团和酰基/烷基链成分的模块化分子,所以产生生物可行的脂质结构相对容易。然而,现有的MS和NMR技术不容易确定哪些酰基/烷基链连接到哪个头基位置或这些烷基/酰基链内存在的饱和/去饱和键。因此,通常缺乏特定脂质化合物的实验证据。2013年纳入'预期'代谢物旨在帮助解决代谢组学中的代谢物鉴定瓶颈,然而它仅仅在解决这一瓶颈方面有轻微积极影响。因此,HMDB 4.0增加了第四类代谢物(“预测”)。

过去五年,公众参考MS / MS,GC-MS和NMR谱的可用性在纯化合物方面有了巨大的增长。这些光谱可以在诸如北美MassBank(MoNA),GNPS,Sumner实验室MS文库,MassBank,BioMagResBank等的资源中找到。同时,HMDB管理团队还利用自己的化学文库,MS和NMR仪器,积极收集参考MS / MS,GC / MS和NMR光谱。为了将高度分散的公共光谱数据资源汇集到一起,并将它们提高到与HMDB内部收集的光谱库中相同的质量水平,HMDB团队对公共可用的MS和NMR进行了广泛的光谱合并和修复数据。HMDB 4.0版本中只包含实验收集的高分辨率(QTOF,Orbitrap或其他)MS / MS和GC-MS谱图,其中包含详细的收集条件和碰撞能量信息。同样,只有高分辨率(400 MHz以上)1H或13C NMR谱已经收集并归档用于HMDB 4.0。所有MS / MS和GC-MS光谱都有其注释的峰,并且通过CFM-ID鉴定了碎片离子,而所有NMR谱已经在商业NMR光谱分析程序(MNova和ACDLabs)的帮助下手动注释过。通过这种大规模的光谱合并工作,HMDB 4.0中实验测得的MS / MS谱图的数量从HMDB 3.0中的5776(对于1249个化合物)增加到22247(对于2265个化合物),增加了四倍。同样,实验测量的GC-MS谱图的数量已经从HMDB 3.0中的1763(对于1220个化合物)增加到HMDB 4.0的7418(对于2544个化合物),增加了300%。最后,实验测得的NMR谱的数量从HMDB 3.0中的2032(对于1054个化合物)增加到HMDB 4.0的3840(对于1494个化合物),增加了89%。

HMDB 4.0中图示的代谢途径总数已经从442(在HMDB 3.0中)增加到25570。这些新增通路中(> 95%)描述了脂质的分解代谢/合成代谢。HMDB通路分为几大类:(i)代谢/分解代谢,(ii)代谢物 - 疾病,(iii)代谢物 - 生理学,(iv)药物作用,(v)药物代谢,(vi)代谢信号传导途径。对于HMDB 4.0,代谢/分解代谢途径的数量是25086,代谢物 - 疾病途径的数量是213,代谢物 - 生理学途径的数量是6,药物作用途径的数量是383,药物代谢途径的数目是64,代谢物信号传导途径的数目是18。

另一项重大努力是结构修复。结构修复涉及立体异构体的标准化,校正或重新渲染,盐形式的去除/校正,如何显示带电荷基团的正规化等。HMDB早期版本(尤其是HMDB 3.0)中的许多脂质结构是使用商业软件包绘制的,这些软件包生成具有“压扁虫”外观的脂质结构。以下图为例,针对同一磷脂,A图为HMDB 3.0 版本的脂质结构,B图为HMDB 4.0版本的脂质结构。

      许多生物化学家和代谢组学研究者喜欢根据化学类别(氨基酸,脂质,碳水化合物)对代谢物进行分组。随着ClassyFire化学分类系统及其化学本体(ChemOnt)的最终确定,HMDB 4.0中的所有114100种化合物现已被重新分类和更新,以符合最新的ClassyFire / ChemOnt版本。


02

新的数据内容和数据集

在过去三年中,HMDB管理团队一直在积极开发软件,以准确预测基于已知结构的化学品的MS / MS和GC-MS谱图。对于今年发布的HMDB 4.0,所有'预测'化合物以及所有'已检测'和'预期'化合物在没有现有实验光谱的情况下,预测其ESI-MS / MS谱图(碰撞能量为10,20和40 eV)。HMDB 4.0含有989601个化合物的279972个预测MS / MS谱图和26880个化合物的38277个预测GC-MS谱图。所有预测的质谱图都标记为“预测”,并且它们旨在用作指导以帮助识别或表征已知或未知化合物。

另一个添加到HMDB的全新数据集是功能本体论。虽然ClassyFire为基于结构的分类和描述提供了非常有用的方法,但它并没有解决代谢组学或代谢物的所有本体论问题。特别是,代谢组学需要一个功能本体论,类似于基因组学和蛋白质组学的基因本体论(GO)。在HMDB 4.0中引入了一个更复杂的层次本体,涵盖了更广泛的术语集。它还使用一套完全标准化的本体论定义。新的HMDB本体有四类(过程,角色,生理效应和处置[生物学位置,来源或途径]),35个子类别(见下图)和3150个描述符。目前,HMDB 4.0中的所有114100种化合物已经使用这种新的CFO进行了分类或部分分类。

另外还添加了药物代谢组学数据。药物代谢组学数据首先从文献中挖掘,然后手动策划和格式化,以便用户可以确定哪些药物在组织,细胞或生物流体中的代谢物水平增加或减少。所有药物名称都与DrugBank超链接,所有的药物代谢组学数据都可以通过专门设计的界面浏览和搜索。

除了这些药物代谢组学数据外,HMDB 4.0还具有更丰富的metabo-genomic或代谢物-SNP(单核苷酸多态性)数据集。HMDB 4.0有3056个代谢物与2192个SNP连接,描述了6777个代谢物与SNP的相互作用。

最后,还有大量关于'暴露'的新的数据。暴露的定义是个体在日常生活和生命过程中可能接触的化学暴露的总和。这些化合物包括食品化合物,化妆品,染料,杀虫剂,污染物,药物等。所有被认为是暴露组分的化合物都被标记,并且可以使用HMDB的高级搜索引擎进行搜索或分类。


03

新增和增强的界面功能

   对于HMDB 4.0,引入了一些界面改进,包括(i)改进的路径查看工具,(ii)改进的谱图查看/浏览工具,(iii)改进的谱图搜索,(iv)增强高级搜索,以及(v)更好的数据交换和互操作性资源。例如,所有图像都被广泛地超链接(UniProt,DrugBank和HMDB),所有的途径都经过仔细的描述或者用一个解释性的段落来总结。为了便于通路呈现,现在可以使用两种类型的通路视图,包括(默认)数据丰富的通路呈现和简化的类似KEGG的通路呈现,其更适合于幻灯片或文章。所有在HMDB中呈现的路径都可以以静态图像格式(PNG和SVG)以及各种常见数据交换格式进行保存和下载。HMDB的所有化学结构现在都可以以SMILES,SDF,MOL,PDB,InChI和InChIKey格式下载。此外,所有实验观察到的和理论上预测的MS / MS,GC-MS和NMR谱图都以mzML和nmrML(www.nmrml.org)格式存储和下载,并且所有MS / MS和GC-MS谱图均被指定为SPLASH键用于快速光谱查询和匹配。同样,所有序列(DNA和蛋白质)数据都以FASTA格式存储,并且所有剩余的文本数据都以XML和JSON格式存储。所有这些HMDB文件都可以从HMDB 4.0网站免费下载。

      介绍了这么多,大家应该对HMDB 4.0数据库的改进有了大致的了解,相信该数据库的改进可以极大的帮助广大代谢组学研究者。不多说了,大家赶快去试一下吧!


参考文献:Wishart David S,Feunang Yannick Djoumbou,Marcu Ana et al. HMDB 4.0: the human metabolome database for 2018.[J] .Nucleic Acids Res., 2018, 46(D1): D608-D617.

                           蛋白与代谢事业部  文案|李梦曦

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多