破解'验菌识病'大难题，赵方庆团队NCS报道方法突破 (附专访) | 热心肠日报

mingxiaozi 2022-05-24 发布于天津

展开全文

今天是第2183期日报。

今天日报的头条，我们特别报道中国科学院北京生命科学研究院赵方庆教授团队，在Nature Computational Science发表的题为Large-scale microbiome data integration enables robust biomarker identification的最新研究，开发了一个基于生物学网络分析来鉴定疾病相关肠菌标志物的新型工具——NetMoss。我们特别附上对该研究通讯作者赵方庆教授的专访，以飨读者。

赵方庆等Nature子刊：拨开菌群大数据的迷雾，用NetMoss鉴定可靠的疾病标志物

Nature Computational Science[IF:N/A]

① 批次效应阻碍大规模队列的菌群整合分析，用单变量加权法进行微生物网络整合可减少批次效应；② 在此基础上开发基于网络分析的NetMoss算法，通过评估微生物网络模块的变化，来鉴定可靠的疾病相关标志物；③ 对模拟和真实数据集的分析表明，与其他方法相比，NetMoss能有效减少批次效应，识别更多的疾病相关肠菌标志物（包括基于丰度的方法所无法鉴别的标志物）；④ 分析涉及5种疾病的11377个菌群样本发现，疾病相关细菌大部分与多种疾病有关（仅少量是疾病特异性的），可能在多种疾病中有驱动作用。

Large-scale microbiome data integration enables robust biomarker identification
05-23, doi: 10.1038/s43588-022-00247-8

【主编评语】肠道菌群作为疾病的“晴雨计”，是潜在的疾病标志物。然而，由于混杂因素（比如批次效应）以及基于丰度分析方法的局限性，不同研究之间难以鉴定出统一的疾病相关菌群标志物，这阻碍了菌群在疾病临床诊断和预后预测中的应用。为解决这一难题，中国科学院北京生命科学研究院的赵方庆团队，开发了一个基于生物学网络分析的新型工具——NetMoss，可以有效地解决以往微生物组数据整合中存在的批次效应问题，能极大提高对疾病相关肠菌标志物的识别能力。相关成果已在Nature Computational Science发表，强烈推荐专业人士关注！（@mildbreeze）

赵方庆

赵方庆，中国科学院北京生命科学研究院研究员。先后获得中科院“百人计划”（2011）、基金委优秀青年基金（2017）、北京市杰出青年科学基金（2018）、国家杰出青年科学基金（2020）、中国科学院特聘研究员（2022）等资助。现任中科院北京生科院科研部副主任、技术平台部主任，中国生物信息学会基因组信息学专委会主任。主要致力于建立高效的算法模型和实验技术，探索人体微生物与非编码RNA的结构组成与变化规律，以期解析它们与人类健康和疾病的关系。近年来，在Cell、Gut、Nature Biotechnology、Nature Computational Science、Nature Communications等刊物上发表通讯作者论文50余篇，其中十余篇入选ESI高被引论文。先后4次荣获“中国科学院优秀导师奖”（2017, 2018, 2019, 2021）以及“中国科学院大学领雁奖章”（2020）、“中国科学院朱李月华优秀教师奖”（2020）、“中国科学院大学必和必拓导师奖”（2021）。

问

祝贺赵老师团队在Nature Computational Science发表重要成果！这项研究建立了一个用于识别疾病相关菌群标志物的新算法——NetMoss。可否请您讲解一下这项研究的出发点，以及NetMoss算法的设计思路？

答

随着测序技术的发展，我们产生的生物数据越来越多，但是如何有效地整合这些海量的数据并从中挖掘出有用的信息应用于临床的诊断一直是一个棘手的问题。肠道微生物的种类和丰度与基因表达阵列不同，它们更容易受到饮食、地域等各种因素的影响，不同人群之间肠道菌群组成可能存在很大差异，直接基于菌群丰度整合数据并进行生物标记物挖掘必然会产生偏差。此外，微生物丰度矩阵过于稀疏，常规计算方法也很难基于此稀疏矩阵对不同批次的丰度进行校正。

因此，为避免丰度测量过程中的易变性，我们重点关注了微生物群落内部那些更普适、稳定的规律，即微生物之间的互作关系。尽管不同的人可能拥有完全不同的肠道微生物组成，但从更为宏观的角度来看，相同生理状态下的人群，其肠道微生物之间的相互作用可能是相似的，这也是我们想到可以基于微生物网络整合不同数据的理论基础。NetMoss就是基于不同数据首先构建出微生物互作网络，然后依据不同微生物网络的结构特点，为每个网络赋予不同的权重，最后再加以整合，通过识别健康和疾病网络中拓扑结构的异同，来实现对大规模数据的综合分析和生物标记物的挖掘。

问

与其他方法相比，NetMoss在大规模的菌群数据整合以及生物标志物挖掘方面，有哪些特点和优势？

答

NetMoss最大的优势就是，它在整合数据和进行生物标志物挖掘时，并不是直接基于物种丰度，而是基于生态互作网络来实现的。通常情况下，肠道中的微生物并不是独立存在发挥作用，它们往往需要彼此协同合作，共同完成某一生命活动。通过构建微生物互作网络，我们可以很好地保留每一个子数据集最原始的生物互作信息，通过进一步的整合，我们就可以基于更庞大的数据进行生物标记物的挖掘。在进行标记物的识别时，我们同样也是基于不同微生物网络的结构差异来进行的。当人体的健康状况发生改变时，微生物种类、丰度和彼此之间的互作关系都有可能发生改变。我们通过量化不同健康状态下微生物互作网络的结构差异，可以更精准、更快速地识别出对扰动敏感的关键微生物，从而将其应用于临床疾病的诊断和预测。

问

NetMoss有哪些应用前景？

答

由于NetMoss是基于网络拓扑结构的变化来进行生物标记物挖掘，其对于不同健康状态下环境对人体的扰动更加敏感，往往可以挖掘出一些丰度尚未发生显著改变但在生态互作网络中极其重要的节点。这些肠道细菌作为生物标记物能够对临床上疾病的诊断进行一定程度上的预测。同时，关注这些在生态互作中发生改变的细菌，也可能对疾病的机制研究做出一定的贡献。当然，这些挖掘出的生物标记物也需要更多的临床研究去进行进一步的验证。

问

这项研究发现，大部分的疾病相关肠菌都是与多种疾病相关，而不是疾病特异性的标志物。与此相似地，近期也有其他研究表明，一些疾病之间存在共性的菌群失调变化。可否请您谈谈对这一问题的看法？

答

作为一个非常复杂的生态系统，肠道菌群对于机体免疫代谢的调节机制至今还仍处于研究的初级阶段。但是可以肯定的是，我们肠道中的细菌在人体内并不是单独发挥作用的，它可能通过与不同细菌的竞争或合作改变肠道生态系统的结构，也可能通过一些代谢物的分泌影响下游的多种功能通路。总之，相同的细菌可能会在不同疾病的发生发展过程中扮演不同角色，虽然作用各不相同，但都同样重要。这些细菌在人体代谢网络中的位置或功能发生改变，影响的不是单一的某一个组织或器官，而是我们的整个生命系统，因为人体本身就是一个有机的整体，我们不能孤立地看待任何一种生命现象。

问

菌群研究已经进入深水区。越来越多的研究者开始从生态系统的视角，探索肠道菌群及其在健康和疾病中的作用。请问这方面目前的研究进展是怎样的？

答

肠道菌群本身是一个复杂的生态系统，只不过与自然环境下开放的生态系统不同，它相对封闭，且与我们人体健康和疾病息息相关。正是因为我们人体是一个有机整体，在做研究时就不能孤立地去看待任何一部分。肠道生态系统影响的不仅仅是我们的消化道，它对于呼吸道、生殖道乃至其他系统也有一定的影响。这种影响除了直接的菌群交互之外，还有通过免疫因子、代谢物和神经递质产生间接影响。目前也有很多研究开始关注肠-脑轴、肠-肝轴甚至是肠-肾轴，通过研究肠道菌群在不同系统之间的作用和机制可以更好地理解生命活动的本质，也能够更好地指导我们对多种疾病进行预防和治疗。

问

可否请您再介绍一下参与这项研究的团队成员，以及后续的研究方向？

答

本研究由我们团队的博士研究生肖力文和硕士研究生张丰驿共同完成。在前期的算法构思和后续验证及数据挖掘过程中，我们都进行了反复讨论和推演，历时五年才最终完成此项工作。关于细菌在肠道生态系统中的作用一直是我们感兴趣的的研究方向，如何更准确地衡量细菌之间有方向的生态互作关系，以及不同细菌在肠道生态系统中是否可能占据相同的生态位置，都是我们后续关注的重点。

（作者专访内容结束，以下是日报的其他内容）

Nature子刊：宿主转录组+肠道菌群，鉴别不同肠道疾病的特性和共性

Nature Microbiology[IF:17.745]

① 开发一个基于机器学习的模型，分析来自结直肠癌、炎症性肠疾病和肠易激综合征队列（n=208）的结肠黏膜样本的宿主转录组和肠道微生物组；② 鉴定出不同疾病共有或特有的肠菌与宿主基因表达的关联；③ 发现一组与胃肠道炎症、肠道屏障保护和能量代谢相关的宿主基因和通路，与疾病特异性肠菌有关；④ 黏膜微生物（如链球菌属）与三种疾病有关，但在不同疾病中与不同宿主基因/通路关联，提示同一个分类群可通过调控不同宿主基因来影响不同疾病。

Identification of shared and disease-specific host gene–microbiome associations across human diseases using multi-omic integration
05-16, doi: 10.1038/s41564-022-01121-z

【主编评语】肠道菌群和宿主基因调控都可参与胃肠道疾病的发生发展，但尚不清楚这二者如何互作以影响宿主疾病。Nature Microbiology近期发表的一项研究，建立了一个用于整合多组学高维数据集的机器学习框架，并用该方法在三种肠道疾病中，鉴定了疾病间特有和共有的宿主基因-微生物组关联，为进一步研究菌群影响疾病的机理提供了新线索。（@mildbreeze）

Nature之刊：基于HiFi数据的三代宏基因组组装工具hifiasm-meta

Nature Methods[IF:28.547]

① hifiasm-meta是在hifiasm的基础上，针对PacBio的HiFi宏基因组数据开发的组装软件；② 在模拟数据集中，hifiasm-meta比metaFlye拥有更好的菌株区分度，比HiCanu耗时更短，三者准确性相当；③ 在真实数据集中，hifiasm-meta比其他软件可组装出更多兆级别和环状contigs，显著提升了下游宏基因组Binning性能，可获得更多高质量MAGs；④ hifiasm-meta能很好区分来自素食者和肉食者混装样本得到的MAGs，说明其更擅长区分微生物间细微组分差异。

Metagenome assembly of high-fidelity long reads with hifiasm-meta
05-09, doi: 10.1038/s41592-022-01478-3

【主编评语】宏基因组样品的从头组装是探究微生物群落的常用方法，近日，李恒团队在Nature Methods上发表最新研究，在hifiasm的基础新开发了hifiasm-meta（https://github.com/lh3/hifiasm-meta）工具，一种针对HiFi数据的高准确性宏基因组组装软件。在真实数据集上评估了三个HiFi宏基因组组装软件，Hifiasm-meta可以很好的重构其他组装软件发现的大多数高质量的contigs，同时在接近完整的contigs中，Hifiasm-meta的组装效果优于HiCanu和metaFly，值得相关生信人员关注和尝试。（@九卿臣）

评估生物群落特异性基因集的宏基因组组装方法

Microbiome[IF:14.65]

① 在单样本组装和多样本混拼两种常用的宏基因组组装方法基础上，开发了一种混合组装方法（Mix-assembly），核心是将前两种方法得到的基因聚类，获得混合非冗余基因集；② 混装方法在非冗余基因、完整基因和可注释功能基因数量上均显著优于其它两种方法；③ 混装基因集中低丰度基因主要源自多样本混拼，而高丰度基因则源自单样本组装；④ 使用混装方法对波罗的海环境样本重新分析，将原始基因集扩大了10倍，极大地拓展了样本中可利用信息。

Evaluating metagenomic assembly approaches for biome-specific gene catalogues
05-06, doi: 10.1186/s40168-022-01259-2

【主编评语】目前，将宏基因组reads组装成contigs，单样本组装和多样本混拼（co-assembly）是两种常用的组装方法，这两种方法都存在潜在的优点和缺点。近日，Microbiome发表最新研究，作者在这两种组装方法的基础，开发了一种混合组装方法（Mix-assembly），其核心是将两种方法得到的基因聚类进而获得混合非冗余基因集。进一步使用该方法对波罗的海环境样本重新分析，结果将原始基因集扩大了10倍。总之，该研究表明通过混合组装方法或许是增加宏基因组样本信息的一种可行方法，值得关注和尝试。（@九卿臣）

一种快速和精确的构建病毒宏基因组组装基因组（vMAGs）工具vRhyme

Nucleic Acids Research[IF:16.971]

① vRhyme是一种快速和准确的病毒MAG分箱工具，经reads覆盖度处理、序列特征提取、有监督机器学习、迭代网络聚类及bin评分五步实现精准分箱；② vRhyme能够对不同家族、宿主和源环境隶属关系、不同片段化基因组及各种长度的病毒进行分箱；③ 与现有工具相比，vRhyme在模拟和真实数据集中分箱速度快、准确较高、兼容性强及计算需求低；④ 在人类皮肤数据中，vRhyme能更全面地分析一组个体中的共享病毒和病毒特征，并更好地再现自然系统。

vRhyme enables binning of viral genomes from metagenomes
05-11, doi: 10.1093/nar/gkac341

【主编评语】通过分箱技术从宏基因组数据中恢复细菌、古菌甚至真核生物至关重要，但针对病毒基因组的组装恢复工具相对较少。近日，研究者在Nucleic Acids Research发表最新研究，他们开发一个快速和精确的构建病毒宏基因组组装基因组（vMAGs）工具—vRhyme（https://github.com/AnantharamanLab/vRhyme）。vRhyme它是一种多功能工具，利用覆盖度方差比较和序列特征的监督机器学习分类来构建vMAGs，值得相关生信人员进一步尝试和比较。（@九卿臣）

MDMcleaner重新评估公共宏基因组组装基因组和单菌基因组数据集

Nucleic Acids Research[IF:16.971]

① MDMcleaner专用于评估和过滤宏基因组组装基因组(MAG)、单细菌组装基因组(SAG)和参考基因组中的污染序列；② 对基因组污染的评估优于其它可用工具，表现为对污染序列敏感性更高，对高度碎片化的MAG和SAG的假阳性率更低；③ 在之前被标记为低污染的基因组中发现了大量污染序列，提示应重新考虑现有基因组质量评价标准；④ 能过滤掉公共数据集中半数MAGs/SAGs中的污染，但对平均基因组完整性没有明显影响。

How clear is our current view on microbial dark matter? (Re-)assessing public MAG & SAG datasets with MDMcleaner
05-10, doi: 10.1093/nar/gkac294

【主编评语】本研究，作者提出了一种新的工作流程，作为检测和清除污染的替代策略，它可以意识到潜在的参考数据库污染，从而最大限度地减少错误传播的危险。作者为这个工作流提供了一个免费开放访问的python程序，名为“MDMcleaner”，一个重叠群分类和细化工具，并在模拟和真实数据集上对其进行了测试和比较。MDMcleaner 揭示了当前筛选方法忽略的大量污染，并在新基因组和基础参考数据库中灵敏地检测出了错误分配的重叠群从而大大改善了我们对“微生物暗物质”的看法。（@刘永鑫-中科院-宏基因组）

Nature子刊：宏基因组功能预测和注释新工具LookingGlass

Nature Communications[IF:14.919]

① LookingGlass是一种“生命通用语言”深度学习模型，能直接对宏基因组中的reads进行高效地功能预测、注释和特定的酶挖掘；② LookingGlass能够捕获被传统方法遗漏序列的功能特征和序列之间的进化关系；③ LookingGlass能准确识别短读长DNA序列中的编码区，实现高效地氨基酸翻译，还能对酶的最佳温度进行预测；④ 使用LookingGlass从全球海洋宏基因组数据中挖掘出大量未知的氧化还原酶，发现氧化还原酶丰度随纬度和深度分布的新趋势；

Deep learning of a bacterial and archaeal universal language of life enables transfer learning and illuminates microbial dark matter
05-11, doi: 10.1038/s41467-022-30070-8

【主编评语】目前，还是有大量的微生物未被培养，在微生物基因组或环境序列中鉴定到的大多数蛋白质也无法很好的进行功能注释。由于参考数据库的不完整，一定程度上限制了研究人员充分捕捉微生物群的功能多样性，也限制了对生物序列的高级特征进行建模的能力。近日，Nature Communications发表了一项最新研究，研究人员建立了一种“生命通用语言”深度学习模型—LookingGlass（https://github.com/gnif/LookingGlass），能准确识别短读长DNA序列中的编码区，高效地对宏基因组中的reads进行功能预测、注释和特定的酶挖掘。总之，该研究为深度挖掘微生物暗物质提供了支撑，也为复杂生物系统建模提供了基础。（@九卿臣）

农科院团队：用宏基因组指导未培养微生物的分离培养（综述）

Microbiome[IF:14.65]

① 目前估计未培养的属和门分别占地球菌群的81%和25%，纯微生物培养物可用于研究微生物特性和生成参考基因组数据；② 宏基因组组装基因组和单细胞基因组为鉴定和分离微生物/功能提供机会；③ 宏基因组数据指导的微生物分离策略包括培养基优化、抗生素抗性基因应用、稳定同位素探测引导的拉曼激活微生物细胞分选、反向基因组学和基因靶向分离；④ 制约这些策略的因素包括基因组序列不能确定培养某种微生物的所有必要条件，DNA 提取方法等。

Opportunities and challenges of using metagenomic data to bring uncultured microbes into cultivation
05-12, doi: 10.1186/s40168-022-01272-5

【主编评语】宏基因组数据日益丰富，为指导靶标微生物的分离和培养带来了新的机遇。中国农科院王加启、赵圣国与团队近期在Microbiome发表文章，对利用宏基因组数据指导的微生物分离培养方法的研究进展进行了综述，介绍了基于宏基因组数据分离和靶向微生物培养的新方法及应用，主要包括特定培养条件的设计、特异性抗体捕获分离、靶向基因筛选分离等技术。通过未培养微生物基因组信息预测其代谢特征和生长需求，为分离培养新的微生物并解析其功能特征提供了突破机遇。（@刘永鑫-中科院-宏基因组）

Nature：关注饮食对动物研究的影响（新闻）

Nature[IF:49.962]

① 饮食是动物实验的一个需要考虑的变量，记录研究中使用的饮食细节有助于提高实验的可重复性；② 标准化饲料仍有不足，饮食的变化（如：某批次饲料中混有掺杂物、不同供应商的饲料在营养素上有差异、不同研究采用不同的喂食模式）可能影响研究结论，应在实验设计阶段就考虑这些问题，并在研究中报告具体细节；③ 应关注实验动物福祉，让动物可以选择接近在野外状态下适应的饮食，或能提高科研的严谨性，得到更有意义的结果。

Dietary differences can confound animal studies
05-23, doi: 10.1038/d41586-022-01393-9

【主编评语】饮食对健康和生理状态有巨大影响。Nature最新发表的一篇新闻报道，关注了实验动物的饮食对研究结果和可重复性的影响。（@mildbreeze）

感谢本期日报的创作者：mildbreeze，一只赵崽儿呀，九卿臣，青城昊，往、昔℡，周梦情