分享

微生物组分析这几年的一个变化-从内容和形式上总结探讨

 微生信生物 2023-08-06 发布于北京

[toc]

写在前面

微生物组大概是在15年前后文章开始飞速出现

三人成师已经维持三年时间了,目前更新到第五期,从第一期到第五期,承载着我们分析思路,分析方法,可视化的变化。我们是幸运的,经历了微生物组快速发展阶段,到达如今的平稳阶段。这让我们学习到了太多。

记得2015年的微生物组文章,几乎只有一个微生物组数据就可以发表一篇一区的文章,例如我们熟知的SBB,测定两个不同处理的细菌群落和真菌群落,就可以发表在上面了。而微生物组分析内容也仅仅包括了:alpha多样性一张图或者稀释曲线一张图,PCOA或者NMDS排序图,再者或许加上一个差异分析的火山图,或者微生物门类分布的堆叠柱状图就形成了文章的第三个结果;这最后一个结果可能会结合其他指标进行一个相关性分析。我们暂且不谈论每篇文章的科学问题,仅仅从实现这篇文章的角度来看,在今天我们的技术水平下可太容易了。

但是随后的日子,微生物组就不是那么容易做了,记得第一个矛盾凸显是2017年-2019年之间:大量的科研工作者拥有的数据只有三个重复,当时苦于无法实现非参数检验和网络分析。记得当时有人问如何做网络,如何三个重复做差异检测也可以实现差异性。我记得当时的推荐是做sparcc网络和进行t检验或者方差分析,虽然不一定合理。

其次我清楚的记得,15年前后的微生物组可视化是没有什么要求的。例如我经常会看到黑白图片,横纵坐标字体太小,纵坐标标签不够规范,例如,类似Abundance的标签,类似Alpha diversity的标签,更多的,类似是否斜体,是否大小写,很多都没有人来规范。但毕竟此时微生物组开始迅猛发展了。一切过程都是值得的,我们只有经历过了,才能最终定义微生物组的一些真正具有代表性的分析内容。

一些颇具代表性的微生物组分析内容

  • 第一个就应该是alpha多样性分析结果了,典型的代表就是alpha多样性箱线图和稀释曲线。其实相较于多样性箱线图,之前使用的更多的是稀释曲线,毕竟稀释曲线既可以展示样本深度还有样本的多样性,展示的信息更多了。但是我们慢慢发现无论深度是多少,稀释曲线总是一条平滑的曲线,而且多条曲线基本上在任意一个深度的趋势都是相同的。所以慢慢的稀释曲线就没有多大意思了,其次测序深度都逐步提升,也就是说深度都够了,不用老是展示深度了。这里问大家一个问题:为什么稀释曲线总是一条平滑的曲线,很少有过不同样本交叉,或者斜率突变的情况呢?

  • 第二个就是PCOA或者NMDS这类非限制性排序分析结果了。这个分析结果总是很好的展示微生物组样本在整体上的差异,符合我们需要在上帝视角进行数据探索。其实面对类似微生物组,转录组,宏基因组等这类高维数据,总是会涌现很流行的出来非限制性排序分析,例如微生物组的明星排序方法PCoA,NMDS,代谢组的PLS-DA排序,生态上的NMDS排序等。但是在之前可能很多人都忽略了非限制性排序基本上都是描述性的分析,都是不具有统计意义的,所以在18年前后,逐渐审稿人都开始要求统计检验,所以慢慢的大部分人就开始用多元置换方差检验了。

  • 第三个用的最多的就算是堆叠柱状图了,从当初的流行横向摆放到如今的纵向摆放,虽然内容上展示的差不多,但是也算是一种审美的变化。堆叠柱状图算是一个文章中一直都喜欢的一个群落组成展示图形。虽然在后续增加了桑基图,冲击图,等变型,但是含义似乎都差不多。其次还有色彩的变话,之前我们喜欢用黑白展示,这是由于之前我们大部分发表在国内期刊上,黑白印刷额要求。这一习惯带到了这里。只是随着时间的推移,SCI论文中逐渐色彩鲜艳起来,但是在近两年主要填充的颜色偏重于暗色调或者淡一点的色调。

  • 第四个就典型就属维恩图了,当时能火到什么程度呢,我清楚的记得有两组的韦恩图,有三组的,四组的,五组的,也叫花瓣图,六个以上本来就该没有办法了,但是还是出现了各种变形,可以展示到十几个分组。但是这几年发展看,这些超过6个组以上展示韦恩图似乎就不那么容易理解内容了,也就逐渐消失了。但是我们想啊,随着测序价格的便宜,测定的处理数量或者分组数量肯定越来越多了啊,所以前两年出现了Upset,这个图就结合了韦恩图的优点,并且可以展示无数的分组,结合颜色等标签,还可以展示我们想要让审稿人关注的点。所以这几年有很多人使用,并且出现了ggplot的版本,可以有更加灵活的形式。

  • 虽然还有一些分析也尝尝用于微生物组研究,但是我觉得是没有什么变迁的,例如,网络图。基本都是那个圆形,无非就是增加几个圆形。

差异分析如此重要,为何我没有拉入典型呢?

我们知道微生物组最开始是在生态上运用的,分析方法当时也是参考了植物,动物生态群落的分析方法进行分析,例如我们使用的vegan包到现在的示例数据都是鱼类的分布。在生态上差异分析用的是比较少的, 尤其是在微生物数据库不完善的年代,我们甚至都不能确认那个微生物是那个微生物,所以差异往往就从开始就不被使用。

随着后来一批做生态的人做了植物微生物组,从此差异分析就开始使用了,据我所知差异分析的使用也就是在16年前后,开始大面积运用。所使用的R包Desep2和EdgeR包都不是专门为扩增子开发的。但是毋庸置疑,如今他们的因引用量爆表与微生物组的繁荣密切相关。

其实差异分析如今风靡也和我们微生物组数据库完善有很大关系,其次通量提高,标准化方法层出不穷等,我们目前整理的差异分析方法也超过了20中,甚至我在做一个项目的时候使用了17中差异分析方法,超过9种方法有差异,就将其挑选出来进行下一步研究。

如今的微生物组分析

如今的微生物组分析已经是眼花缭乱了,我们整理完成的分析内容就已经超过了80种,这还是纯微生物组分析的,微生物组和其他指标联合分析的还有大几十种,可以算是繁荣了。

其次微生物组分析也越来越注重描述性和定量性结合的原则,例如,我们的描述性非限制性排序分析总要结合一个多元置换方差检验结果。alpha多样性分析结果总要结合一个非参数检验结果。物种组成总要结合一个微生物组差异检测结果。

虽然我们明白往往微生物组中多个分析都可以达到相同的目的,那么我们究竟应该选择哪种分析呢?这里我告诉大家答案,小孩才做选择,我们都是全部都用,我们有这样的资源和实例都进行使用。这也是目前发展的趋势,因为往往像微生物这样的摸不着,抓不到的数据,总是需要从不同角度进行解析,同一个内容多个不同原理的分析手段往往可以增加一个结论的信服度。

虽然乱花渐入迷人眼,我们作为内行,认识还是清晰的。那就是无论如何,微生物组只是一个工具,让我们发现什么微生物是后续需要关注的,进行验证实验需要使用的等等。后续工作往往需要承接大量的实验性质内容才可以让我们的故事得以完整。规律得以证明,理论走向实践。

未来的微生物组分析有哪些我认为需要关注的问题

  • 理解微生物组多样性,整体差异,单个微生物组差异的联系

  • 理解微生物组多样性,相关性,物种丰度,物种类别等的关系

  • 理解微生物组群落与功能的关联

  • 理解微生物组成和环境因子等其他指标的关联

  • 理解微生物群落的形成过程

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多