【原】MicrobiomeAnalyst：一款综合的可视化微生物组学数据分析网页工具

宏基因组 2020-10-09

展开全文

陕西省微生物研究所 常帆
主要研究方向为土壤微生态，同时负责服务器维护和相关流程搭建。

简介

文章简介

MicrobiomeAnalyst，综合微生物组学数据网页工具，2017年发表在Nucleic Acids Research上：MicrobiomeAnalyst - a web-based tool for comprehensive statistical, visual and meta-analysis of microbiome data. （doi: https:///10.1093/nar/gkx295 ），是一款集成数据分析展示工具，主要建立了从OTU table开始的下游分析全套流程。和其他工具最大的不同是提供简单直观的网页可视化操作界面，只需要鼠标点击上传相应的文件就能实现多元化的分析，并输出分析表格和数据展示图形，非常简单易操作。直至2018年10月21日，一直在更新（last updated 2018-10-15)。

图1. 网站的基本框架

主要功能模块

网址：http://www./
点击进入如下界面：

图2. 网站主页

网站的tutorials提供了每个模块详细的pdf介绍和教程，不同于其他网站，教程图文并茂，很好理解，推荐大家查看。

网站包括4大模块：

MDP Marker Data Profiling (MDP)：16S扩增子分析综合工具，包括了alpha 多样性、beta多样性、微生物组间比较、功能预测等最新最主流的分析展示方法，是我们16S扩增子分析的主要工具。经过测试发现，ITS数据只要符合格式一样能进行分析。
SDP Shotgun Data Profiling (SDP): 宏基因组数据分析。包括了KEGG、COG注释, 功能分析等众多工具。
TSEA Taxon Set Enrichment Analysis (TSEA):富集分析。工具为临床手工集合了许多病原菌的信息生成一个数据集，可以在工具中搜索相关菌株信息。
PPD Projection with Public Data (PPD): 和公共数据库（数据来源主要为HMP等人体微生物组数据库，也有EMP等的一些环境微生物组数据库）中的数据集进行比较，可能发现潜在的模式变化。

网站无需注册，点击就可使用，方便的同时，也不能保存刚刚的结果，需要手动将结果下载到本地。且一段时间无操作时再次点击会刷新到主页，而且网页会偶发异常刷新的情况，使之前的分析中断。所以上传数据开始分析时只能一次分析完，不然就要从头开始。

16S多样性分析展示

数据上传及格式要求

此处用笔者的6个样本（分2组，每组3个平行）进行测试：

首先点击左上角的MDPMarker Data Profiling (MDP)：

图3. 文件上传页面（同时也可上传BIOM格式、MOTHUR输出的格式）

其中taxonomy处用哪个数据库注释的就选择哪个，RDP的话选择Not Specific/Other。因为网站只需要三个文件，所以上传真菌注释后选择Not Specific/Other一样能进行后续的真菌扩增子分析。
点击每一行后面的？号，会给出上传数据的格式。此处要注意，OTU表格和实验设计文件的左上角第一格必须填写 #NAME，注释信息左上角第一格必须填写 #TAXONOMY。均大写，程序才能识别。

图4. OTU表格示例格式，注意左上角的#NAME

图5. 样本分组信息格式，注意左上角的#NAME

图6. OTU物种注释示例格式，注意左上角的#TAXONOMY

完成后submit，等待程序运行。结果如下：

数据完整性检查

Data Integrity Check

如果数据格式不符合要求，会在右上角报错，提示格式的可能原因，需修改数据再次上传。如果格式合格。显示如下：

首先是此次数据的基本信息：

Text Summary：聚类OTU多少，大于2 counts的OTU是多少；样本数，样本分组最大最小平均OTU counts数；

Graphic Summary：直观的展示了以上信息。右侧边提供图的PDF和SVG格式下载。后面所有的分析右侧都会提供相应的原始数据表格和不同格式图形的下载。
点击右下角Proceed继续。

图7. Text Summary上传数据总览

图8. Graphic Summary样本数据量分布

数据过滤

Data Filtering

Feature Editor可以对低counts的数据进行过滤，一般认为低counts是测序错误或嵌合体。参数默认即可，有经验者可自行调整。

图9. OTU过滤参数

Sample Editor 可以简便的对分组进行重新调整。在这里可以简单的先不想查看的分组调整至右侧：选中分组名称（支持按住ctrl多选）点击→可以将其暂时移出分析。在多次重复分析和剔除相关样本时非常容易。

图10. 样本选择

submit完成后右上角会弹出提示信息和过滤结果。

数据标准化

Data Normalization

此处可以选择是否抽平和抽平策略：

图12. 数据标准化方法选择页面

Data rarefying：选择是否抽平序列至最小样本量。

Data scaling：选择数据标准化方法，有不标准化、TSS、CSS、UQ可选，常用TSS或CSS。

Data transformation：选择数据是否进行数据变换（标准化）。
一般选默认即可。submit, proceed。

分析主界面

现在可以看到分析方法的全貌的树状图：中间分为6大部分，右侧每一个模块包含了一种具体的分析，直接从右侧每个模块点下去就可以看到此次实验分组的所有分析结果展示和统计了。

Choose an analysis method to proceed
6大部分每一部分有对应的主流分析和展示方法：

Visual exploration：可视化，主要是样本相对丰度柱状图或饼形图展示。
Community profiling：样本整体分析，包括α、β和核心微生物分析
Clustering analysis：聚类分析，主要是不同分类水平的热图、树图分析
Differential abundance analysis：差异比较，利用不同的分析方法筛选差异OTU和其它分类级
Biomarker analysis：生物标记物挖掘，有LEfse和随机森林可选
Functional potentials：功能预测，如果上传相应的注释信息，可以进行PICRSUt和Tax4Fun预测分析

可视化

Visual exploration：可视化，主要是样本相对丰度展示。

点击第一个框：

堆叠柱状图

弹出交互界面，只需要简单的点击勾选，就能完成所有操作。

图15. 物种组成堆叠柱状图

展示可以选择不同分类级别taxonomic level；可以选择面积图或堆积柱状图；可以选择4种颜色配置方案color scheme；可以选择展示哪些样本/分组/单独样本View type；最后可以选择合并低counts的注释结果。

图16. 物种组成参数选择

修改完参数，再次点击Submit，可更新图片结果。

图形会直接展示在下方，右侧有选项可有导出丰度原始表格，导出已生成图片的pdf/svg格式。

之后的所有分析展示操作和这个模块一样：选择修改相应参数→submit更新→查看并保存结果。直观，方便。

交互饼形图

交互式的饼图。可以选择展示不同样本的丰度情况，还可以点击左边饼图中的不同区域（例：门水平的Proteobacteria 34%），然后在右侧再展示其他分类级别的下（例：Proteobacteria门中的纲水平菌注释丰度情况）此区域的下级分类比例。经测试有一定的bug，可能无法进行切换或切换不同的分类水平后仍展示的是门水平的结果。

图18. 饼形图展示门，及具体门内纲的组成

Alpha多样性

Alpha多样性和显著性检验。可选择不同的level和显著性检验算法。

Beta多样性

beta多样性分析，同样可以选择多种分类法PCoA/NMDS；距离算法bray-curtis/Unifrac（weighted和unweighted）；和统计方法PERMANOVA/ANOSIM等，可以分组加标签或者分别展示。点击标签还可以呈现3D plot

核心微生物组

核心微生物分析。可以看到组间主要的核心微生物。也有众多参数可选。

热图聚类

热图展示分析。可以按照之前的实验设计文件生成不同分组不同图例的热图。

聚类树图

聚类建树。同样提供了包括利用bray-curtis距离等在的聚类方法。

模式搜索

模式分析。以前面相关分析为基础，以某一物种（比如自身实验关注的物种）为参考，分析与其他物种的关系，点击每个物种的details还能看到分组之间的显著性差异子图（两两比较）

单变量分

单变量分析。可以选择不同的统计学方法来比较组间差异性，秩和检验就没有显著性，而ANOVA当p值定为0.01时仍有6个门具有显著性。

metagenomeSeq

metagenomeSeq:一种算法，用在疾病领域丰度较低的情况，查看？就能看到具体的信息；可以按照自身样本特性尝试分析。也是一种组间差异分析方法。

RNAseq方法

RNAseq分析：包括了EdgeR和DESeq2算法.用来检验组间的不同分类水平的差异。

LEfse分析

LEfse分析，除了分析得到的显著性最大的OTU或注释，会得到前25位的显著性差异的统计表。默认LDA大于1为有显著性，可以自己调整相关参数。

随机森林

随机森林分析，样本量较大（15个）的情况下使用，样本量少随机穷举的时候会显示不出差异。工具还可显示对模型的贡献程度（此处6个样本只是对功能进行了简单展示，具体的算法和生物学意义大家还是要明确，不能生搬硬套）。

功能预测

功能预测：PICRUSt需要greengenes数据库注释的结果才可以分析；Tax4Fun需要SILVA数据库注释的结果才能使用。

结果导出

重要的部分来了：
分析过程中，好多数据好多展示图片还要一个一个下载很麻烦？注意右下角的Downloads图标：

点进去后，刚刚做的所有分析在这里均有记录，可以一个一个下载，或者download.zip下载全部数据。最神奇的是点击Generate Report，直接可以生成完整分析报告！英文版！包括了刚才展示的主要结果、分析流程、统计方法，还有相关引文。是不是很多语句直接可以用在文章中了？分析报告在Analysis Report中直接查看。

总结

MicrobiomeAnalyst是一款方便易用的微生物组学数据网下游页分析展示工具，无需注册，没有门槛，完全开放。只需要鼠标点击就可以完全掌握。具有多种分析方法和展示形式，同时具有一键下载全部分析结果和生成分析报告的功能，就是一个免费的云平台，笔者使用后的体会可能比许多公司开发的云平台还要好用。
缺点：有时会有报错；不能注册登录所以无法保存结果，需要用户一口气分析完马上下载到本地才能保存，对大数据、复杂分组的分析可能无法保证连续工作，但为小数据量的主要分析提供了一个无门槛的简便平台。
瑕不掩瑜，这款工具可以说是微生物组科研工作者的福音，基本可以替代大部分需要代码完成的工作；同时生成分析报告，可以同行交流或者撰写文章使用；需要再深度挖掘时此工具也可以作为前期数据的准备。强烈推荐。
网页工具除此之外还包含了其他三大模块：SDP Shotgun Data Profiling (SDP）功能基因分析和KEGG、COG代谢通路展示；Projection with Public Data (PPD)通过SILVA或greengenes数据库注释的16S序列和全球不同的公共数据库（数据来自Qiita
database (http://qiita.)）进行比较；`Taxon Set Enrichment Analysis (TSEA)`手动整理的与人类疾病相关的微生物的检索等工具，大家可以自行探索使用。