微生物组分析师:统计、可视和元分析微生物组数据的网页工具MicrobiomeAnalyst — comprehensive statistical, visual and meta-analysis of microbiome data 第一作者:Achal Dhariwal 通讯作者:夏建国 Jianguo Xia 主要单位:加拿大魁北克,麦吉尔大学,动物科学系,寄生虫研究所,微生物与免疫系,微生物组与疾病耐受中心 能挂三个及三个以上单位的都是大佬 文章从投稿,到接受,只用了一个月。 其它作者:Jasmine Chong2, Salam Habib3, Irah L. King4,5, Luis B. Agellon3 and 关于此网页工具的使用,请阅读 本文旨在对原文解读,帮助大家理解平台的优缺点,同时学习自己搭建分析平台应该注意的地方,对下一阶段分析平台开发展望的提出建设性意见。 宏基因组相关分析工具: 同时本文也是一篇微生物组入门分析的超好综述,不同层次人群会有不同收获,推荐同行必读。 导读微生物组研究重点从上游标准化定量和组装,转移至下游数据个体化的挖掘和比较阶段,但相关工具甚少; 微生物组分析师(MicrobiomeAnalyst)是一款用户界面友好,整合了最新统计和可视化方法的免费分析云平台; 可提供扩增子、宏基因组和宏转录组丰度矩阵对应的下游数据分析、功能组成和代谢网络可视化; 例如基于OTU表、物种注释和分组信息,可实现Alpha、Beta多样性、物种组成、组间差异比较、机器学习等20余种常用分析和绘图; 同时结合文献挖掘和公共数据建立了物种富含分析方法; 可一键下载分析报告,助力生物学家轻松开展宏组学数据挖掘和探索。 本文全文推荐阅读,不仅是整体微生物组分析方法系统的比较和总结,也是对文章写方法部分最好的参考资料。 摘要广泛的新一代测序技术,在揭示微生物群体和基因组成上的巨大优势,带来了微生物组研究的革命。如何去分析庞大复杂的数据集,对当前微生物组研究充满挑战。过去的十几年里,强大的计算流程,和稳健的工具已经可以有效的处理原始序列和注释。目前重点已经转换至下游统计分析和功能解析。 因此,我们开发了微生物组分析师(MicrobiomeAnalyst),一款用户界面友好的工具,整合了最进的统计和可视化技术,并结合广泛的分析微生物组的输出数据。它包括四个模块:Marker Data Profiling模块可以完成各种群体组成分析,基于16S的比较分析和功能预测;Shotgun Data Profiling模块支持宏基因组、宏转录组数据探索数据分析、功能组成和代谢网络可视化;Taxon Set Enrichment Analysis模块通过文献和公共数据中物种集,来分析富集物种;Projection with Public Data允许用户可视化探索公共数据库,去发现生物学特征。 网址:http://www. 背景本领域目前三个最常用的测序策略,即扩增子(如16S)分析标记基因获得物种组成、宏基因组研究功能潜能和宏转录组鉴定活性表达基因;这些研究产生大数据结果,对下游分析具有挑战性。 早期的分析关注原始数据处理,聚类和注释,开发了很多强大的工具,如MEGAN, MG-RAST, mothur and QIIME(1–4)。这些软件可产生BIOM格式的特征(包括OTU、物种分类和基因)在各样品丰度信息,注释和元数据(如分组信息)。最近开发的BIOM格式开发存储这些类型的信息,帮助现有生信工具分析和进一步元分析(5)。对大多数研究人员,数据分析的主要挑战是在不同实验因子或研究条件下,丰度表或BIOM文件在上下文中有合理的意义。 微生物组数据分析分为四大类:1. 物种组成taxonomic profiling - 群体组成特征,基于生态的方法有Alpha多样性(样本内多样性),Beta多样性(样本间多样性);2. 功能组成functional profiling - 分配基因为不同的功能组(如代谢通路或生物过程),以理解功能潜能;3. 比较分析comparative analysis - 鉴定不同条件间差异特征;4. 元分析 - 整合现有数据与公共数据,或积累的知识,改进统计功效或生物学理解。前两类目前很成熟,后两类仍充满挑战,成为研究努力的主要方向。 微生物组数据呈现几大挑战:松散,包括许多零;样品间测序深度差异大;分布变异较大,离散。这些特征使组学中其它分析方法不太适合微生物组数据。因此,无参的置换类方法经常用于微生物组数据中显著特征的鉴定。尽管此类方法稳健,但缺少统计功效,不支持添加混杂因子等复杂实验。处理不均匀的测序深度,主要两种方法:重新标准化序列为一个恒量,即比例proportions;或重采样各样本为相等数量,即抽样rarefying。前者会出现组成型数据的问题,而后者会损失一些重要的信息。一般来说,最好的方法是开发适合松散数据结构和不同测序深度的统计模型,或者开发合适的数据转换方法,使现用数据适合其它算法的数据分布模型。近年来在这些方面有一些重大进展。例如,metagenomeSeq算法整合了累计求合标准化(cumulative-sum scaling, CSS)方法,统计模型为高斯零膨胀(zeroinflated 近期的主要方法都采用R包发布。phyloseq是一个平台,方便用户探索微生物组数据不同统计方法。尽管R语言灵活、易学且强大,但对于临床医生、湿实验人员还是有一定的门槛。这就急需更方便的工具给大家使用。而且随着研究结果和知识的积累,可以开展不仅局限于单个项目的元分析;如将新样本置于公共数据中、对现在队列增加样本提高统计功效、与己知研究比较差异。 微生物组分析师,基于网页开发的程序,允许临床和科学家轻松进行数据分析,包括如下特征:
网站也包括大量的文档,教程帮助研究人员学习差异分析 。网址:http://www. 项目描述和方法包括四个模块:扩增子分析MDP、宏基因组分析SDP、物种富集分析TSEA和公开项目数据PPD。建议用户按教程,使用测试数据熟悉分析流程,再使用自己的数据开展分析。 图1. 平台流程图MicrobiomeAnalyst支持物种和基因列表,OTU或基因丰度表,或BIOM文件。三个连续的过程:数据处理、数据分析和结果探索。相关网页提供丰富的选项,产生各种表格和图形,允许用户自发的探索数据分析。 数据上传和处理输入数据MDP和PPD分析16S扩增子。用户需要提供OTU表、样本分组信息,采用制表符或分号分隔。也接受BIOM格式。SDP模块需要提供KEGG、EC或COG的ID。 数据过滤基于技术、统计和生物学的考虑,默认全零和只出现1次的将会剔除(个人建议差异比较时总量小于个位数的都可以去除)。特殊情况下,特征在一些样本中低频次出现不能确定是否为测序错误,统计上也很难解释它们的重要性。最小的干净数据保存用于alpha多样性分析,用于理解单个样本的多样性。对于其它的分析,进一步的过滤是必须的。默认的特征进一步按丰度水平、样本中出现频率进行过滤。用户也可以按均值、或中位数进一步过滤OTU(建议更可结合实验设计按组筛选OTU的丰度均值和中位数筛选)。如果主要的目地是差异分析,变异IQR、标准变异、或变异系数较低的特征可以排除在分析之外。这些特征在比较分析时不太可能显著。过滤这些无信息的特征,可以有效缓解数据松散的问题,在下游分析中减少多重检验,提高统计功效。 数据标准化数据过滤后,数据标准化可以使比较更有意义。本系统提供多种标准化方法,标准化、转换和抽样,由phyloseq实现。标准化的数据进行beta多样性和聚类分析。LEfSe分析对标准化方法没有要求。其它比较分析对自己的标准化分析方法有特殊要求。如metagenome-Seq要求CSS标准化,edgeR要求M值的修剪均值(trimmed mean of M-values, TMM),当然也允许用户进行重采样至相同数据量(rarefying,抽平)。最近的研究表明,如果样本大小差异较大,如10倍,抽平是必要的。抽平曲线分析允许用户可视化观察测试深度与OTU数据的关系。 群体组成物种组成多样性群体组成主要采用R的phyloseq和vegan包。分析可以在不同分类级进行。alpha多样性功能目前支持6种多样性指数。样本的结果可用箱线图展示(图2A)。组间的统计显著性,用户可选有参、无参方法计算。用户也可以采用堆叠面积图或堆叠柱状图展示不同分类级别。Beta多样性支持5种常用距离。结果可采用2D或3D方式展示PCoA或NMDS结果,并默认采用PERMANOVA统计。为辅助鉴定生物学意义,可按元数据metadata分组或样本属性、alpha指数和特征的丰度着色。此方法可以观察到分组、梯度变化等样式。 预测代谢潜能和组成基于16S与己知基因组微生物的进化距离和序列相似来估计代谢潜能。PICRUSt采用Greengenes注释数据,Tax4Fun采用SILVA数据库注释数据。结果包括KO相对丰度。来自16S预测、宏基因组或宏转录组的KO(通路、模块和EC分类)或COG组成可用于功能分析。一个KO或COG可能归为多个功能组,本软件提供多种方式处理些问题,如简单加和、标准化加和,或权重加和。结果可用堆叠柱状图展示,并结合不同条件。对应的丰度表可下载。 比较分析差异丰度分析本部分方便用户鉴定差异丰度的特征。标记基因可根据其分类学分析高级别的分类。高级分类合并可以降低数据松散,但也会将很多OTU归类为末分类,影响生物学解释。本系统支持有参、无参分析,如metagenomeSeq, edgeR和DESeq2。结果为一个数值表,可查看细节的箱线图。不同统计方法的P值差别很大,建议多看几种方法和可视化特征观察数据分布。默认系统显示最多500个差异最显著(P值越小)的特征。显示差异的行自动橙色高亮。方便关注重点,防止丢失重要信息。宏基因组数据,显著的KO也被映射至代谢网络,可用于富集分析和可视化。 生物标记鉴定和分类此部分提供了两种成熟的分析方法LEfSe和随机森林。LEfSe是专门针对微生物 组数据开发的,用于鉴定稳定的生物学相关的标志物。随机森林是一种无参的机器学习算法,在微生物组数据分析和分类中表现良好。LEfSe采用KW秩和检验检测不同组间丰度显著差异的特征,然后采用线性分歧分析估计这些显著差异的效应量。用户可以使用结合显著性P和效应量的组合值来筛选显著的特征。随机森林算法采用组合的分类树,基于主要的投票结果进行分类和预测。当建立起了森林,可以用分类错误率进行无偏的估计。此外,算法也可以基于置换检验来获得每个特征在分类上的重要性(错误率的增长)。网站可以产生图形结果来展示不同数量下分类表现。 其它特征本平台提供其它的方法可视化差异比较和聚类分析。用户可以用堆叠柱状图,或面积图展示各组各级别的丰度。交互的饼形图,可以展示物种组成,并选择组。用户可以选择感兴趣的分类,并进一步探索其更低级的分类。也当然支持层级聚类和热图。图2F、G展示样本聚类和热图。所有的图片输出,可以下载PDF或SVG文件用于发表。 图2. MicrobiomeAnalyst输出结果展示A. 箱线图展示不同组间的香农指数;B. 堆叠柱状图展示门水平物种;C. PCoA图展示样本颜色;D. 按科Bacteroidaceae水平丰度着色;E. 随机森林分类结果展示;F. 树状图展示样本聚类,样本名按饮食和性别着色;G. 物种丰度的聚类热图;H. TSEA交互网络;I. 3D PCoA图;J. 全局代谢网络可视化功能富集结果 物种集富集分析(TSEA)物种数据收集采用文本挖掘和人工校正的方法,在发表文章和数据集进行整理。来自GOLD基因组数据库和PATRIC的150株,主要按表型进行组织。在60篇文献中整理了174个物种,按宿主的生理、疾病状态和生活样式分类。最终从MicroPattern网站获得40个更高级别的物种分类。这些物种集进行手动注释,以改进名称的可读性,并链接至原始的数据库和发表文献。 富集分析和解析分析的目标是发现特异的物种在己发表结果数据中是否显著富集。差异分析在聚类中也显示为同样的结果。富集分析采用超几何检验。结果采用交互网络呈现(图2H),并提供相关详细结果。高级别的富集网络提供全局查看物种重要性和关系的可能。每个结点用P值着色,大小为可比对的结果数量。连接为大于20%的信息支持。用户可随意修改点的布局。双击结点显示成员,并用红色高亮。 表1. 比较微生物组分析网站
共公数据计划PPD此模块允许用户整合公共数据来可视化自己的数据。这种比较可以增加不同的发育阶段或群体数量以进一步挖掘信息。公共数据集来自QIITA的人、小鼠和牛数据。样本的测序平台、引物区域和相关文章方便读者选择合适的数据。为方便获得有意义的比较,软件要求用户和公共数据间至少20%共有OTU才可以进行比较。 结果采用3D PCoA可视化,结果颜色同实验因素,结点形状代表不同数据集。用户可以旋转、缩放和点击查看样本的物种组成。查看历史显示在右边。比较不同结点的组成,用户可以很容易的鉴定核心物种。不像Alpha和Beta多样性只受高丰度各样本间共有物种影响。由最近的大规模测试表明,标准化对聚类结果影响不大。因此该方法应用于计算PCoA中高丰度的20%以便节约时间。用户可以选择探索完整的数据集。 代谢网络可视化宏基因组数据可以进行富集分析和可视化代谢网络。此框架开发基于KEGG数据库的KEGGscape,并结合人工修正。截图见图2J。主要包括三部分:中心网络可视化区域,顶部工具栏和右侧通路表。网络显示在中心区域,结点和边代表代谢物和酶反应。在一些地方,反应被使用多次用于减少簇。一个KO编码的酶可能被分配至多个边。双击边会显示KO信息。鼠标滚轮可以缩放网络。顶部工具换背景色、样本、高亮、图片下载等。左侧显示的通路模块按P值排序。单击可以高亮选择KO,线的粗细代表其丰度水平。 使用实例为了更好演示本软件的有效性,我们使用此平台分析一套小鼠肠道数据。分为低脂(LFD)和高脂(WSD)饮食组。10周后收集粪便和盲肠内容物,DNA 16S测序。原始数据处理使用MG-RAST,获得BIOM结果上传至MDP模块分析。首先比较粪便和盲肠内容物。盲肠比粪便有更高的多样性(图2A);结果高脂饮食多样性明显减少。使用粪便分析显示,高脂饮食的拟杆菌门下降,厚壁菌和变形菌门上升(图2B)。此外,PCoA图显示两类饮食群落结构显著不同(图2C/D, P < 0.01),其中拟杆菌的丰度变化与饮食分开显著相关。随机森林也可以较好分开两类饮食(图2E)。从聚类角度观察性别影响,发现饮食是主要差异(图2F)。当比较高脂对低脂饮食时,性别中也有特异丰富的类群(图2G)。在不同级别和OTU进行edgeR / DESeq2差异丰度分析。结果表明两种方法一致性较好。 设计与实施MicrobiomeAnalyst基于Java、R和JavaScript。R包phyloseq用于数据格式化、统计分析和可视化,和进一步优化计算效率和可视化效果。Java服务器界面(JSF)搭建的高性能网页框架。系统布置于Google云服务器,32G内存,8核2.6G CPU。可处理100个用户的日常分析。对主流浏览器均支持。 与其它工具的比较现有许多杰出的网页分析工具(见表末)。一些工具是开发为了原始数据处理、注释和存储,只对高级统计和可视化非常有限的支持。本工具是对数据存储和分析工具的补充,重点是统计和可视化丰度表或BIOM格式输出结果。STAMP和Shiny-phyloseq是本地图形界面分析的两种选择。在表1中列出了与现有网页工具的比较,本平台提供了独特的统计和可视化、代谢网络可视化与分析、物种富集分析和整合分析。 局限性和未来的发展方向MDP和SDP模块分析人类和环境微生物组数据。TSEA和PPD模块开发基于人和小鼠的研究,不适合环境样本分析。本系统不支持相关,或关联分析;本领域相关分析不同方法结果差异较大,可能误导经验不足的用户。大多数些类方法需要大样本量,需要计算资源密集,并不适合实时交互网页分析。当前为元分析提供公共数据和富集分析功能。我们将来提供可多可能的元分析。 结论作为生物医学研究前沿,当前的数据分析主要研究自然样本。尽管近年来开发了很多统计算法,但研究表明没有一种方法是通用的。因此在微生物组研究中探索数据在实时交互的平台上使用多种算法是必须的,帮助我们理解数据和产生假设。它实现了多样性分析、比较分析、代谢网络可视化探索。提供了新颖的与公共数据比较功能。是对当前微生物研究填补了空白。微生物组数据是复杂和动态的,末来将结合宿主及多组学从整体上进一步认识规律。本平台将来的趋势是关注主流趋势,如整合代谢组数据和系统生物学。 还可进一步开发的功能
Reference
|
|