Nature: 地球微生物组计划首发成果—揭示地球多尺度微生物多样性

萌小芊 2017-11-30

展开全文

Thompson LR, Sanders JG, McDonald D, Amir A, Ladau J,Locey KJ et al (2017). A communal catalogue reveals Earth’s multiscalemicrobial diversity. Nature.

本文今年11月1日在线发表，23日正式出版，翻译导读转载自'http://mp.weixin.qq.com/s/dAyP0dHxcAdcXaaKoak7Hghttp://mp.weixin.qq.com/s/dAyP0dHxcAdcXaaKoak7Hg'公众号，己获授权。

原文链接：https://www./articles/nature24621

全文PDF: https://www./articles/nature24621.pdf

翻译原文：http://mp.weixin.qq.com/s/dAyP0dHxcAdcXaaKoak7Hg

文章简介：

我们对微生物世界的重要性和多样性的认识日益增强，然而对它们的基本结构却认知有限。近年来，基因测序领域取得了一系列新进展。但由于缺乏标准化的分析方法，常用分析框架又存在诸多缺陷，使微生物组的研究受到了一定限制，进而制约了人们对环境微生物基本结构的认知与发展。本文作者对地球微生物组计划（EMP）中数百名研究人员收集的微生物群落样本进行了元分析。相应的说明及新的基于精确序列而非OTU聚类的分析方法，将增强多项研究中对于细菌和古菌的核糖体基因序列的分析，并将多样性的探索推向前所未有的规模。其结果为进一步深化微生物组研究作出了有益尝试：一是建立了环境微生物基因序列参考数据库，为深入研究未知环境的微生物组构成提供了数据基础和参考依据; 二是建立了微生物基因数据框架，为优化完善地球微生物多样性的描述模式做出了积极探索。

方法介绍：

1.样品收集

EMP向全球科学界征集环境样本和相关数据，跨越不同的环境，不同空间、时间和物理化学共变。来自97个独立研究的27751个样本代表了不同的环境类型(图a)、地理位置(图b)和化学反应。所有样品进行了DNA提取和测序，并对在整个数据库的细菌和古菌部分进行了分析。

图1. 环境类型和样品来源。
a. 地球微生物组计划本源(EMPO)分为三级；从低到高分别为微生物环境(level3)、动植物和土盐分(level2)、自由生物与宿主相关(level1)。共使用23828个高质量样品，详细方法见网址：http://www./protocolsand-standards/empo .
b. 全球范围的样品来源，来自7大洲的43个国家，21种生态群落，92种有特点的环境和17个环境。

2.DNA提取，PCR扩增，测序和序列预处理

1).DNA 提取使用 MO BIO PowerSoil DNA extraction kit试剂盒。

2).PCR扩增使用16SrRNA V4区域上的配对引物的515F-806R。

3).测序使用Illumina HiSeq或MiSeq测序平台。

4).测序所得数据使用QIIME 1.9.1 script split_libraries_fastq.py拆分序列并以默认参数进行质量控制随后生成FASTA序列文件。

3.序列标记、OTU筛选以及群落分析方法

考虑到与植物相关的样本以及无宿主影响的样本中，三分之一及以上的序列不能与现有的rRNA数据库匹配，该研究中使用了一种无需参考序列的方法，Deblur，来去除错误的序列并提供了单核酸精度上的sOTU（sub-OTU）,该文章中称为“标记序列”（tag sequence）。由于早期EMP计划中的测序长度为90bp，为了将不同时期的序列结果统一起来，进行比较，该研究将所有的序列都切除到了90bp，相应的结果也辅助说明了90bp，100bp和150bp等不同长度不影响研究结果。在与参考数据库（Greengenes 13.8 和Silva 128）的全长序列进行比对时，使用VSEARCH工具来全局比对，并要求100%相似性。

对于90bp的Deblur结果，每个样本均随机抽取了5000个观测到的序列进行分析微生物群落的alpha多样性（observed_otus, shannon, chao1, faith_pd）和beta多样性（基于UniFrac距离矩阵，进行PCoA分析）。

16S rRNA基因拷贝数的计算：基于PICRUSt 1.1.0的命令行脚本“normalize_by_copy_number.py”，将每一个OTU的丰度除以相应推测出的16S rRNA基因的拷贝数。

随机森林的方法对样本进行分类分析：针对Deblur 90 bp 结果中2000个样本，使用随机森林分类树的方法，将不同环境下的样本划分至相应的环境标签中。在方法中使用了R语言下的caret和randomForest包。

SourceTracker分析来确定tag sequence在多个环境样本中的分布程度。该分析利用Source Tracker 2.0.1来完成。在分析之前，每一个样本的序列总数均稀释至1000。

Deblur算法简介：

1). 将样本中序列进行统计个数并由大到少依次排列，依次记录reads ri，counts ci，i = 1，2，…Nreads，ci依次递减。以i =1为例，假设 c′1 为 r1 在初始样本中的真实个数，由于测序过程中的一些错误，c′1 <>，α是测序过程中出现错误的平均概率，为了得到的 r1 的真实个数，进行以下计算：c′1 =c1/(1-α)

2). 在增加c1之后，需要降低相应的其余序列的个数，因为在该算法中，假设r1测到的真实个数降低，是由于被误测成了其余序列。因此这里选用在不同Hamming距离（即mismatch，dik）下的错误率 β(dik) 来估计其余序列被测成r1的个数，以此来校正不同序列在测序过程中的真实个数。以 ck 为例，1 k< nreads,被误测成r1的序列的个数应该是：ck="">β(dik)]c′1

3). 重复上述过程，i = 1, 2,…Nreads，i <><>

备注：不同mismatch下的错误率是基于多个Miseq和Hiseq测序结果的收集起来的统计值。

4. 多样性分析

通过Greengenes数据库建树、UniFrac距离计算，用QIIME进行alpha-多样性（图a）分析，richness与纬度、pH和温度的相关性，beta-多样性（图c）的分析，以及16S rRNA基因平均拷贝数的计算（图d）。

图2. Alpha和Beta多样性，以及预测的16S rDNA拷贝数。
a. 群体内Alpha多样性观察长度为90-bp序列的丰富度，共有23828个生物为独立的样品。抽样至5000条序列，黄线为组均值，发现自由生活环境比宿主依赖的多样性高；
b. 不同pH值和温度下多样性变化，存在单峰分布的规律，即多样性先升高，再降低；
c. 按level2/3分组上色展示PC1对应PC2/3平面上样品间距离分布；
d. 不同群体中16S基因拷贝数在level2/3水平分布。

5.用更为精确的分类单元代替OTU聚类。

微生物生态不再需要OTU聚类，而是一个更为精确的分类单元。这样一来，序列的特异性更高，环境分类也可以更细，使我们能够在更精确的分辨率下观察和分析微生物分布模式。在该文章中，作者以shannon熵值为标准，分别对tag sequence和较高的物种分类在不同环境中的分布进行分析。可以看出，新方法中的标记序列对环境具有较高的特异性，分布偏向于一个或几个环境(低Shannon熵)；相比之下，更高的物种分类学水平往往更均匀地分布在不同的环境(高Shannon熵，低特异性)(图a)。不同物种分类级别上的所有标记序列的熵的分布也证实了这一观点(图b) 。为了精确衡量每个分类单元对环境的差异，作者也探究了熵随着生态系统距离的变化而变化的模式(图c)。