宏基因组基础知识梳理

萌小芊 2017-11-08

展开全文

本文转载自“印迹生物”，己获授权。

微生物是地球上已知种类最多、数量最大、分布最广的生物类群。但是，自然环境中超过99%的微生物不能用传统的方法进行纯培养(大家都説的不一定是真的，我认为大部分可纯培养，只是被这句话误导，敢从事分离培养的人太少)，因此不能对它们开展依赖于纯培养的生物技术或基础方面的研究。为了克服传统纯培养技术的不足，研究者们发展了宏基因组学的研究方法，为研究和开发新的微生物活性物质提供有力支持。目前，宏基因组学研究已扩展至各种针对直接来自环境DNA的研究，例如土壤，海洋，动物肠道，甚至一些极端环境，包括冰川，火山口等。而大家更为关注的是人体内或体表的微生物，包括肠道，皮肤等，因为这些微生物往往与疾病密切相关。本期推文为大家分享的是宏基因组的基础知识。

什么是宏基因组

宏基因组 ( Metagenome)（也称微生物环境基因组Microbial Environmental Genome, 或元基因组）是由 Handelsman 等 1998 年提出的，其定义为“the genomes of the total microbiota found in nature” , 即环境中全部微小生物遗传物质的总和。它包含了可培养的和不可培养的微生物的基因，目前主要指环境样品中的细菌和真菌的基因组总和。

16S和宏基因组有什么不同

★ 测序原理不同

16S rDNA是细菌分类学研究中最常见的“分子钟”，具有高度的保守性。该序列包含9个高变区和10个保守区，通过对某一段高变区序列（如V4区或V3-V4区）进行PCR扩增后进行测序，得到 200 - 400 bp 左右的序列。

宏基因组测序和常规DNA文库一样，将微生物基因组DNA随机打断成小片段，然后在片段两端加入接头进行高通量测序。

★ 研究领域不同

16S测序主要研究群落的物种组成、物种间的进化关系以及群落的多样性。而宏基因组测序还可以进行基因和功能层面的深入研究。

★ 物种鉴定程度不同

16S测序得到的序列很多注释不到种水平，而宏基因组测序则能鉴定微生物到种水平甚至菌株水平。16S rDNA尽管高变区具有很高的特异性，但是某些物种（尤其是分类水平较低的种水平）在这些高变区可能非常相近，能够区分它们的特异性片段可能不在扩增区域内，导致无法进一步区分。而宏基因组测序通过对微生物基因组随机打断，并通过组装将小片段拼接成较长的序列。因此，在物种鉴定过程中，宏基因组测序具有较高的优势。

宏基因组的应用领域

★ 环境微生物多样性；

★ 基因挖掘；

★ 改造工程菌；

★ 疾病关联分析；

★ 药物开发。

宏基因组研究流程

这里值得注意的是：

★ 自然环境中（比如土壤，根系，植物等）和模式动物（比如大鼠，小鼠等）建议每组至少6个生物学重复，一般推荐10个生物学重复以上；

★ 若是人类肠道，粪便等样品，由于个体之间差别较大（比如环境，饮食，遗传条件，健康状态等影响），建议每组不少于30个生物学重复（样品数目少，可能会导致组内差异大于组间差异则项目无意义）。

★ 如果将多个样本混在一起建库测序，多个样本则变成了一个样本，这种情况不属于生物学重复。

宏基因组信息分析流程

宏基因组通常围绕着微生物多样性、种群结构、物种进化关系、基因功能活性、群落相互协作关系，以及与环境之间的关系展开分析。分析过程、数据库以及软件可参考下图：

Notes: The analysis pipeline can take two different routes depending on the type of sequencing data (marker gene or shotgun metagenomics) available. The flowchart outlines the basic steps in the analysis pipeline starting with preprocessing of the data to the final extraction of results and concurrent storage and management of the data. Some popular tools that have been used extensively by the metagenomics community are shown for every step, as a well as the databases and algorithms in common practice.

不同类型样品采集提取方法

★ 土壤DNA提取方法参考文献：

C.D. Clegg, K. Ritz and B.S. Griffiths.(1997). Direct extraction of microbial community DNA from humified upland soils. Letters in Applied Microbiology; 25, 30–33.

★ 淡水样品采集方法参考文献：

Cottrell, M. T., Waidner, L.A., Yu, L. & Kirchman, D. L. Bacterial diversity of metagenomic and PCR libraries from the Delaware River. Environmental Microbiology. 2005, 7, 1883-1895.

★ 海水样品采集方法参考文献：

Jorge Frias-Lopez, Yanmei Shi, et al. Microbial community gene expression in ocean surface waters.PNAS. 2008,105(10): 3805-3810.

★ 水体样品DNA提取方法参考文献：

M.T. Suzuki1, C.M. Preston, et al. Phylogenetic Screening of Ribosomal RNA Gene-Containing Clones in Bacterial Artificial Chromosome (BAC) Libraries from Different Depths in Monterey Bay. Microbial Ecology. 2004, 48: 473-488.

★ 粪便采集方法参考文献：

Kyle, G. Bowel Care Part 3 – Obtaining a Stool Sample. Nursing Times. 2007, 103: 44, 24-25.

★ 粪便DNA提取方法参考文献：

Furet, J. P. et al. Comparative assessment of human and farm animal faecal microbiota using real‐time quantitative PCR. FEMS microbiology ecology. 2009, 68, 351-362.

特殊的环境样品的全基因组测序，数据量怎么确定

★ 并不是数据量越多，分析效果越好。复杂环境样品，建议先做16S，根据16S物种组成及丰度信息，推荐meta数据量。而且结合16S和宏基因组可以更好确定关键物种和关键基因。

★ 如果直接做宏基因组测序，建议首先对每组1个典型样品做宏基因组的初步评估，数据量为9G，然后再根据调查结果（reads 利用率和Contig N50的长度）确定数据量。这样可以降低风险，减少顾虑。值得注意的是需保留同一批次的样品，若survey结果理想，可加测数据。

如果存在较大的宿主的污染，且没有宿主基因组的参考序列是否可以进行宏基因组测序？

不可以，如果宿主的基因组序列在环境DNA中的量比较多，测序之后是没有办法通过已知宿主基因组的序列来去污染，这样会对分析结果造成很大影响，而且可用的数据量会很少。但是如果宿主基因组的污染的量很少，测序的数据分析还是可用的，不过会存在一定的风险。

如何进行物种注释和丰度统计？

可使用MEGAN软件进行物种注释。MEGAN根据一种名为LCA的算法，基于BLAST比对结果根据NCBI物种分类树进行重新梳理，从而得到每条序列的物种注释信息。将同一物种注释的基因丰度累加起来，即可得到该物种在样品中的物种丰度。

什么是Alpha多样性？

Alpha多样性（Alpha diversity）是指一个特定区域或生态系统内的多样性，通常用于度量群落生态中物种的丰富度，是反映物种丰富度(richness)和均匀度(evenness)的综合指标。alpha多样性常用的指数有四种：Observed species，Chao1，Shannon，Simpson，数值越高表明样品物种丰富度越高。

为什么组装的基因不完整？

宏基因组组装的效果主要跟以下几个因素有关：样本的测序数据量，物种的多样性，物种丰度分布不均匀等，这些因素都会造成宏基因组组装，比如细菌等单物种的组装更加困难，这也是目前宏基因组研究中有待突破的难点。

参考文献：

Huson DH, Auch AF, Qi J, et al. (2007). MEGAN analysis of metagenomic data. Genome Res. 2007 Mar;17(3):377-86.

Morgan XC, Huttenhower C. Chapter 12: Human Microbiome Analysis. Lewitter F, Kann M, eds. PLoS Computational Biology. 2012;8(12):e1002808. doi:10.1371/journal.pcbi.1002808.

Oulas A, Pavloudi C, Polymenakou P, et al. Metagenomics: Tools and Insights for Analyzing Next-Generation Sequencing Data Derived from Biodiversity Studies. Bioinformatics and Biology Insights. 2015;9:75-88. doi:10.4137/BBI.S12462.