分享

技术贴 | 微生太宏基因组报告解读(开篇)

 微生态 2021-04-13

本文由阿童木根据实践经验而整理,希望对大家有帮助。

原创微文,欢迎转发转载。

导读
宏基因组由来:

微生物世界是分子多样性最大的天然资源库,基于菌株水平的传统分离培养技术为人们认识微生物多样性提供了可能,但是据估计自然界中超过99%的微生物不能通过传统的分离培养技术获得其纯培养,从而导致环境微生物中的多样性基因资源难以被发现。许多重要的微生物我们还不能识别,随着微生物活性产物的广泛研究和深入开发利用,从环境微生物中筛选到新活性物质的几率将逐步下降。而如何开拓利用环境微生物新资源是微生物研究的重要课题。为此研究者们开发了多种以特定环境微生物为研究对象的高通量测序方法——宏基因组

宏基因组概念

宏基因组学(Metagenomics),是一种直接对微生物群体中包含的全部基因组信息进行研究的手段。宏基因组学绕过对微生物个体进行分离培养,应用基因组学技术对自然环境中的微生物群落进行研究的一门学科。它规避了对样品中的微生物进行分离培养,提供了一种对不可分离培养的微生物进行研究的途径,更真实的反应样本中微生物组成、互作情况,同时在分子水平对其代谢通路、基因功能进行研究。

近年来,随着测序技术和信息技术的快速发展,利用新一代测序技术(Next Generation Sequencing)研究 Metagenomics,能快速准确的得到大量微生物基因数据和丰富的微生物研究信息,从而成为研究微生物多样性和群落特征的重要手段。细菌基因组相对较小,通常仅有一条环状DNA和质粒,通过高通量测序,可以了解其全部遗传信息。这也已经成为微生物研究的重要手段之一,为细菌的遗传进化、疾病预防与治疗、疫苗与抗生素的开发等提供重要的信息。

致力于研究微生物与人类疾病健康关系的人体微生物组计划(HMP, Human Microbiome Project, http://www./ ),研究全球微生物组成和分布的全球微生物组计划(EMP, Earth Microbiome Project, http://www./ )都主要利用高通量测序技术进行研究。HMP,iHMP,EMP,MetaHIT等这些国际知名的,集中了大量人力、物力、财力的微生物组计划已经为宏基因组研究打开了大门,铺好了道路,为以后的宏基因组研究提供了理论、知识和经验。下面简单介绍一下开展宏基因组研究项目的思路:从样本收集到文章攥写,需要完成哪些事情。

宏基因组项目思路


首先是样本收集。样本来源可以是人体的胃肠道、口腔、皮肤、生殖道等,也可以是动植物或土壤、水体等外界环境。收集样本的同时详细、准确记录样本的样本信息/观测值/表型/临床指标(收样前准备一份用于记录样本信息的表格,避免信息收集不全)。样本信息是否可靠、准确直接关乎到后期的统计分析是否有意义。接着,抽提标本中的DNA(DNA提取),将DNA打断后分选出需要的长度,将不同样本的DNA贴上标签(文库构建),一边PCR一边根据信号记录DNA碱基的排队(测序),这样就可以得到一堆AGCT碱基序列信息。然后,需要解读这些序列中包含哪些生物信息。可以用生物信息学软件在“已知”物种数据库查询测序得到的“未知”序列的信息,包括界门纲目科属种的物种分类信息和基因、通路等功能信息。
利用这三大信息(样本信息、物种分类信息、功能信息)就可以做多种多样的统计分析了。可以通过组间比较寻找组间差异物种或基因或通路,可以通过相关性分析观察表型与微生物型之间的变化规律,也可以利用微生物组的信息构建表型预测模型等等。如果有微生物、动物等实验平台还可以开展一些机制验证和机制探索的相关工作。最后就是数据整理和文章攥写了。样本收集之后,最关键的就是利用生物信息学的手段解读样本中的信息,和利用统计学分析探索我们“感兴趣的观察”里的生物学机制。微生太已经搭建了一套功能完备的宏基因组生信分析和统计分析流程,下面简介该流程。

宏基因组分析流程

(1)数据质控:

测序得到的原始数据会存在一定比例的低质量数据,为了保证后续信息分析结果的准确可靠,首先要对原始数据进行质控及宿主过滤,得到有效数据。分析中将使用Cutadapt彻底清除原始数据中的Illumina接头序列,再用PrinSEQ去除低质量的序列片段和个别序列。质控前和质控后,会用FastQC来检测质控的合理性和效果。

(2) 去除宿主:

质控处理后的数据通过bowtie2比对到宿主的基因组,没有比对到的序列被保留下来做后续分析。

(3)物种注释:

使用Kraken2和自建的微生物数据库(从Kraken官网下载各个微生物数据库(细菌,真菌,古菌,病毒),合并后再加入哥伦比亚大学实验室研究中新发现的一些细菌基因组数据)来鉴别样本中所含有的物种,再用Bracken来对样本中物种的实际相对丰度进行预测。相较于基于组装的物种注释,基于序列的宏基因组物种注释方法更加全面和准确。

(4)常用功能数据库注释:

从质控以及去除宿主基因的reads出发,使用HUMAnN2软件(基于DIAMOND),将各个样本的reads比对到数据库(UniRef90),根据UniRef90 ID 和各个数据库的对应关系,得到各个功能数据库的注释信息和相对丰度表。

(5)抗性基因注释:

从去除宿主基因的clean reads出发,使用FMAP软件将各个样本的质控以及去除宿主基因的reads与抗生素抗性基因数据库CARD进行比对注释,可以获得抗性基因丰度分布情况。

(6)初级统计分析:

基于物种丰度表和功能丰度表,可以进行丰度聚类分析,PCoA和NMDS降维分析(仅物种),样品聚类分析;当有分组信息时,可以进行LEfSe biomarker挖掘分析以及代谢通路比较分析,挖掘样品之间的物种组成和功能组成差异。

(7)高级统计分析:

另外,还可以基于标准分析结果,进行一系列高级信息分析(如 肠型分析,分箱分析,病原与宿主互作数据库(PHI)注释,分泌蛋白预测,III型分泌系统效应蛋白预测,细菌致病菌毒力因子(VFDB)注释,转移元件分析(MGE)等,更多详细信息请查看微生太宏基因组高级信息分析说明);同时,结合环境因子、病理指标或特殊表型进行深入关联研究,能够为进一步深入研究和利用样品的物种和功能提供理论依据。

以上是宏基因组由来、概念、宏基因组项目思路的简介,以及微生太宏基因组分析的整体概括。以后会继续推出微生太宏基因组样本收集、物种注释、基因注释、功能注释、统计分析、文章写作等系列内容。




你可能还喜欢

1 初学者如何深入解读16S rDNA扩增子测序数据,从而选择自己的分析步骤

技术贴 | 16S专题 |基于QIIME2 dada2插件的16S扩增子测序数据的分析流程详解(上)

技术贴 | 16S专题 | 基于QIIME2 dada2插件的16S扩增子测序数据的分析流程详解(中)

技术贴 | 16S专题 | 简单介绍如何用自己的笔记本处理高通量16S数据

16S测序全新分析流程QIIME2的介绍

7 技术贴 | 宏转录组专题 | DDBJ数据库:宏转录组测序数据下载


    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多