分享

技术贴 | 宏转录组专题 | 盘点宏转录组分析方法

 微生态 2021-04-13

本文由阿童木根据实践经验而整理,希望对大家有帮助。

原创微文,欢迎转发转载。

导读
宏转录组
宏转录组测序是对某一特定时期、特定环境样品中的全部微生物的RNA进行高通量测序,直接获得该环境中所有微生物转录组信息的一种测序技术的新应用。宏转录组中不仅包含有微生物的物种信息,还有微生物的基因表达信息。如果说宏基因组能告诉我们微生物群能做什么,那么宏转录组则能告诉我们这些微生物想做什么,这有助于挖掘微生物功能基因和探索微生物与环境、疾病、动植物等关系的机制。

宏转录组分析
从以G为单位的高通量测序数据中获取研究所需的微生物种类、基因、通路等信息是进行宏转录组研究必须经历的一步。现在网络上分析组学数据的工具五花八门。能否从众多组学工具中选择出适合分析宏转录组数据的软件,能否搭建一套完整、快速、高效、灵敏、高精确的宏转录组分析pipline,直接关乎到后期数据分析的进行。
2018年发表在Briefings in BioinformaticsPMID: 28481971)上的一篇综述介绍的四款宏转录组分析piplineLeimena-2013HUMAnN2MetaTransSAMSA。下面介绍一下这四款pipline中所采用的核心算法/工具、数据库和核心步骤。

Leimena-2013 

文章:

A comprehensive metatranscriptome analysis pipeline and its validation using human small intestine microbiota datasets. BMC Genomics. 2013

核心算法/工具:

1) SortMeRNA:去除16S23S18S28S rRNAs序列的常用工具。

2) BLASTN:用于核酸序列比对的一个模块速度慢于 MegaBlast但是功能更强。

3) MegaBLAST经典比对软件BlAST的子模块,速度快,能找出相似度比较高的序列,一般用于同一物种内部或者分歧不太远的物种之间。

4) KAASKEGG自动注释服务器。链接:http://www./tools/kaas/ 

数据库:

1) SILVA:细菌、古菌、真菌等微生物分类数据库,包含maker序列和注释信息。

2) COGCluster of Orthologous Groups of Proteins,蛋白相邻类的聚簇数据库。

3) MetaHIT:人类肠道宏基因组数据库 [Nature 2010]

4) 人类小肠宏基因组数据库 [ISME J 2012]

5) KEGG:京都基因与基因组百科全书,包含生物代谢、通路等功能信息的数据库。

核心步骤:

1) SortMeRNA和默认的rRNA数据库去除16S23S18S28SrRNAs序列

2) BLASTNSILVANCBI数据库去除剩下序列中的细菌、古菌、真核生物的tRNA/rRNA序列

3) 去除Illumina Phix control序列和adaptor序列。

4) MegaBLAST BLASTN进行mRNANCBI数据库(含3979个细菌和古细菌的全基因组或基因组草图)的比对确定mRNA序列的物种发生起源(科/属水平)。

5) 将至少50%比对到基因ORF的序列定义为“基因/编码序列”,少于50%的序列定义为“非编码/基因间序列”,然后用BLAST KEGG自动注释服务器KAASCOG数据库、KEGG数据库进行编码序列的功能注释和代谢分析。

6) 调整BLASTN的参数,用NCBI蛋白数据库、MetaHIT蛋白序列数据库、人类小肠宏基因组数据库、KEGGCOG进一步挖掘4)中“Unassigned mRNA序列”的功能。

HUMAnN2

文章:

Species-level functional profiling of metagenomes and metatranscriptomes.  Nat Methods 2018

HUMAnN2介绍:http://huttenhower.sph./humann2 

HUMAnN2使:https:///biobakery/hmp2_workflows/src/master/

核心算法/工具:

1) Bowtie2:是将测序reads与长参考序列比对工具 (适用于将长度大约为501001000字符的reads与相对较长的基因组)

2) MetaPhlAn2可以基于宏基因组数据,获得微生物群体中种水平精度的组成,包括细菌、古菌、真核生物和病毒。如果有株水平基因组的物种,也可以追踪和研究。

3) MinPath:是一种使用蛋白质家族预测进行生物通路重建的节俭方法,为查询数据集实现更保守、更可靠的生物通路估计。

4) DIAMOND:一种新的高通量程序,可将DNA序列或蛋白质序列与NR等蛋白质参考数据库进行比对,速度可达BLAST2万倍,具有很高的灵敏度。

数据库:

1) UniRefUniProt Reference ClustersUniRef),是蛋白参考数据库。UniRef对来自UniProtKB的各种数据包括各种剪接变异体进行了分类汇总,还从UniParc中选取了一些数据以求能收录更多数据,同时也保证没有冗余数据

2) MetaCyc是一个代谢通路数据库包含来自3009个不同生物体的2722条通路。

3) ChocoPhlAn pangenome:泛基因组数据库,含细菌、古菌、真核生物、病毒的注释信息。

核心步骤:

1) KneadDataBowtie2Trimmomatichg38 mRNA数据进行序列过滤,去除低质量碱基、序列和宿主序列。

2) MetaPhlAn2ChocoPhlAn泛基因组数据库进行物种分类鉴定。

3) MinPathDIAMONDUniRefMetaCyc数据库进行基因家族、功能和通路的注释。

MetaTrans

文章:

MetaTrans: an open-source pipeline for metatranscriptomics. Sci Rep. 2016

MetaTrans链接:http://www./ 

核心算法/工具:

1) Kraken:能利用基于k-mer的精确比对方法和庞大的微生物基因组参考数据库(>8500种微生物)超高速、高正确性和精确性地将微生物注释到属及更低的水平。

2) SortMeRNA去除16S23S18S28S rRNAs序列的常用工具。

3) UCLUST:能以USEARCH作为序列比对引擎进行序列聚类。

4) SOAP2:是SOAPShort Oligonuclotide Analysis package)的一个主要成员,能进行高速短核酸序列比对。

5) FragGeneScan:是在短序列中找到基因的一种基因注释程序,也可用于在完整或非完整基因组中的预测原核生物的基因。

数据库:

1) SILVA-115SIVLA微生物分类注释数据库(2013年版)。

2) Greengenes-13.5Greengenes微生物分类注释数据库(2013年版)。

3) Rfam-11:用来鉴定non-coding RNAs的数据库 

4) tRNA-all:用来鉴定tRNA数据库。

6) MetaHIT:包含1250人的,由EggNOG数据库注释好的的宏基因组数据库。

7) M5nr:包含MG-RAST服务器提供的、1590万个独特的蛋白质和580万个来自IMGGenbankInterProKEGGPATRICPhantome)RefSeqSEEDUniProt的功能注释。

核心步骤:

1) 用SortMeRNASILVA v11527Rfam28Genomic tRNA database数据库进行rRNA/tRNA清除。
2)用Fastq-Join将有overlap的双端序列merge成更长的序列。用FragGeneScan进行基因预测,丢弃非编码基因的序列,降低计算成本。
3)使用SOAP2MetaHITM5nr数据库进行功能注释。
4)使用UCLUST对1)中舍弃的rRNA序列进行聚类,使用SOAP2QIIMEGreengenes数据库进行微生物分类学分析。

SAMSA

文章:

SAMSA: a comprehensive metatranscriptome analysis pipeline. BMC Bioinformatics. 2016

SAMSA GitHub链接:https://github.com/transcript/SAMSA 

核心算法/工具

1) Trimmomatic:去除测序数据中接头、引物、低质量碱基和序列的质控工具。

2) FLASH:一种快速、准确的能通过序列重叠区将双端测序得到的上、下游序列合并到一起以增加读长的软件。

3) MG-RASTMetagenomic Rapid Annotations using Subsystems Technology物种分类和功能分析服务器  链接:http://www./ 

数据库:

1NCBI RefSeqNCBI基因组数据库。
2SEED Subsystems reference database:是能将FIGfam(蛋白质数据库)中定义的基因家族分成多个功能级别的一种基因分层方法。

核心步骤:

1)使用Trimmomatic去除原始测序数据中的低质量碱基、序列和测序接头。
2)使用FLASH对齐(align)的功能将质控后的双端序列拼接成一条更长的序列(文章中提到约32-54%的双端序列能成功对齐)。
3)使用NCBI RefSeq和MG-RAST进行序列注释。MG-RAST包括几个步骤,包括通过SolexaQA进行初始序列质量控制检查,通过FragGeneScan进行基因注释,通过QIIME的uclust进行90%一致性的氨基酸序列聚类,然后在每个蛋白质序列聚类上使用sBLAT找到最佳匹配的参考信息。



你可能还喜欢

初学者如何深入解读16S rDNA扩增子测序数据,从而选择自己的分析步骤

技术贴 | 16S专题 |基于QIIME2 dada2插件的16S扩增子测序数据的分析流程详解(上)

技术贴 | 16S专题 | 基于QIIME2 dada2插件的16S扩增子测序数据的分析流程详解(中)

技术贴 | 16S专题 | 简单介绍如何用自己的笔记本处理高通量16S数据

16S测序全新分析流程QIIME2的介绍

16S专题 | 文章的撰写

7 技术贴 | 宏转录组专题 | DDBJ数据库:宏转录组测序数据下载

8 技术贴 | 利用graphpad绘制多指标的ROC曲线


    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多