涨姿势|《宏基因组学那些事》之数据库与软件

sailing_387 2016-08-15

展开全文

前两期小编和大家一起学习了宏基因组学中的重要名词和常见图表的含义，本期我们来看看宏基因组数据分析时常用的数据库和软件。

1. 常用数据库

RDP（Ribosomal DatabaseProject）数据库提供核糖体相关数据和服务，包括在线的数据分析、比对、16S rRNA序列的注释。RDP最新版本是Release 11.4，发布于2015.5.26，收录了共3,224,600条16S rRNAs序列，108,901条真菌28S rRNA序列，是使用最广的16S rRNA序列数据库。RDP数据库提供16S rRNA序列比对和分类、进化树构建、物种分类heatmap、功能基因分析等方便的数据处理功能。

网站链接：http://rdp.cme./index.jsp

Greengenes数据库由Lawrence BerkeleyNational Laboratory构建。最新版本为13.8，它对13.5的序列分类进行了修正，13.5版本总共收录16S rRNA序列1,262,986条。Greengenes可以用Export工具实现对数据的过滤，输出定制的数据库。Greengenes提供比对工具NAST，可进行多序列比对。提供在线trim处理，可以根据质量值修剪FASTA格式数据文件。此外，网站的probe工具提供16S rRNA区域探针或者引物的设计功能。

网站链接：http://greengenes./cgi-bin/nph-index.cgi

SILVA由德国马普研究所和Ribocon主持，提供最新的核糖体大小亚基rRNA注释信息。最新版本是Version 123（2015.7.23），提供超过700万个SSU，80多万个LSU序列。SILVA数据库是软件包ARB的官方数据库，提供全面的，高质量的可比对的小亚基（如16S/18S，SSU），以及大亚基（23S/28S，LSU）的rRNA序列，用于细菌，古生菌，以及真菌分析。

网站链接：http://www./

NR数据库是NCBI中的一个非冗余的蛋白数据库。它包含从GeneBank核酸序列翻译而来的非冗余序列，并且还收录了其他蛋白数据库的非冗余序列，包括RefSeq、PDB、SwissProt、PIR和PRF。截至2015.04.26，NR数据库共收录的序列数为65,519,838，提取其中属于微生物（Bacteria，Archaea，Viruses，Fungi）的序列数目为52,375,954，这些序列的构成NR子库成为nr_meta库。

网站链接：ftp://ftp.ncbi.nlm.nih.gov/blast/db

KEGG（Kyoto Encyclopedia ofGenes and Genomes，京都基因和基因组百科全书）是一个整合了基因组、化学和系统功能信息的数据库。KEGG数据库的特色之一是把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来。人工创建了一个知识库，这个知识库是基于使用一种可计算的形式捕捉和组织实验得到的知识而形成的系统功能知识库。与其他数据库相比，KEGG具有强大的图形功能，它利用图形直观地展示众多的代谢途径以及各途径之间的关系。根据系统信息、基因组信息、化学信息和健康信息这几个大类，KEGG目前可分为17个主要的数据库。其中的KEGG PATHWAY数据库尤其广泛地被用于基因组和高通量数据的注释。

网站链接：http://www./kegg/download

eggNOG（evolutionarygenealogy of genes: Non-supervised Orthologous Groups)是欧洲分子生物学实验室EMBL构建的一个基因组直系同源蛋白簇及其功能注释的数据库。截至4.1版本，eggNOG共包含2,031个物种，9.6M蛋白序列，190K直系同源簇。

网站链接：http://eggnogdb./download/

2. 常用软件

OTU聚类就用国货CD-HIT

CD-HIT（Cluster Database atHigh Identity with Tolerance）是一个广泛用于聚类生物序列以减少序列冗余并改进其他序列分析性能的程序，是由国人Li Weizhong最初撰写，目前为开源程序。该程序的最大特点就是快。软件的基本思路是首先对所有序列按照其长度进行排序，然后从最长的序列开始，形成第一个序列类，然后依次对序列进行处理，如果新的序列与已有的序列类的代表序列的相似性在cutoff以上则把该序列加到该序列类中，否则形成新的序列类。

在微生物群落多样性分析中，使用CD-HIT通常将序列相似性>97%的Tags（PE Read拼接后成为Tags）定义为一个OTU。

网站链接：http://www./cd-hit/

Alpha与Beta多样性分析使用多面手QIIME

QIIME（Quantitative InsightsInto Microbial Ecology）是开源软件，用于微生物群落的高通量测序数据的对比和分析。软件包整合非常丰富的功能，包括OTU筛选，多样性指数计算，物种聚类，进化树构建，下游统计分析和可视化等。所以QIIME可不仅仅是多样性分析。

网站链接：http:///pynast/

OTU注释首选RDP classifier

RDPclassifier是RDP网站提供的16S rRNA数据物种分类工具，用于rRNA序列的快速物种定位，最新的版本可以用于处理细菌、古生菌16S rRNA序列和真菌LSU序列。

物种注释时，使用RDP classifier从每个OTU聚类中选取代表性序列跟数据库中的已知序列比对，则每个OTU就会对应一个物种注释信息。由于RDP Classifier采用类似LCA的算法，其注释结果更为准确。这是因为，当出现一个OTU代表序列在genus（属）水平上注释到两种结果时，会看上一级family（科）水平的注释结果，如果科水平只有一个注释结果，则该序列就只会注释到科水平，而不再给出属水平的注释结果。

网站链接：http://rdp.cme./classifier/classifier.jsp

宏基因组数据比对就用神器DIAMOND

DIAMOND是一款新的用于短DNA测序reads与蛋白参考数据库比对的工具。以Illumina的100~150 bp的reads为例，在快速模式下，DIAMOND比对速度比BLASTX要快20,000倍，可以报告BLASTX发现的80-90%的比对数据，e-value至多为1e-5。如果使用灵敏模式，DIAMOND的比对速度也要比BLASTX快2,500倍，可以报告超过94%的比对数据。

网站链接：http://ab.inf./software/diamond/

宏基因组数据分析怎能不用全能王MEGAN

MEGAN（MEta Genome ANalyzer）是一款功能非常强大的宏基因组数据分析软件。面对宏基因组数据的时候，我们经常会面临的3个最基本的计算任务：系统学分析，功能分析，比较分析。它们也叫做“那儿有谁？”，“它们在做什么？”，“它们是如何合作的？”。这些给我们的概念和计算带来巨大的挑战，需要大量新的生物信息学工作和方法来阐明它们，而MEGAN正是为此而开发的。MEGAN可以进行包括物种分类，功能与通路分析，可视化比较分析，图表绘制等全面的宏基因组数据分析。该软件的最新版本为MEGAN5。

网站链接：http://ab.inf./software/megan5/

本期我们就说到这，小伙伴们下期见[泪别]