超快的基因组序列聚类注释在线工具WebMGA撰文:周晗 中南大学 审稿:刘永鑫 中科院遗传发育所 (宏)基因组学是测序研究生物功能的新领域。如今测序技术一直在进步,成本也大幅下降,数据在大量增加,但数据分析是非常耗时的,并且(宏)基因组注释涉及广泛的计算工具,这些工具难以轻松掌握。少数可用Web服务器提供的工具也受到许多限制,例如有登录要求、无法大批量分析、等待时间过长、无法配置配件等等。如果你也遇到以上的困扰,那可以试一试今天要介绍的这款工具。 WebMGA是用于(宏)基因组快速分析的Web服务器,包含3个模块20多种常用的工具。访问网址:http://weizhong-lab./webMGA/。(图1) 图1. 服务器主页界面 这三个模块分别为:序列聚类、基因预测和功能注释。我们从每个模块中挑选一个工具进行演示。 图2. 服务器的主要功能和对应的选项 cd-hit是用于蛋白质序列或核酸序列聚类的工具,根据序列的相似度对序列进行聚类来除去冗余的序列。它的引用量近7000次。 序列聚类cd-hitcd-hit是一种贪婪的增量聚类方法,它解决了序列两两比对特别费时的问题,大大缩短了运行时间。首先我们选定分析方法后上传文件。可修改为认为合适的参数(一般默认参数即可)。
上传成功后会显示如下页面。点击job status,对于10Mb的输入文件,一般1分钟后就可以查看结果了。 结果会整理成压缩包,可以直接下载压缩包。 下载的压缩包解压后,结果包含以下内容: cd-hit主要有两个输出文件:一个是只含有所有代表序列(即去冗余后的序列)的FASTA文件; 另一个是以.clstr结尾的聚类信息文件,名为“output-sorted”。文件中以“>”开头的是一个聚类组。每组下面按序号排列,如图中Cluster 1组有19个聚类序列。每个聚类序列有一个百分比或“”,百分比代表该序列与代表序列的相似度,“”代表该序列即为代表序列。另一个“output.clstr”文件中仅含有代表序列的信息。 基因预测ORF predictionORF prediction可以从(宏)基因组序列中预测基因,上传要求的FASTA格式的DNA序列,对于2Mb的上传文件,只需3秒就可以查看结果了。
结果文件中包含以下内容。其中名为“OFR.fasta”的文件,就是预测好的结果文件。 这个预测结果文件可以直接上传到后面的注释工具。 蛋白COG注释注释工具中我们以COG注释为例。COG(cluster of orthologous group——直系同源簇)是用不同种族的基因成对相似聚类法把它们划分成各种直系同源簇,从而可以用同一簇中的已知基因注释未知基因的功能。它的引用量现已上千。 COG注释作用:
上传之前基因预测的结果文件,对于大小为2Mb的基因组,大概3分钟就可以给出注释结果!还对每条序列的COG注释结果进行了COG分类,是不是非常快!COG功能注释结果中包含以下几个文件。 “cog.txt”是按照COG同源蛋白的编号排出来的注释结果。 “cog-class.txt”是将蛋白归为25个大类,在每个分类上进行统计。 根据分类,可以统计数目,然后根据不同的分类做图进行比较。 (图16) 今天介绍的这个工具非常方便,并且运行速度很快,页面十分友好,掌握了会让大家的组学分析轻松很多。 作者简介 |
|