作者:铁汉1990 官网网址:http://rast./ RAST(利用Subsystem技术快速注释工具,Rapid Annotation using Subsystem Technology),一个针对完整的或将近完整(draft genomeor complete genome)的细菌和古菌基因组注释工具。它可以用来预测orf,Rrna,Trna,以及相应的功能基因,并可以利用这些信息构建代谢网络。 RAST的准确性,一致性和完整性是基于两个数据库:人工矫正的Subsystems库和关于蛋白的库(FIGfams)。它的注释出来的数据主要分为两块:基于Subsystems库注释(相当于跟库里面的功能基因比对,而它的数据里面现在包含58 Archaea, 963 Bacteria, 562 Eukaryota, 1254 Plasmids and 1713 Viruse),不基于Subsystem库的注释(借助其他的工具来分析???难道是序列的一致性?),当然在利用注释信息构建代谢网络的时候为了更准确些,我们往往会更多的用基于Subsystems库注释(subsystem-based assertions)。 通过邮箱申请一个账号即可上传你的contigs的fasta数据,注释完了后会发邮件给你,你的注释结果将或保留120天,你也可以申请将注释的结果加入到SEED中去。 自动注释出来的结果包含的信息量是比较大的: 1,根据比对的信息,你可以看到数据库中离他最近的物种是啥(View closest neighbors),以及你上传序列的基本信息(大小,contigs数,匹配的subsystems数,orf,rna数目) 2,功能注释后所列出的一张饼图,各个相应的功能所占的比例 3,除了能注释出功能基因,然后做一个简单的代谢网络以外,还可以通过SEED模块将上传的基因组跟其他的基因组比较(这个功能牛逼).比较的对象可以是你上传的比较,也可以是是和他数据库相应的基因组比较,而这个基因组的比较可以包括function based,sequence based或者KEGG.甚至你可以用其他的序列来跟它比对。 4,注释的内容可以下载,下载的格式可以为GenBank,FASTA,gff3,excel,也可以重新修改参数再上传自动注释。 RAST分析的大致步骤: 1,寻找tRNA和rRNA tRNA通过tRNAscan-SE来寻找,rRNA则可以search_for_rnas来寻找。因为现在有的蛋白数据库会预测出来的Orf有的跟rRNA序列非常相似,所以我们在第一步就先找出RNA序列,然后再对剩下的序列进行预测Orf。 2,预测Orf 用GLIMMER2来预测Orf(protein-encoding genes) 3,寻找相近的基因组是(establishing phylogenetic context) 利用FIGfams数据库的几个具有代表性的通用蛋白建立一个索引,快速去比对上传的基因组,根据比对上具有代表性的信息来估计离上传的基因组最近的物种, 4,用相近的基因组来比对 一旦找到了相近的基因组,就可以根据这些相近的基因组来建立FIGfams的一个小库,而这个小库里面的FIGfams蛋白将在上传的基因组中去寻找,一旦在上传的基因组中找到相应的某个基因,则把这个基于提出来放在已知的一组中,剩下的继续寻找,直到这个小库中的蛋白在上传的基因组中找不到相应的基于为止。 5,recall protein-encoding genes 用上面一步通过上传基因组建立的已知基因来recall相应的基因组(???这一步没搞明白它到底想干什么?) 6,剩下的Orf来跟整个FIGfams数据库比对 跟相近的基因组比对后,上传的基因组还是有一部分Orf匹配不上,是未知的,所以需要拿这些剩下的未知的来跟整个FIGfams数据库比对。(之前的这些步骤算是缩小范围来节省时间了。) 7,最后的Orf跟nr比对 最后无法比对上FIGfams数据的预测基因(这些基于可能因为overlapping gene calls ,starting position的缘故),所以将这些基因跟nr数据库比对,相似性高的就注释出来。 8,建立代谢网络 功能注释一旦结束,一个初略的代谢网络就被建立了,也就是将上传基因组中的基因跟subsystems中功能角色对应起来。 上传数据: 上传的数据仅仅接受FASTA或者GenBank格式 taxonomy ID:(如果不知道可以不填,也可以根据物种名在这个网址上得到ID号http://www.ncbi.nlm./Taxonomy/taxonomyhome.html/) 输入正确的ID后,下面会自动出来种属,如果不知道ID,也找不到ID,则下面的种属需要人为的来填写,来生成一个虚拟的ID号。 Genetic code:大多数的细菌都用11(具体说明 http://www.ncbi.nlm./Taxonomy/Utils/wprintgc.cgi),但是支原体,螺原体,ureoplasmaea,真菌线粒体。 Select gene caller:基因预测,有RAST和GLIMMER-3两种方式。如果选择GLIMMER-3的话,将不会自动修复错误,阅读框转移修正,补填gaps. Select FIGfam version for this runz:默认的是59,最新的是70,如果最新的是最好的,为什么还有这个选择的选项呢。 Automatically fix errors Fix frameshifts Build metabolic model Backfill gaps Turn on debug ? set verbose level 设置处理数据中的报告级,分为详细的报告还是只是报告错误之类的。 Disable replication 是否允许去除duplication.很多时候是不需要删掉的。比如在RNA的时候,实际上,任何需要计 算丰度的时候都不能删掉。当然dup的比例太大的时候,那就另当别论了 最后上传,8-12小时结束注释后会给你发邮件。 FIGfams RAST是基于Subsystem和FIGfams两个数据库来工作的。构建的FIGfams是相对来说比较保守的,两个蛋白放在一个分类上需要确保他们的功能相似,如果功能不一样,就会放在不同的分类上,而两个蛋白放在一个分类上可以基于两种情况:1如果他们俩同时在Subsystem数据库的分类中出现,且两者相似度达到70%以上;2,如果他们来自两个非常相似的基因组(相似度达到90%以上),且这两条序列在相应基因组中的位置关系差不过,也可把他们归为一类。FIGfams中有17,000个基于Subsystem的核心蛋白,还有80,000个则是基于上面的第二种思路得到的。 参考资料: 文献:The RAST Server: Rapid Annotations using Subsystems Technology 官网教学:http://www./wiki/RAST_Tutorial http://www./FIG/wiki/pub/Main/RAST/RASTtutorial.pdf http://www./FIG/wiki/view.cgi/Main/RAST 、 Ps:首先感谢QQ好友哈皮对我这篇博文的指点。 那什么是Subsystem技术?还有那个该死的SEED又是啥捏?慢慢看文献理解吧。 |
|