分享

每日一生信

 追着天使拔毛 2019-10-15
作者:铁汉1990

官网网址:http://rast./

RAST(利用Subsystem技术快速注释工具,Rapid Annotation using Subsystem Technology),一个针对完整的或将近完整(draft genomeor complete genome)的细菌古菌基因组注释工具。它可以用来预测orf,Rrna,Trna,以及相应的功能基因,并可以利用这些信息构建代谢网络。

RAST的准确性,一致性和完整性是基于两个数据库:人工矫正的Subsystems库和关于蛋白的库(FIGfams)。它的注释出来的数据主要分为两块:基于Subsystems库注释(相当于跟库里面的功能基因比对,而它的数据里面现在包含58 Archaea, 963 Bacteria, 562 Eukaryota, 1254 Plasmids and 1713 Viruse),不基于Subsystem库的注释(借助其他的工具来分析???难道是序列的一致性?),当然在利用注释信息构建代谢网络的时候为了更准确些,我们往往会更多的用基于Subsystems库注释(subsystem-based assertions)。

通过邮箱申请一个账号即可上传你的contigsfasta数据,注释完了后会发邮件给你,你的注释结果将或保留120天,你也可以申请将注释的结果加入到SEED中去。

自动注释出来的结果包含的信息量是比较大的:

1,根据比对的信息,你可以看到数据库中离他最近的物种是啥(View closest neighbors),以及你上传序列的基本信息(大小,contigs数,匹配的subsystems数,orf,rna数目)

2,功能注释后所列出的一张饼图,各个相应的功能所占的比例

3,除了能注释出功能基因,然后做一个简单的代谢网络以外,还可以通过SEED模块将上传的基因组跟其他的基因组比较(这个功能牛逼).比较的对象可以是你上传的比较,也可以是是和他数据库相应的基因组比较,而这个基因组的比较可以包括function based,sequence based或者KEGG.甚至你可以用其他的序列来跟它比对。

4,注释的内容可以下载,下载的格式可以为GenBank,FASTA,gff3,excel,也可以重新修改参数再上传自动注释。

RAST分析的大致步骤:

1,寻找tRNArRNA

tRNA通过tRNAscan-SE来寻找,rRNA则可以search_for_rnas来寻找。因为现在有的蛋白数据库会预测出来的Orf有的跟rRNA序列非常相似,所以我们在第一步就先找出RNA序列,然后再对剩下的序列进行预测Orf

2,预测Orf

GLIMMER2来预测Orfprotein-encoding genes

3,寻找相近的基因组是(establishing phylogenetic context

利用FIGfams数据库的几个具有代表性的通用蛋白建立一个索引,快速去比对上传的基因组,根据比对上具有代表性的信息来估计离上传的基因组最近的物种,

4,用相近的基因组来比对

一旦找到了相近的基因组,就可以根据这些相近的基因组来建立FIGfams的一个小库,而这个小库里面的FIGfams蛋白将在上传的基因组中去寻找,一旦在上传的基因组中找到相应的某个基因,则把这个基于提出来放在已知的一组中,剩下的继续寻找,直到这个小库中的蛋白在上传的基因组中找不到相应的基于为止。

5recall protein-encoding genes

用上面一步通过上传基因组建立的已知基因来recall相应的基因组(???这一步没搞明白它到底想干什么?)

6,剩下的Orf来跟整个FIGfams数据库比对

跟相近的基因组比对后,上传的基因组还是有一部分Orf匹配不上,是未知的,所以需要拿这些剩下的未知的来跟整个FIGfams数据库比对。(之前的这些步骤算是缩小范围来节省时间了。)

7,最后的Orfnr比对

最后无法比对上FIGfams数据的预测基因(这些基于可能因为overlapping gene calls ,starting position的缘故),所以将这些基因跟nr数据库比对,相似性高的就注释出来。

8,建立代谢网络

功能注释一旦结束,一个初略的代谢网络就被建立了,也就是将上传基因组中的基因跟subsystems中功能角色对应起来。

上传数据:

上传的数据仅仅接受FASTA或者GenBank格式

taxonomy ID:(如果不知道可以不填,也可以根据物种名在这个网址上得到IDhttp://www.ncbi.nlm./Taxonomy/taxonomyhome.html/

输入正确的ID后,下面会自动出来种属,如果不知道ID,也找不到ID,则下面的种属需要人为的来填写,来生成一个虚拟的ID号。

Genetic code:大多数的细菌都用11(具体说明

http://www.ncbi.nlm./Taxonomy/Utils/wprintgc.cgi),但是支原体,螺原体,ureoplasmaea,真菌线粒体。

Select gene caller:基因预测,有RASTGLIMMER-3两种方式。如果选择GLIMMER-3的话,将不会自动修复错误,阅读框转移修正,补填gaps.

Select FIGfam version for this runz:默认的是59,最新的是70,如果最新的是最好的,为什么还有这个选择的选项呢。

Automatically fix errors

Fix frameshifts

Build metabolic model

Backfill gaps

Turn on debug ?   

set verbose level     设置处理数据中的报告级,分为详细的报告还是只是报告错误之类的。

Disable replication   是否允许去除duplication.很多时候是不需要删掉的。比如在RNA的时候,实际上,任何需要计               算丰度的时候都不能删掉。当然dup的比例太大的时候,那就另当别论了


最后上传,8-12小时结束注释后会给你发邮件。

FIGfams

RAST是基于SubsystemFIGfams两个数据库来工作的。构建的FIGfams是相对来说比较保守的,两个蛋白放在一个分类上需要确保他们的功能相似,如果功能不一样,就会放在不同的分类上,而两个蛋白放在一个分类上可以基于两种情况:1如果他们俩同时在Subsystem数据库的分类中出现,且两者相似度达到70%以上;2,如果他们来自两个非常相似的基因组(相似度达到90%以上),且这两条序列在相应基因组中的位置关系差不过,也可把他们归为一类。FIGfams中有17000个基于Subsystem的核心蛋白,还有80000个则是基于上面的第二种思路得到的。

参考资料:

  文献:The RAST Server: Rapid Annotations using Subsystems Technology 

官网教学:http://www./wiki/RAST_Tutorial

         http://www./FIG/wiki/pub/Main/RAST/RASTtutorial.pdf

         http://www./FIG/wiki/view.cgi/Main/RAST

 、

Ps首先感谢QQ好友哈皮对我这篇博文的指点。

   那什么是Subsystem技术?还有那个该死的SEED又是啥捏?慢慢看文献理解吧。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多