每日一生信

追着天使拔毛 2019-10-15

展开全文

作者：铁汉1990

RAST（利用Subsystem技术快速注释工具，Rapid Annotation using Subsystem Technology），一个针对完整的或将近完整（draft genomeor complete genome）的细菌和古菌基因组注释工具。它可以用来预测orf,Rrna,Trna,以及相应的功能基因，并可以利用这些信息构建代谢网络。

RAST的准确性，一致性和完整性是基于两个数据库：人工矫正的Subsystems库和关于蛋白的库（FIGfams）。它的注释出来的数据主要分为两块：基于Subsystems库注释（相当于跟库里面的功能基因比对，而它的数据里面现在包含58 Archaea, 963 Bacteria, 562 Eukaryota, 1254 Plasmids and 1713 Viruse），不基于Subsystem库的注释（借助其他的工具来分析？？？难道是序列的一致性？），当然在利用注释信息构建代谢网络的时候为了更准确些，我们往往会更多的用基于Subsystems库注释（subsystem-based assertions）。

通过邮箱申请一个账号即可上传你的contigs的fasta数据，注释完了后会发邮件给你,你的注释结果将或保留120天，你也可以申请将注释的结果加入到SEED中去。

自动注释出来的结果包含的信息量是比较大的：

1，根据比对的信息，你可以看到数据库中离他最近的物种是啥（View closest neighbors），以及你上传序列的基本信息（大小，contigs数，匹配的subsystems数，orf,rna数目）

2，功能注释后所列出的一张饼图，各个相应的功能所占的比例

3，除了能注释出功能基因，然后做一个简单的代谢网络以外，还可以通过SEED模块将上传的基因组跟其他的基因组比较（这个功能牛逼）.比较的对象可以是你上传的比较，也可以是是和他数据库相应的基因组比较，而这个基因组的比较可以包括function based,sequence based或者KEGG.甚至你可以用其他的序列来跟它比对。

4，注释的内容可以下载，下载的格式可以为GenBank,FASTA,gff3,excel,也可以重新修改参数再上传自动注释。

RAST分析的大致步骤：

1,寻找tRNA和rRNA

tRNA通过tRNAscan-SE来寻找，rRNA则可以search_for_rnas来寻找。因为现在有的蛋白数据库会预测出来的Orf有的跟rRNA序列非常相似，所以我们在第一步就先找出RNA序列，然后再对剩下的序列进行预测Orf。

2，预测Orf

用GLIMMER2来预测Orf（protein-encoding genes）

3,寻找相近的基因组是（establishing phylogenetic context）

利用FIGfams数据库的几个具有代表性的通用蛋白建立一个索引，快速去比对上传的基因组，根据比对上具有代表性的信息来估计离上传的基因组最近的物种，

4，用相近的基因组来比对

一旦找到了相近的基因组，就可以根据这些相近的基因组来建立FIGfams的一个小库，而这个小库里面的FIGfams蛋白将在上传的基因组中去寻找，一旦在上传的基因组中找到相应的某个基因，则把这个基于提出来放在已知的一组中，剩下的继续寻找，直到这个小库中的蛋白在上传的基因组中找不到相应的基于为止。

5，recall protein-encoding genes

用上面一步通过上传基因组建立的已知基因来recall相应的基因组（？？？这一步没搞明白它到底想干什么？）

6，剩下的Orf来跟整个FIGfams数据库比对

跟相近的基因组比对后，上传的基因组还是有一部分Orf匹配不上，是未知的，所以需要拿这些剩下的未知的来跟整个FIGfams数据库比对。（之前的这些步骤算是缩小范围来节省时间了。）

7，最后的Orf跟nr比对

最后无法比对上FIGfams数据的预测基因（这些基于可能因为overlapping gene calls ,starting position的缘故），所以将这些基因跟nr数据库比对，相似性高的就注释出来。

8，建立代谢网络

功能注释一旦结束，一个初略的代谢网络就被建立了，也就是将上传基因组中的基因跟subsystems中功能角色对应起来。

上传数据：

上传的数据仅仅接受FASTA或者GenBank格式

taxonomy ID：（如果不知道可以不填，也可以根据物种名在这个网址上得到ID号http://www.ncbi.nlm./Taxonomy/taxonomyhome.html/）

输入正确的ID后，下面会自动出来种属，如果不知道ID,也找不到ID，则下面的种属需要人为的来填写,来生成一个虚拟的ID号。

Genetic code：大多数的细菌都用11（具体说明

http://www.ncbi.nlm./Taxonomy/Utils/wprintgc.cgi），但是支原体，螺原体，ureoplasmaea，真菌线粒体。

Select gene caller：基因预测，有RAST和 GLIMMER-3两种方式。如果选择GLIMMER-3的话，将不会自动修复错误，阅读框转移修正，补填gaps.

Select FIGfam version for this runz：默认的是59，最新的是70，如果最新的是最好的，为什么还有这个选择的选项呢。

Automatically fix errors

Fix frameshifts

Build metabolic model

Backfill gaps

Turn on debug ?

set verbose level 设置处理数据中的报告级，分为详细的报告还是只是报告错误之类的。

Disable replication 是否允许去除duplication.很多时候是不需要删掉的。比如在RNA的时候，实际上，任何需要计算丰度的时候都不能删掉。当然dup的比例太大的时候，那就另当别论了

最后上传，8-12小时结束注释后会给你发邮件。

FIGfams

RAST是基于Subsystem和FIGfams两个数据库来工作的。构建的FIGfams是相对来说比较保守的，两个蛋白放在一个分类上需要确保他们的功能相似，如果功能不一样，就会放在不同的分类上，而两个蛋白放在一个分类上可以基于两种情况：1如果他们俩同时在Subsystem数据库的分类中出现，且两者相似度达到70%以上；2，如果他们来自两个非常相似的基因组（相似度达到90%以上），且这两条序列在相应基因组中的位置关系差不过，也可把他们归为一类。FIGfams中有17，000个基于Subsystem的核心蛋白，还有80，000个则是基于上面的第二种思路得到的。