分享

微生物基因组数据上传——它在NCBI等你

 sailing_387 2017-01-14

拿到数据后想上传到NCBI数据库,奈何攻略千千万,一个不想看,尤其是数据库中一连串的英文注意事项和步骤看起来也是略烦,那不妨看看我这个上传步骤,可否博您一笑?

上传步骤


BioProject ID的获得

1. 在NCBI 主页右上角(http://www.ncbi.nlm./genomes/mpfsubmission.cgi)My NCBI登录系统中创建新的账号(已有就不需要),点击Register for an account 创建账号:



2. 填写信息



3. 登陆BioProject(https://submit.ncbi.nlm./),获取一个BioProject ID 



4. 点击New submission,进行提交



5. 填写一系列信息



6. 获得BioProject ID,以PRJNA字符为前缀,并且获得通过Autogenerate(自动分配)方式获得项目唯一的 Locus Tag Prefix值,比如下面例子中的4932,该值用于注释结果locus_tag这一项的前缀(注释文件必须含有该值!)如下图中红框所示:



组装结果的准备

1. 生成template (*.sbt)文件,填写submission template form(http://www.ncbi.nlm./WebSub/template.cgi)。template form如下图所示(需要填写提交人的各项信息,姓名,地址,单位,联系方式等等,还有文章的题目以及前面获得的 BioProject ID):



这里的BioSample指的就是前面的submission



完成后,点击最下方'Create Template',将该文件以*.sbt格式储存,备用。


2. 准备Contig文件。Contigs序列文件,无gap,即序列中不含N,每个文件不超过10,000条序列。格式:contig文件为标准fasta格式,第一行是描述信息,以“>”开头;第二行起是序列信息,每行长度不超过80个字符。如下图所示:



3. 注释文件(可选)。若有符合 NCBI注释标准的注释文件,该文件与*.fsa文件命名相同,后缀为*.tbl。

NCBI注释标准:Prokaryotic Genome Annotation Guide


利用tbl2asn软件生成符合NCBI上传规则的*.sqn 文件

1. 准备生成*.sqn 文件。该文件需要两个文件:1)前面所生成的*.sbt;2)诺禾提供的contig文件:*.fsa;3)(如果有),符合 NCBI注释标准的*.tbl注释文件。


2. 下载 tbl2asn软件,下载地址如下:

ftp://ftp.ncbi./toolbox/ncbi_tools/converters/by_program/tbl2asn/

该软件说明如下:

http://www.ncbi.nlm./genbank/tbl2asn2.html


3. 将以上两个文件置于 tbl2asn 软件目录下,进入命令提示行模式(开始-运行-cmd),进入 tbl2asn软件目录,输入如下命令后回车运行(注意空格和””号):

tbl2asn.exe –i *.fsa –t *.sbt –a s –V v –Z log –j “[organism=*][strain=*]”


[organism=*][strain=*]:*部分的内容需要自行添加;顺利运行后,tbl2asn 将出现由*.fsa 命名的三个文件:*.sqn,*.val,log(文件名相同后缀不同)。*.sqn文件用于最后的提交作业;一般来说,*.val文件大小为  0 k则整个转换过程无问题。


关于参数organism,strain使用时候的注意事项以及内容请查看:

http://www.ncbi.nlm./Sequin/modifiers.html

以及http://www.ncbi.nlm./Sequin/sequin.hlp.html#ModifiersPage


tbl2asn软件的其他参数说明请参考:

http://www.ncbi.nlm./genbank/tbl2asn2


4. 检查输出的  *.val文件和报告文件。查看*.val文件内是否提示错误信息,如果有,找出并解决,以减少上传审核时间。


5. 生成  AGP文件:(该文件由诺禾提供)


组装序列的提交

1. 使用GenomesMacroSend工具上传前面步骤所得到的*.sqn 文件和 AGP文件。若有符合NCBI注释标准的注释文件也可一起上传。网址如下:

https://submit.ncbi.nlm./subs/wgs/


2. 按照上传引导填写相应信息,上传*.sqn,AGP.file,*.seq文件,整个过程需要使用一致的物种名称。



3. 最后点击Submit,上传成功 NCBI会反馈如下信息,包括临时的GDsub号(Submission,SUB前缀,待审核通过之后才会给予正式编号),之前申请的BioProject号(Title),以及状态(Status),accession number。


4. 完成前两步后会收到一封NCBI的确认邮件。


而完成图,区别在于Create Template后,多了*.cmt(The Genome-Assembly-Data Structured Comment File)文件的生成,包括组装方法和版本、测序基因组覆盖度、测序策略等。


填写 the Structured Comment Template page:

https://submit.ncbi.nlm./structcomment/genomes/


因为没有AGP文件,最后使用GenomesMacroSend工具上传*.sqn 文件即可。



微生物业务线  张黎杰丨文案

王   迪丨编辑

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多