拿到数据后想上传到NCBI数据库,奈何攻略千千万,一个不想看,尤其是数据库中一连串的英文注意事项和步骤看起来也是略烦,那不妨看看我这个上传步骤,可否博您一笑? 上传步骤 BioProject ID的获得 1. 在NCBI 主页右上角(http://www.ncbi.nlm./genomes/mpfsubmission.cgi)My NCBI登录系统中创建新的账号(已有就不需要),点击Register for an account 创建账号: 2. 填写信息 3. 登陆BioProject(https://submit.ncbi.nlm./),获取一个BioProject ID 4. 点击New submission,进行提交 5. 填写一系列信息 6. 获得BioProject ID,以PRJNA字符为前缀,并且获得通过Autogenerate(自动分配)方式获得项目唯一的 Locus Tag Prefix值,比如下面例子中的4932,该值用于注释结果locus_tag这一项的前缀(注释文件必须含有该值!)如下图中红框所示: 组装结果的准备 1. 生成template (*.sbt)文件,填写submission template form(http://www.ncbi.nlm./WebSub/template.cgi)。template form如下图所示(需要填写提交人的各项信息,姓名,地址,单位,联系方式等等,还有文章的题目以及前面获得的 BioProject ID): 这里的BioSample指的就是前面的submission
2. 准备Contig文件。Contigs序列文件,无gap,即序列中不含N,每个文件不超过10,000条序列。格式:contig文件为标准fasta格式,第一行是描述信息,以“>”开头;第二行起是序列信息,每行长度不超过80个字符。如下图所示: 3. 注释文件(可选)。若有符合 NCBI注释标准的注释文件,该文件与*.fsa文件命名相同,后缀为*.tbl。 NCBI注释标准:Prokaryotic Genome Annotation Guide 利用tbl2asn软件生成符合NCBI上传规则的*.sqn 文件 1. 准备生成*.sqn 文件。该文件需要两个文件:1)前面所生成的*.sbt;2)诺禾提供的contig文件:*.fsa;3)(如果有),符合 NCBI注释标准的*.tbl注释文件。 2. 下载 tbl2asn软件,下载地址如下: ftp://ftp.ncbi./toolbox/ncbi_tools/converters/by_program/tbl2asn/ 该软件说明如下: http://www.ncbi.nlm./genbank/tbl2asn2.html 3. 将以上两个文件置于 tbl2asn 软件目录下,进入命令提示行模式(开始-运行-cmd),进入 tbl2asn软件目录,输入如下命令后回车运行(注意空格和””号): tbl2asn.exe –i *.fsa –t *.sbt –a s –V v –Z log –j “[organism=*][strain=*]” [organism=*][strain=*]:*部分的内容需要自行添加;顺利运行后,tbl2asn 将出现由*.fsa 命名的三个文件:*.sqn,*.val,log(文件名相同后缀不同)。*.sqn文件用于最后的提交作业;一般来说,*.val文件大小为 0 k则整个转换过程无问题。 关于参数organism,strain使用时候的注意事项以及内容请查看: http://www.ncbi.nlm./Sequin/modifiers.html 以及http://www.ncbi.nlm./Sequin/sequin.hlp.html#ModifiersPage tbl2asn软件的其他参数说明请参考: http://www.ncbi.nlm./genbank/tbl2asn2 4. 检查输出的 *.val文件和报告文件。查看*.val文件内是否提示错误信息,如果有,找出并解决,以减少上传审核时间。 5. 生成 AGP文件:(该文件由诺禾提供) 组装序列的提交 1. 使用GenomesMacroSend工具上传前面步骤所得到的*.sqn 文件和 AGP文件。若有符合NCBI注释标准的注释文件也可一起上传。网址如下: https://submit.ncbi.nlm./subs/wgs/ 2. 按照上传引导填写相应信息,上传*.sqn,AGP.file,*.seq文件,整个过程需要使用一致的物种名称。 3. 最后点击Submit,上传成功 NCBI会反馈如下信息,包括临时的GDsub号(Submission,SUB前缀,待审核通过之后才会给予正式编号),之前申请的BioProject号(Title),以及状态(Status),accession number。 4. 完成前两步后会收到一封NCBI的确认邮件。 而完成图,区别在于Create Template后,多了*.cmt(The Genome-Assembly-Data Structured Comment File)文件的生成,包括组装方法和版本、测序基因组覆盖度、测序策略等。 填写 the Structured Comment Template page: https://submit.ncbi.nlm./structcomment/genomes/ 因为没有AGP文件,最后使用GenomesMacroSend工具上传*.sqn 文件即可。 微生物业务线 张黎杰丨文案 王 迪丨编辑 |
|
来自: sailing_387 > 《待分类》