分享

二代测序 | 数据如何上传到SRA数据库?

 医学院的石头 2018-01-28
我想不少小伙伴的实验都涉及到二代测序吧,燃鹅,没错,你的样本是师兄师姐提的!你的测序是公司做的!你的数据分析是公司测序完花5分钟顺手分析的。就在你以为万事具备只欠东风,文章发表指日可待之时,只因在人群中多看了杂志的instructions for authors一眼,竟发现还有一个重要的问题:谁能帮我把数据上传NCBI啊,我要accession number。

SRA是NCBI中专门用于提交测序结果中原始序列数据的数据库。从测序始祖454到三代测序pacbio,鲜肉平台nanopore的数据都可以提交到这个数据库中。同时,SRA还和(European Bioinformatics Institute)EBI,以及(DNA Database of Japan)DDBJ两个数据库共享数据,即后两个数据库中上传的数据也可以在SRA中检索到。SRA数据库的主要用途是实现测序数据的共享和再利用,挖个课题再做个meta什么的,不得不说SRA简直就是居家旅行开题毕业必备大宝藏。除了满满的数据信息等待有心人去挖掘之外,在数据库主页还有一些小工具可将数据库下载的数据转换成方便分析的格式。


目前,绝大多数杂志(至少IF>3以上的)在投稿须知中都会要求测序数据提交至公共数据库并提供索引编码。那今天我们就来手把手学习如何上传二代测序数据到SRA(Sequence Read Archive)数据库。想要上传芯片数据的请上二楼左转去GEO数据库。很多小伙伴有疑问:原始数据是二代测序,但结果主要是在讲表达差异,应该上传GEO还是SRA?杂志社一般规定,测序数据用于表达分析,两个数据库都是可以的。但我个人推荐方便操作的SRA。(当然NCBI也是推荐测序数据上传SRA,芯片数据上传GEO的


1)注册并登入NCBI账号,然后进入NCBI submission portal,选择SRA数据库https://submit.ncbi.nlm.


2)在数据库介绍页面选择文件上传方式(这里我选用第一种使用插件上传。这个是用户界面形式的简单易用。用FTP的选下面command line)。


3)安装完之后,返回数据库介绍页面。点选创建新任务(这个页面同时也有对上传所需测序原始文件格式的要求和介绍。推荐格式是用来存储序列比对后的.bam二进制压缩文件,但也支持FASTQ和SAM等文件格式


4)第一页基本信息页随便填一填。右上SUB编码是正在提交项目的临时编码,不用于提供给杂志作为数据库索引。完成填写后,点击继续。(在填写过程中,所有信息都是可以修改的,在最终提交前还有检查核对所填信息的步骤


5)第二页项目信息页。这个页面中的BioProject和BioSamples信息也可以在步骤1)的页面单独创建并分别获得PRJNA和SAMN开头的两个索引码填在这里。这里我没有单独创建这部分信息。如果你的测序信息很重要或者文章还在准备中不想立即公开数据,可以在这个页面预设一个日期发布数据(最长预设时限为4年左右。也就是说你2017年提交的数据,可以设置数据在2021年开放检索)。


6)第三页项目概况。如果你的项目不是NIH资助的(我估计肯定不是的),那这页就填下面三项就差不多了。


7)第四页样本类型。就是点击一下的事儿,大概半秒钟。当样本为人类样本时,如果你的样本在公开之前需要授权(当然我从来没听说过谁的样本是这样的,这条儿基本上是用来无视的)请选择dbGaP数据库上传。目测99.9%的人都上传的SRA,但是上传之前记得隐去数据中的病人个人信息部分,什么姓名,联系电话这类的信息。


8)第五页样本详情描述页。下载模版excel照着填。 


下图中7个绿色项为必填项不可留空,但是可以填数据未收集(没错,就是变相留空)。填完后保存为.txt格式上传。详情见图。数据提交后,点击继续,可能会出现报错信息,这是由于提供的信息不足以让数据库识别和区分样本造成的。如果一类生物样本有多个生物学重复,可以加一列“replicates”分类项注明生物学重复。


9)第六页测序详情描述页。在这一页你需要填写每一个测序文库的信息,例如测序类别WGA, Amplicon, RNA-Seq, ChIP-Seq,或者测序仪型号等信息。可以选在线填写,如图


或者下载表格,填写后上传(和步骤8)类似)。表格带有三张表单,第一页和第三页为说明页可直接跳过。填写第二页红框中13个必填项,填好后选择另存为.txt格式。将.txt文件上传。


需要注意的是,步骤8)和9)填写的两张表格同名信息要一致。除此之外,上传文件要注意带扩展名,否则会因为系统找不到上传文件对应的文件名而报错。最后一栏填写比对参考序列名称,可以在NCBI assembly 数据库查询https://www.ncbi.nlm./assembly/ .如果是靶向测序结果,比对序列不在数据库中,可以在这栏填写自己的序列文件名称,随后上传 。

10)上传测序数据文件(这里我上传的是.bam文件)。虽然可以上传完后自动提交,但如果数据量不大的话建议手动逐个上传。亲测批量上传比较卡。


11)全部信息填写完之后,在最终页面确认信息无误后提交。等待数据库审核。提交之后1-2分钟会收到正确创建BioProject的邮件和PRJNA ID,5-10分钟会收到正确创建BioSamples的邮件和SAMN ID。如果所有数据和信息都没有问题,系统队列处理完之后就会显示提交成功(刚提交完显示状态为submitted/waiting processing。正常情况下12-24小时之内系统就会反馈提交的文件是否有问题)。之后就可以在自己的submission portal页面下载metadata查到accession number啦(metadata表下载打开在study一栏下面的SRP开头的号码就是啦


到这里为止,二代测序数据上传NCBI数据库的任务就完成了。拿到accession number,麻麻再也不用担心我发不了文章了。


除此之外,如果想要查询提交进度或者追踪提交错误详情的可以到SRA数据库追踪提交数据的详细情况https://www.ncbi.nlm./sra 

华丽丽的分割线


李莫愁博士:二代测序现在的蚊帐中越来越常用到了,所以数据就需要更完整地上传到SRA、ENA或者DRA的数据库中,当然SRA是现在最常用到的,但是上传数据的话,却并不是很方便。感谢红烧卜卜星童鞋给我们的投稿,也希望对大家有所帮助。好了,今天就先策到这里吧。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多