分享

你不知道的小路---测序数据上传

 baymini777 2018-04-28

近年来,随着科技的进步,新一代大规模平行测序技术诞生了,如454、Solexa 和HeliScope等。这些测序技术可以同时对大量的短片段测序,由于其物种的多样性、数据的复杂性及结果的高通量性,使原有的数据库不能适应新的测序结果。而一些小型实验室自身也不具备处理和管理这些复杂数据的能力。因此NCBI创建了SRA 数据库,帮助用户管理这些测序数据,同时有助于科研界共享数据。这是大家众所周知的大型存储测序结果的数据库,也是一个上传步骤繁琐的数据库。


在测序技术诞生之前,用于基因检测的主流技术是微阵列技术,也就是生物芯片。而芯片的结果数据也需要上传至一个公共数据库--- Gene Expression Omnibus(GEO),对于它的介绍我在前期的一篇微信软文中介绍过,如果想了解可以关注软文下方的伯豪公众账号查看。在SRA数据库创建之前,最初的测序数据也是上传至GEO数据库的。




我们可以从NCBI上传数据库的总的界面看到,GEO数据不单单只上传芯片数据,当然除了测序还有其他类型的数据,如下图:



说到现在,这就是我写这篇软文的目的---上传测序数据的小路!


当然不是所有类型的测序数据都可以通过GEO上传,GEO有明确他接受的测序数据的类型范围,请看下图:




各位看客们,不要被“小路”所迷惑,根据您实际的物种类型,服务项目选择适合的方式上传,如没有参考基因组的物种,宏基因组,拷贝数变异等项目肯定不能通过GEO上传的。


好了,理清楚可不可以走“小路”,下面就是上传GEO数据库的准备工作。

首先不管上传至哪个数据库,第一步都需要在NCBI上注册账号(看过之前芯片上传GEO的看客们忍忍啊,这边步骤基本一样):




注意:新建的话,一定填写您常用的邮箱和基本信息,以免影响上传后的客服及时跟您沟通。


注册成功后回到主页:



下拉框中选择“GEO Datasets”或者“GEO Profiles”,再点击“search”。



点击“submit to GEO”提交数据通道。


如果对上传数据有了一定的了解,或是再次上传的,在准备工作做好的情况下,可以直接点击“GEOarchive”后面的“Submit”(如下图)



初次上传测序数据,请点击“high-throughputsequence submissions”:


在弹出的新的界面里,我们可以了解到在GEO数据中需要上传的数据类型和他们是如何管理审核的。



在上面的界面上往下滚动鼠标,了解数据可以通过两种格式上传:



以及如果用GEOarchive需要准备的数据内容,分别为Metadata spreadsheet、processed data file和Raw data file。鼠标再往下滚动就是对这三种数据进行详细的解说,以及不同平台的测序数据所要准备raw data的样板类型和由于raw data file通常比较大,正对不同操作系统的上传方式(页面篇幅太大,我就不截屏了,大家可以自行上网see)。


简单的介绍了上传准备数据前需要了解的信息,下面就需要我们动起来:

以GEOarchive格式为例,先下载Metadata spreadsheet,仍然在刚才的界面上:



另存到本机硬盘中,打开表格(跟芯片上传表格有点类似):



表格中内含三个子表,第一个是我们需要填写的表格,后面两个是案例共参考的。如上图所示

1 SERIES:跟文章相关的内容:标题,摘要,实验设计,参与者;

2 SAMPLES:跟样本信息相关的内容:样本命名,物种来源,特征,及对应的处理数据和原始数据;

3 每列标题上方的三角,鼠标移动到标题会显示出注释。



由于表格篇幅太大,分两个部分介绍:

1 PROTOCOLS:样本的实验准备和文库构建的描述;

2 DATA PROCESSIONG PIPIELINE:数据处理方面的描述,如数据预处理,数据比对,采用的基因组版本等;

3 PROCESSED DATA FLIES:处理后数据的命名,格式,及MD5码;

4 RAW FILES:原始数据的命名,格式,MD5码,平台类型,测序读长及单双向读取;

5 PAIRED-END EXPERIMENTS:如果是双向的,还需要填写双向的原始数据名称,插入片段长度及插入长度的标准偏差。


做到这里可以长舒一口气了,工程完成一半了,要填写的内容已经完成。

下面就是数据上传工作,分两个步骤上传:

1 将PROCESSED DATA FLIES和Metadataspreadsheet一起打包并命名,以便GEO客服更快的找到您的数据进行审核。



由于这个压缩文件不大,可以通过之前显示过得“GEOarchive”界面:


点击“submit”



选择压缩文件,上传类型,以及释放日期。

点击“submit”后,网页会不停的刷新,根据数据大小,刷新的时间不同。


成功后会出现以上网页,同时您的邮箱中也会接收到正式邮件,如果不成功,GEO客服也会以邮件形式告诉您,数据需要补充的内容。


1 将RAW DATA FILES上传,一般测序的原始数据都比较大,在线上传比较慢,而且会断点,推荐用NCBI推荐的FTP上传。

根据自己熟悉操作系统,安装FTP软件,填写连接地址,用户名和密码,进行数据上传。

友情提醒:在GEO给你的地址文件夹中最好新建一个自己命名的文件,将原始数据上传到这个文件夹中。这个FTP地址是一个公共的上传地址,你在传,别人也在传,这茫茫数据海中,谁知道哪个是你的数据啊,而且NCBI会不定时的清理上传不全的数据。为了你能实时观察您数据上传情况,和即使上传未完成,可以email给GEO客服暂时不要清理某个文件夹中的数据,所以最好新建一个文件夹。


所有上传任务完成后,还需要给GEO客服写一封信,通知他们您有一份上传数据,并让他们尽快发布:

这一步的作用是提醒GEO客服,需要正式发布的数据。


信件内容,首先说明此次上传的测序数据类型,存放的压缩包名字,上传的账户,以及压缩包里包含的数据内容,分别通过什么途径上传的。

一般大约4,5个工作日,经GEO审核,数据没有问题,他们会以邮件形式告诉您数据的检索号,您就可用于准备发表的文章中。


伯豪专业服务

成就科学发现

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多