分享

有了这个数据上传指南,您再也不用找公司帮忙,自己也能分分钟搞定

 昵称70100404 2020-07-20
数据上传需要提交各种类型的数据、表格和资料,过程比较繁琐,今天小编为大家整理了一份详细的数据上传指南,每一步都有详细的说明,一看就会,再也不用担心数据上传。
GEO数据库全称GENE EXPRESSION OMNIBUS,成立于2000年,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库,主要收录高通量基因表达数据。除SRA数据库之外,GEO数据库也是目前文章投递数据上传的数据库之一。以下主要介绍RNA-seq和ChIP-seq的上传流程。
01
注册账号

https://www.ncbi.nlm./geo/submitter/

首先需要注册一个NCBI,GEO账号,如果已经有账号,可以直接点击登录。

https://www.ncbi.nlm./geo/info/submission.html

02
数据准备

需要准备的上传数据有三种文件:

2.1
 Metadata spreadsheet

该文件是关于整个研究中样本和实验的相关信息,网页中有该表格的下载链接。

2.1.1 SERIES

主要包含文章的标题、概述、实验整体设计、共同作者、补充材料和SAR号(SRA号为选填,如果已经上传了SRA,则填上,否则空着即可)。此项需要填写的稍微详细一点,不然后面GEO可能发邮件要求补充abstract。

2.1.2 SAMPLE

样品的详细信息,包括样品名称、来源、器官、年龄、表达值数据和原始数据等,如果是ChIP-seq,还需要提供相关的抗体信息。

2.1.3 PROTOCOLS

样品的实验和提取建库详细信息。

2.1.4 DATA PROCESSING PIPELINE

数据处理步骤,参考基因组详细信息。

2.1.5  PROCESSED DATA FILES

RNA-seq或者ChIP-seq等实验,通常需要提供一些额外的数据文件,比如基因表达量,基因信号文件和MD5(用来核实真伪)等。
关于md5有很多在线软件可以直接生成,我们提供其中一种,老师可以自行下载。(百度网盘链接:https://pan.baidu.com/s/1k3PJXxUnYB30S0u0IZCiSA,提取码:82p8)

2.1.6 RAW FILES

原始数据详细信息

2.1.7 PAIRED-END EXPERIMENTS

双端测序序列详细信息,此项可不填。
2.2
 Processed data files
经过处理的数据是GEO提交的必要部分,GEO会审核客户上传的处理过的数据,以此来检验相关文章结论的真实可靠性。RNA-seq可以上传基因表达量文件,ChIP-seq可以上传WIG, bigWig, bedGraph等,不过由于是中间文件,该部分内容没有完全固定的格式。
2.3
 Raw data files

原始数据一般采用FASTQ格式,另外SRA数据库接受的其他格式也是可以的(https://www.ncbi.nlm./sra/docs/submitformats/)。

准备好所有数据之后选择Uploading your submission:

03
数据上传

数据上传,小编推荐FileZilla(https:///可以先在此处下载)。打开FileZilla,主机(H) 框填写上图第一关键信息中host对应的内容ftp-private.ncbi.nlm.,用户名(U)填写geoftp,密码填写 rebUzyi1(此项可能不定期更新),端口号可不填,全部填好后,点击快速连接按钮。

3.1 连接成功后,在远程站点输入GEO提供的数据上传路径(上图中的第二关键路径),在此路径下创建自己的文件,例如ChIP-seq,将本地站点中需要上传的数据从左边本地路径拖入右下角的方框内。

3.2 快速连接后,也可能显示“错误:读取目录列表失败”,此时可忽略该项,直接在远程站点输入数据存放路径,然后回车。然后同样将本地站点中需要上传的数据拖入FileZilla右下角的方框内即可。

注意:使用FileZilla上传要注意进行相关设置,如果网络不好,可能会一直中断,导致上传失败。选择导航栏中的“传输”,选择“对已存在文件的默认操作”。在设置界面,对上传选择“继续文件传输”。

 
04
通知GEO数据上传完成

数据上传完成后,需要通过以下方式通知GEO:

也可以给GEO(geo@ncbi.nlm.)发送邮件,邮件内容可以参考下方:

邮件主题:Submitting high-throughput sequence data to GEO

邮件正文:

Dear sir,

We had finished the raw data uploading .Please check according to the following information :GEO account username: GEO账号Names of the directory and files deposited: (存放数据的路径)Public release date :数据释放日期Our raw files were named as follows: XXX.fq.gzOur Processed data files were named as follows: XXX.txtand Metadata spreadsheet were named as follows: Metadata_spreadsheet.xls

Thank you again for your time!

一般GEO第二天就会回复邮件,告知具体的GEO号。

看了上面如此详细的上传流程,大家学会了没有呢?

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多