分享

GEO专题 | 高通量测序数据的GEO上传攻略!

 生物_医药_科研 2019-10-15

最近有客户咨询测序数据的GEO数据上传问题,问题都比较细,今天小编主要针对高通量片数据如何上传整理了一份操作指南。有需要的小伙伴可以参考一下!

高通量数据的上传主要有两种途径,一时上传到NCBI的GEO数据库,二是上传至NCBI的SRA数据库,这里我们主要介绍前者。客户在我们公司做完高通量测序后,从我们这里得到两部分结果:1是原始文件(fastq);2是下游分析结果(其中包括所有基因在所有样本的表达值,即FPKM表格)。

有了这些数据,下面我们就来看看具体如何操作.........

一. 首先打开NCBI(https://www.ncbi.nlm./

),注册或直接登录NCBI,小编我已有账号,直接登录即可。

NCBI登录成功后,进入GEO主页(https://www.ncbi.nlm./geo/), 然后点击 My GEO Profile,得到如下界面:

二. 点击New Submission后,得到如下界面,点击

Submit high-throughput sequencing

进入如下界面,红色标记部分说明需要上传三类文件:

1. Metadata spreadsheet:上传所需要填写的表格,细节较多,后面详细介绍

2. Processed datafiles:所有基因在所有样本中的表达量文件,也就是FPKM,该信息位于差异分析结果中all_gene sheet表格中,提取其中基因id和各样本的FPKM值,另存各个样本的txt文本,如sample1.txt、sample2.txt,sample3.txt,sample4.txt,sample5.txt,sample6.txt......。 大家根据自己实际样本进行命名,同时保证与Metadata spreadsheet和Raw data中的样本命名要一致。

整理好的文件如下:以下命名小编我随机写的,大家需根据自身样本进行命名,然后将其放置到命名为Processed data的文件夹中。

3. Raw data files:原始的测序数据fastq(一般指的是过滤后的clean data),这部分数据也会以硬盘拷贝的方式给到客户,每个样本会有两个fastq文件(双端测序)。

将所有样本的fastq文件提取出来,放置到新的raw data文件夹中。

备注:Processed datafiles和Raw data files公司会直接提供给客户,因此客户主要需要完成 Metadata spreadsheet表格的填写!

三. 下拉结果,得到如下界面,第一个红框中列出了上传所需要的Metadata spreadsheet文件 ,点击下载(https://www.ncbi.nlm./geo/info/examples/seq_template_v2.1.xls)

下载完成后打开Metadata spreadsheet execl表格,如下所示:sheet1为需填写部分,sheet2和sheet3是两种参考案例。

Metadata spreadsheet execl表格主要分七块:

  1. SERIES:跟文章相关的内容:标题,摘要,实验设计,参与者(根据自己情况填写)

  2. SAMPLES:跟样本信息相关的内容:样本名称,物种,特征,及对应的表达值数据和原始数据;

  3. PROTOCOLS:样本的实验准备和文库构建的描述;

  4. DATAPROCESSINGPIPELINE:数据处理方面的描述,如数据预处理,数据比对,采用的基因组版本等;

  5. PROCESSEDDATAFILES:处理后数据名称,格式,及MD5码。即FPKM文件,其中file type一列可以统一写成abundance measurements。file checksum列即为MD5码(MD5码生成软件可以直接百度下载,比如winmd5free这款软件)。

  6. RAWFILES:原始数据名称,格式,MD5码,平台类型,测序读长及单双端信息;

  7. PAIRED-END EXPERIMENTS:如果是双端测序,还需要填写双端原始数据的名称,插入片段长度及插入长度的标准偏差。

★★★ 若是觉得填写上表有困难,可参考公司提供的模板(链接:https://pan.baidu.com/s/1ThcBZJS2eKECZNSvj5KaIQ 提取码:7zkh)。此外也可登录GEO网站去参考其他上传者的写法!

四、在完成Metadata spreadsheet、Processed data files和Raw data files三类文件的准备工作后,就可以上传数据了。下拉至如下界面,点击Transfer Files,

得到如下界面,点击FTP server credentials

得到如下界面,网站给我们提供了上传策略。由于数据较大,需要借助上传工具,网站给我们推荐了FileZilla软件并附下载链接(https:///download.php?show_all=1),同时为我们提供了FileZilla软件登录GEO服务器所需要的主机名、用户名和密码,具体如下:

host:ftp-private.ncbi.nlm.    

username:geo    

password:33%9uyj_fCh?M16H    

接下来,下载Filezilla软件并安装,然后在Filezilla中输入主机地址(ftp-private.ncbi.hlm.),用户名(GEO)和密码(33%9uyj_fCh?M16H),即连接GEO数据库进行上传了。

上传之前,需要对Filezilla软件中某些参数进行设置,点击菜单栏上的编辑——设置——连接——最大重试次数调至99,同时编辑——设置——对已存在文件的操作——下载/上传均调为继续文件传输。以上设置主要是为防止上传/下载中断以便下次可在已下载基础上继续上传/下载。

从本地站点找到以上准备好的文件,如下:包括raw data、Processed data 、Metadata spreadsheet,

接着,在远程站点的根目录下(/),新建文件夹,命名为GEO_submit_日期_GEO用户名,如下:

然后,将本地资料拖拽到新建的目录下,进行上传。上传结束后,可点击Notify GEO,提醒GEO后台人员上传完成,可以进行审核。

当然,如果不嫌麻烦的小伙伴,可以写邮件把自己的上传的信息解释清楚,GEO后台人员能更清楚的了解信息结构。具体可参考如下写法:

Dear sir,

We had finished the raw data uploading. Please check according to the following information:

GEOaccount:你的GEO用户名

Path of the directory deposited:GEO_submit_日期_GEO用户名

Public release date;例如2019/10/11(根据情况填写数据需要公开的日期)

1. row data files were named as follows:

Samle1_1.fq.gz
Samle1_2.fq.gz

Samle2_1.fq.gz
Samle2_2.fq.gz
Samle3_1.fq.gz
Samle3_2.fq.gz
Samle4_1.fq.gz
Samle4_2.fq.gz
Samle5_1.fq.gz
Samle5_2.fq.gz
Samle6_1.fq.gz
Samle6_2.fq.gz

..................

2. processed data files were named as follows:

sample1.txt

sample2.txt

sample3.txt

sample4.txt

sample5.txt

sample6.tx

...... 

3.  Metadata template was named as: 

Metadata spreadsheet.xls

五、审核发布

接下来两天内应该会收到邮件,如果上传成功就会给你GEO的登录号,不然也会告诉你哪里有错误,需要重新修改。上传成功或者数据有问题GEO都会以邮件的形式进行通知。一般约2,3个工作日,经审核数据没有问题,GEO会以邮件形式通知数据的GSM(实验样本编号)、GSE(研究项目编号)。

北京中康博生物科技有限公司(beijing Cnkingbio Biotechnology Co.LTD)是北方乃至全国最大的Affymetrix检测中心之一,公司以数据分析为特色,整合Affymetrix基因芯片、Illumina二代测序、个性化生物信息分析三项核心服务。立足生命科学,为临床与基础研究领域的科学工作者提供分子生物学高端技术服务。



    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多