GEO专题 | 高通量测序数据的GEO上传攻略！

生物_医药_科研 2019-10-15

展开全文

最近有客户咨询测序数据的GEO数据上传问题，问题都比较细，今天小编主要针对高通量片数据如何上传整理了一份操作指南。有需要的小伙伴可以参考一下！

高通量数据的上传主要有两种途径，一时上传到NCBI的GEO数据库，二是上传至NCBI的SRA数据库，这里我们主要介绍前者。客户在我们公司做完高通量测序后，从我们这里得到两部分结果：1是原始文件（fastq）；2是下游分析结果（其中包括所有基因在所有样本的表达值，即FPKM表格）。

有了这些数据，下面我们就来看看具体如何操作.........

一. 首先打开NCBI(https://www.ncbi.nlm./

)，注册或直接登录NCBI，小编我已有账号，直接登录即可。

NCBI登录成功后，进入GEO主页（https://www.ncbi.nlm./geo/），然后点击 My GEO Profile，得到如下界面：

二. 点击New Submission后，得到如下界面，点击

Submit high-throughput sequencing

进入如下界面，红色标记部分说明需要上传三类文件：

1. Metadata spreadsheet：上传所需要填写的表格，细节较多，后面详细介绍

2. Processed datafiles：所有基因在所有样本中的表达量文件，也就是FPKM，该信息位于差异分析结果中all_gene sheet表格中，提取其中基因id和各样本的FPKM值，另存各个样本的txt文本，如sample1.txt、sample2.txt,sample3.txt,sample4.txt,sample5.txt,sample6.txt......。大家根据自己实际样本进行命名，同时保证与Metadata spreadsheet和Raw data中的样本命名要一致。

整理好的文件如下：以下命名小编我随机写的，大家需根据自身样本进行命名，然后将其放置到命名为Processed data的文件夹中。

3. Raw data files：原始的测序数据fastq（一般指的是过滤后的clean data）,这部分数据也会以硬盘拷贝的方式给到客户，每个样本会有两个fastq文件（双端测序）。

将所有样本的fastq文件提取出来，放置到新的raw data文件夹中。

备注：Processed datafiles和Raw data files公司会直接提供给客户，因此客户主要需要完成 Metadata spreadsheet表格的填写！

三. 下拉结果，得到如下界面，第一个红框中列出了上传所需要的Metadata spreadsheet文件 ，点击下载（https://www.ncbi.nlm./geo/info/examples/seq_template_v2.1.xls）

下载完成后打开Metadata spreadsheet execl表格，如下所示：sheet1为需填写部分，sheet2和sheet3是两种参考案例。

Metadata spreadsheet execl表格主要分七块：

SERIES：跟文章相关的内容：标题，摘要，实验设计，参与者（根据自己情况填写）
SAMPLES：跟样本信息相关的内容：样本名称，物种，特征，及对应的表达值数据和原始数据；
PROTOCOLS：样本的实验准备和文库构建的描述；
DATAPROCESSINGPIPELINE:数据处理方面的描述，如数据预处理，数据比对，采用的基因组版本等；
PROCESSEDDATAFILES:处理后数据名称，格式，及MD5码。即FPKM文件，其中file type一列可以统一写成abundance measurements。file checksum列即为MD5码（MD5码生成软件可以直接百度下载，比如winmd5free这款软件）。
RAWFILES:原始数据名称，格式，MD5码，平台类型，测序读长及单双端信息；
PAIRED-END EXPERIMENTS:如果是双端测序，还需要填写双端原始数据的名称，插入片段长度及插入长度的标准偏差。

★★★ 若是觉得填写上表有困难，可参考公司提供的模板（链接：https://pan.baidu.com/s/1ThcBZJS2eKECZNSvj5KaIQ 提取码：7zkh）。此外也可登录GEO网站去参考其他上传者的写法！

四、在完成Metadata spreadsheet、Processed data files和Raw data files三类文件的准备工作后，就可以上传数据了。下拉至如下界面，点击Transfer Files，

得到如下界面，点击FTP server credentials

得到如下界面，网站给我们提供了上传策略。由于数据较大，需要借助上传工具，网站给我们推荐了FileZilla软件并附下载链接（https:///download.php?show_all=1），同时为我们提供了FileZilla软件登录GEO服务器所需要的主机名、用户名和密码，具体如下：

host：ftp-private.ncbi.nlm.

username：geo

password：33%9uyj_fCh?M16H

接下来，下载Filezilla软件并安装，然后在Filezilla中输入主机地址（ftp-private.ncbi.hlm.），用户名（GEO）和密码（33%9uyj_fCh?M16H），即连接GEO数据库进行上传了。

上传之前，需要对Filezilla软件中某些参数进行设置，点击菜单栏上的编辑——设置——连接——最大重试次数调至99，同时编辑——设置——对已存在文件的操作——下载/上传均调为继续文件传输。以上设置主要是为防止上传/下载中断以便下次可在已下载基础上继续上传/下载。

从本地站点找到以上准备好的文件，如下：包括raw data、Processed data 、Metadata spreadsheet，

接着，在远程站点的根目录下（/），新建文件夹，命名为GEO_submit_日期_GEO用户名，如下：

然后，将本地资料拖拽到新建的目录下，进行上传。上传结束后，可点击Notify GEO，提醒GEO后台人员上传完成，可以进行审核。

当然，如果不嫌麻烦的小伙伴，可以写邮件把自己的上传的信息解释清楚，GEO后台人员能更清楚的了解信息结构。具体可参考如下写法：

Dear sir,

We had finished the raw data uploading. Please check according to the following information:

GEOaccount：你的GEO用户名

Path of the directory deposited：GEO_submit_日期_GEO用户名

Public release date；例如2019/10/11（根据情况填写数据需要公开的日期）

1. row data files were named as follows:

Samle1_1.fq.gz
Samle1_2.fq.gz

Samle2_1.fq.gz
Samle2_2.fq.gz
Samle3_1.fq.gz
Samle3_2.fq.gz
Samle4_1.fq.gz
Samle4_2.fq.gz
Samle5_1.fq.gz
Samle5_2.fq.gz
Samle6_1.fq.gz
Samle6_2.fq.gz

..................

2. processed data files were named as follows:

sample1.txt

sample2.txt

sample3.txt

sample4.txt

sample5.txt

sample6.tx

......

3. Metadata template was named as:

Metadata spreadsheet.xls

五、审核发布

接下来两天内应该会收到邮件，如果上传成功就会给你GEO的登录号，不然也会告诉你哪里有错误，需要重新修改。上传成功或者数据有问题GEO都会以邮件的形式进行通知。一般约2,3个工作日，经审核数据没有问题，GEO会以邮件形式通知数据的GSM（实验样本编号）、GSE（研究项目编号）。

北京中康博生物科技有限公司（beijing Cnkingbio Biotechnology Co.LTD）是北方乃至全国最大的Affymetrix检测中心之一，公司以数据分析为特色，整合Affymetrix基因芯片、Illumina二代测序、个性化生物信息分析三项核心服务。立足生命科学，为临床与基础研究领域的科学工作者提供分子生物学高端技术服务。