分享

GEO数据库上传--RNA-seq发文必备技能

 Omicsclass 2018-08-01

GEO数据库是NCBI开发的基因表达数据库,主要接收通过高通量测序、基因芯片等方法获得的基因表达数据。除SRA数据库之外,GEO数据库也是目前文章投递过程中要求进行数据上传的数据库之一

网上关于GEO数据库的上传教程良莠不齐,推荐使用下面的方法快速上传自己的数据到GEO。

第一步 向GEO提交联系信息

正常登录NCBI,如果是首次进入GEO,页面会出现两个选项,如下图:

attachments-2018-04-Rltlirl95adc8fe0b49d6.jpg

对于之前从未上传数据到GEO的同学,请选择第二个选项。

按照要求填写相应的信息,包括注册人员信息和上传者信息,其中最重要的是邮箱信息。填写完毕,管理员会发送通知和链接到你的邮箱。信息填写完毕后会自动登陆GEO。

第二步 创建新提交任务

再次登录进入MY submissions选择new submission,自动跳转进入Subimitting data 界面(下面以高通量测序数据为例进行讲解)选择 High-throughput sequence submissions(如下两图)。

attachments-2018-04-TrKrJJMd5adc908309978.jpgattachments-2018-04-8VXs56HY5adc90908ff4e.jpg

第三步 文件准备

完成上述操作后,页面自动跳转到高通量测序数据上传界面。按照提示准备好三种文件

第一种文件 Metadata spreadsheet主要记录RNA-seq实验的目的、方法、处理过程,以及统计预备上传的所有文件的信息和文件的MD5值等等。网站提供了相应的案例模版(同一页面具有下载链接),此步骤一定要基于模版根据自己实验的实际情况填写所有内容,不可以直接拷贝。模版如下:

attachments-2018-04-otV6aROf5adc90b65f13c.jpg

第二种文件 Processed data files主要是基因表达的数据文件,一般转换成文本格式,可以是多个文件(例如一个样品对应一个文件)也可以是一个文件(多样品数据整合)或者其他的补充文件,包括gff文件等等。这一部分的文件是基于测序的原始数据经处理之后的结果。如果涉及新注释的一些基因的表达数据,则需要提供注释基因的位置信息等(如下图)。attachments-2018-04-IhDHHx5j5adc90d608388.jpg
第三种文件 Raw data files,也就是测序原始数据。一般接受fastq格式(上传fastq压缩文件即可),以及SRA数据库接受的其他格式。

将所有文件整理放置到同一个文件夹内,文件夹名称最好命名为GEO账号的名称

第四步 使用Filezilla上传数据

attachments-2018-04-LqbPWYDN5adc9113a100a.jpg

整理好文件之后准备开始上传。数据上传前需要安装软件Filezilla(可百度可谷歌,so easy)。

需要注意的是,注册GEO之后在上传页面的Uploading your submission 会提供FTP的地址、账号、密码等信息,需要保存备用,例如:

attachments-2018-04-CWJBQWl15adc9135a1913.jpg

在Filezilla输入刚才获得的地址、账号、密码就可以登录ftp,登录后界面如下:

attachments-2018-04-YBSuOZ405adc914ec80e3.png

登陆后在界面的右栏创建一个自己的目录(如下图路径目录/20180124_cici),打开对应的目录,拖动界面左栏准备好的所有文件,直接移动到右栏中(如下图),就开始进行数据的上传了。保证网络正常就可以完成相应的上传工作(如果数据量较大,保证网络正常之外,计算机要保证不能出现休眠等停止工作的情况)。
attachments-2018-04-qSnuLMUG5adc9164a8135.png

第五步 给GEO管理员发邮件

最后一步就是给GEO数据库的管理者发邮件。网站明确要求了邮件的内容:

attachments-2018-04-zbdD8cmd5adc91a298b9b.jpg

第一项是介绍清楚自己的GEO登录账号名称

第二项是上传数据的路径和所有文件的名称。路径是Filezilla上传的路径,如上图注明的路径(创建的目录加上上传的文件夹名称)。

该路径下的所有文件必须一一列举并注明类型。所有文件和Metadata spreadshee统计的数据文件一致包括Processed data files 和Raw data files)。

第三项是说明数据释放日期,如有延后需要注明,但最多不超过三年。

Over

完成以上工作,坐等管理员的答复邮件就可以了。如果数据存在问题,工作人员会提示如何修改,完成处理之后会在邮件中给出GEO的Accession Number。到此,恭喜你完成了所有的上传工作,利用这个登录号就可以查询到上传的数据内容,也可以在文章中引用这个ID进行数据的解释。

更多生物信息课程:

1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程基因家族文献思路解读

2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读转录组(无参)结果解读

3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析

4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘转录组文献解读

5. 微生物16S/ITS/18S分析原理及结果解读OTU网络图绘制cytoscape与网络图绘制课程

6. 生物信息入门到精通必修基础课,学习链接:linux系统使用perl入门到精通perl语言高级R语言画图

7. 医学相关数据挖掘课程,不用做实验也能发文章,学习链接:TCGA-差异基因分析GEO芯片数据挖掘GSEA富集分析课程TCGA临床数据生存分析TCGA-转录因子分析TCGA-ceRNA调控网络分析

8.其他课程链接:二代测序转录组数据自主分析NCBI数据上传二代测序数据解读

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多