高通量测序,例如多样性、宏基因组、基因组、转录组等获得的原始数据包括fastq、bam、h5等。目前,越来越多的SCI期刊要求Paper发表时,提供原始数据在公共数据库的登录号。公共数据库NCBI(national center for biotechnology information)中的SRA(Sequence Read Archive)数据库,就是专门收录原始数据的数据库。 由于测序平台不同,所产出的原始数据格式亦有不同。这里我们以 Illumina 测序平台产出的 fq 格式的原始数据为例进行演示。 步骤一:进入 NCBI 首页,注册账号并激活,登陆 NCBI 步骤二:进入数据上传页面,选择 SRA 数据库 步骤三: 点击 New submission,新建上传 步骤四:填写上传者个人信息,带 * 的必填,Continue 下一步 步骤五:确定是否已新建 Bioproject、Biosample 及数据释放时间(由于 NCBI 的页面会不定期更新,请老师仔细阅读选项内容进行选择,此处选择没有 Bioproject、Biosample, 并设定数据释放日期),Continue 下一步 步骤六:填写项目信息(标题与描述),带*的必填,Continue 下一步 步骤七:选择 Biosample 类型(以动物样本为例),Continue 下一步 步骤八:完善 Biosample 信息 1、网页在线编辑2、上传表格文件步骤九:完善 Metadata 信息(类比Biosample 信息填写) 1、网页在线编辑2、上传表格文件3、表格参数选填(仅供参考) *注:instrument_model信息请与测序公司确认步骤十:上传数据 单端测序的要求每个样本对应一个 fq 文件,双端测序的要求每个样品对应 2 个 fq 文件 1、网页 http 上传2、软件 Aspera 下载 3、软件 Aspera 上传 完整命令演示: 步骤十一:检查信息填写是否正确并进行提交 步骤十二:查看 SRA 号用于文章发表 |
|