中国核酸数据库GSAhttps://bigd./gsub/ GSA 数据模型为确保与国际同类数据库系统的兼容性,GSA遵循INSDC联盟的数据标准,GSA元数据类别主要包括项目信息(BioProject,归档于生物项目数据库)、样本信息(BioSample,归档于生物样本数据库)、实验信息(Experiment)、以及测序反应(Run)信息。项目信息是用来描述所开展研究的目的、涉及物种、数据类型、研究思路等信息;样本信息是指本研究涉及的生物样本描述,如样本类型、样本属性等;实验信息包括实验目的、文库构建方式、测序类型等信息;测序反应信息包括测序文件和对应的校验信息。各类数据之间采用线性、一对多的模式进行关联,从而形成“金字塔”式的信息组织与管理模式(图1)。 数据触发机制说明数据发布时,相关的BioProject、BioSample与GSA数据集遵循以下触发机制(图5):
因此,请慎重填写BioProject、BioSample与GSA “发布时间”,一旦发布就代表数据或信息可供其他用户公开检索或下载。 发布策略和免责声明
如何提交数据到GSA?注册用户可通过中心生物数据统一汇交入口——生物数据递交系统(BIG Submission,BIG Sub,https://bigd./gsub/)进行一站式数据递交,具体步骤请查阅GSA使用说明。 下面我使用自己的数据来演示如何提交二代测序数据 第一步:注册账户如何开始提交数据?账户注册完成后,您可遵循以下原则进行数据信息录入: 这里没有什么注意的,只是填写的信息比较多,我们选择性的将带有号的信息填写上就可以了,注意全部为英文。 第二步:进入GSA数据库创建GSA这里主要有三个步骤:
1. 创建项目(BioProject)如果您之前没有创建项目(BioProject)请进入 BioProject 数据库完成创建:
2. 创建样本(BioSample)如果您之前没有创建样本(BioSample)请进入 BioSample 数据库完成创建:
这里我认为直接看文件的解释就够了,因为都是中文的:但是为了避免大家出问题,我重点说一下这几个列:geographic_location:采样地点,这个一定要按照要求填写,例如:China: Nanjing;还有:latitude_longitude是经纬度例如32.03N 118.84E; 样本注解:env_broad_scale,这里我是土壤,所以套入格式:soil [ENVO:00002007]
3. 构建GSA数据集完成 GSA数据集中Experiment和Run的元数据信息录入——实现与BioProject、BioSample和数据文件的相互关联。通过FTP完成数据文件上传。
这里重点是填写序列信息,不同于NCBI的是这一步一共有两张sheet,第一张是:试验,第二章是run 首先我们填写第一张sheet:这里需要注意的就没什么了,只要你阅读完填表之前的子基本没什么问题: 其次我们填写第二章sheet: 这里需要注意我们上传的必须是压缩文件;其次必须有MD5值:这里为了保证流程的顺畅,我将这些步骤的操作方法附在后面,大家可以尝试:
注: 数据追踪由于GSC数据库管理员需要审核数据,所以一般需要等待两三天,我这批项目在过年上传的,所以等待的时间相对较长,在前天,管理员发来邮件告诉我数据MD5值不匹配。一下是邮件内容: Dear Tao Wen, 自己追溯了我的流程,错误是由于计算MD5值的文件是fq,但是上传的是压缩文件,也就是说文件的压缩也会影响MD5值。 所以我删除GSA项目后重新填写上传了一份修改后的文件。 在第二天就确认成功了,发过来 邮件 Dear Tao Wen, 引用格式这一套工作做完后我们就可以引用了,参考刘老师NBT引用格式: Raw sequence data reported in this paper have been deposited (PRJCA001214) 注意:引用如下文章:Members, B. I. G. D. C. Database resources of the BIG Data Center in 2018. 附录计算MD5值官方推荐不同平台使用的工具
本来我在win上操作,所以就下载了winmd5free,但是只能一次压缩一个文件,这样我就不想用了。但是在家里没有linux平台,远程还需要传输数据,所以我就选择了xshell,这个工具已经集成进去了,我们可以直接使用,并且可以使用通配符,我们一起搞定啦。 压缩fq文件中国核酸数据库需要提供压缩文件的fq格式文件上传,此时我继续使用bshell工具,一条命令:gzip -c B80-1.R1.fq > B80-1.R1.fq.gz,但是我有好多,需要写个循环: for tar in *.fq;do echo ${tar}; gzip -c ${tar} > ./${tar}.gz; done 提交数据文件如何命名?对于提交FASTQ格式的数据,每一个RUN包含文件数请不要超过两个,即单端测序数据(Fragment)RUN文件数为一个,双端测序数据(Paired-end)RUN文件数为两个(通常单个文件不要超过10GB)。Fragment数据以单个文件上传,务必写全名称(包括文件后缀名),如:DRT_10107_1.clean.fq.gz。对于Paired-end数据,请把两个数据放在同一个Run里面,务必写全名称(包括文件后缀名),并用F和R在文件名中做标记,例如,用F和R在文件名中做标记, DRT_10107_F.clean.fq.gz;DRT_10107_R.clean.fq.gz。 完成之后我看到对文件命名 是有要求的,所以我进行文件名的批量修改,这里由于shell我命不熟悉,所以我写了R脚本进行文件名的修改: # 提取文件夹下的文全部件名称 ftp提交数据如何通过FTP连接到GSA的服务器? 请使用 FTP客户端软件(比如 FileZilla Client)登录 FTP 服务器。请采用二进制模式上传,如果是用FTP软件上传,请参考软件说明进行设置;如果是用FTP指令上传,请在“mput”指令前,先运行“binary”指令。 FTP服务器地址:submit. 用户账号与BIG sub账号一致。如果不知道是什么?直接到自己的profile下去查看: 注意:用户登录自己的FTP路径后,先cd 到 /GSA目录下再上传文件。
|
|