一般的文章里面会给出数据地址,如下:根据文章的GSE号进入GEO数据库里面,就可以看到其对应的SRA数据库ID号。 https://www.ncbi.nlm./geo/query/acc.cgi?acc=GSE84498 看到如下: 层级结构是:SRP(项目)—>SRS(样本)—>SRX(数据产生)—>SRR(数据本身)
首先是SRP开头的ID一般的文章如果提到其数据上传到了SRA数据库,那么就会给出SRP开头的ID,比如: The sequencing data have been deposited in the NCBI Sequence Read Archive (SRA) database under the accession code SRP078156. 第一步就是去SRA数据库里面查询:https://www.ncbi.nlm./sra?term=SRP078156 可以看到这个数据集有276个数据。 然后查看该project有哪些数据链接:https://www.ncbi.nlm./Traces/study/?acc=SRP078156 可以看到该项目包含的数据多少,以及下面的信息: BioProject:PRJNA327548 BioSampleModel:Human Consent:public InsertSize:0 Organism:Homo sapiens SRA Study:SRP078156 总共有 1.53 Tb 的数据,有点大。 然后看PRJNA开头的ID进入链接:https://www.ncbi.nlm./bioproject/PRJNA327548 等同于 SRP开头的 可以看到发表的文章,以及涉及到的样本。 这个实验共50个样本 然后进入每个样本链接:https://www.ncbi.nlm./sra?term=SAMN05341212 等同于SRS开头的ID 可以看到每个样本都有6个不同的数据,如下: RNA-Seq of OSCC patient: OSCC 1 ILLUMINA (NextSeq 500) run: 35.5M spots, 10.7G bases, 3.9Gb downloads
RNA-Seq of OSCC patient: adjacent normal 1 ILLUMINA (NextSeq 500) run: 37.9M spots, 11.5G bases, 4.3Gb downloads
Whole-exome sequencing of OSCC patient: OSCC 1 ILLUMINA (Illumina HiSeq 2000) run: 123.6M spots, 25G bases, 10.2Gb downloads
Whole-exome sequencing of OSCC patient: PBMC 1 ILLUMINA (Illumina HiSeq 2000) run: 114.1M spots, 23G bases, 9.5Gb downloads
Targeted gene sequencing of OSCC patient: OSCC 1 ION_TORRENT (Ion Torrent Proton) run: 20.5M spots, 2.3G bases, 1.2Gb downloads
Targeted gene sequencing of OSCC patient: PBMC 1 ION_TORRENT (Ion Torrent Proton) run: 20.1M spots, 2.3G bases, 1.2Gb downloads
接着进入SRX开头每个数据描述每个样本有6个数据,还可以再进入每个数据,查看详情:https://www.ncbi.nlm./sra/SRX1922019 最后进入以SRR开头的数据本身链接是:https://trace.ncbi.nlm./Traces/sra/?run=SRR3820386 有些样本数据缺失我根据构造的ftp链接下载了一个项目,共276个数据,但是有2个数据是缺失的,我仔细检查了一下: https://trace.ncbi.nlm./Traces/sra/?run=SRR3943893 https://www.ncbi.nlm./sra/SRX1969880 ftp://ftp-trace.ncbi./sra/sra-instant/reads/ByRun/sra/SRR/SRR394/SRR3943893 发现的确是没有,但是另外的274个样本又都没有问题, 看样子根据构造的ftp链接下载sra文件的方法可能要过时了,wget本来就慢,现在还出错,好尴尬。 但是,还好有prefetch ~/biosoft/sratoolkit/sratoolkit.2.8.2-1-centos_linux64/bin/prefetch SRR3943893 prefetch下载的数据一般存放在 |
|