分享

超友好的TCGA数据下载方式!

 闲书5mg7dd8c1w 2019-02-02

TCGA数据库可以说是研究分析中必不可少的一部分,数据目前在官网的下载方式虽说不难,但是整合起来还是叫人头大!不善于编程的小编被他整整折磨了一天也可以说是毫无进展!!!在摔电脑的边缘疯狂试探......

可是小编不能放弃,在崩溃的同时到处寻找解决办法,于是找到了一个R包--TCGAbiolinks,它是GDC官方推荐了一款第三方工具,通过GDC官方API下载数据,保证数据的及时性和准确性,同时也提供数据整理、聚类分析、差异分析、富集分析等功能。看上去还不错,小编就自己对下载数据初步尝试了一番~


首先是TCGAbiolinks的安装和加载,TCGAbiolinks对于R的版本要求较高,建议在3.4以上的版本进行

#安装
source('https://bioc./biocLite.R')
biocLite('TCGAbiolinks')
#加载
library(TCGAbiolinks)

1、表达谱数据

#可以下载三种形式的数据,如'HTSeq - Counts','HTSeq - FPKM-UQ','HTSeq - FPKM'
query <- GDCquery(project = 'TCGA-GBM',##对应癌症
                  data.category = 'Transcriptome Profiling',
                  data.type = 'Gene Expression Quantification',
                  workflow.type = 'HTSeq - FPKM-UQ'##对应数据形式'HTSeq - Counts','HTSeq - FPKM'
                  )
GDCdownload(query)
data <- GDCprepare(query)

2、甲基化数据

#'Illumina Human Methylation 450','Illumina Human Methylation 27'
query<- GDCquery(project = 'TCGA-GBM',
                 legacy = TRUE,data.category = 'DNA methylation',
                 platform ='Illumina Human Methylation 450')
GDCdownload(query)
data<-GDCprepare(query)

#甲基化idat文件
query <- GDCquery(project = 'TCGA-GBM',
                  data.category = 'Raw microarray data',
                  data.type = 'Raw intensities',
                  experimental.strategy = 'Methylation array',
                  legacy = TRUE,
                  file.type = '.idat',
                  platform = 'Illumina Human Methylation 450')
GDCdownload(query)
data<-GDCprepare(query)

3、miRNA

query = GDCquery(project = 'TCGA-GBM',
                 data.category = 'Transcriptome Profiling',
                 data.type = 'miRNA Expression Quantification')
GDCdownload(query)
data<-GDCprepare(query)

4、拷贝数变异

query <- GDCquery(project = 'TCGA-GBM',
                  data.category = 'Copy Number Variation',
                  data.type = 'Copy Number Segment')
GDCdownload(query)
data<-GDCprepare(query)

5、临床数据

clinical <- GDCquery_clinic(project = 'TCGA-GBM',
                            type = 'Clinical',
                            save.csv=TRUE##可以直接写出文件
                            )
select<-c('submitter_id','gender','year_of_birth','days_to_death',
          'vital_status','tumor_grade','tumor_stage')##可以根据列名选择部分输出
clinical_select<-clinical[,select]
write.table(clinical_select,file = 'GBM_clinical.txt',sep='\t',row.names=FALSE)


对于表达谱、甲基化谱、miRNA、拷贝数变异数据,通过上述的操作都可以获得data进行后续分析,当然,我们也可以把这些数据进行保存

#以表达谱为例进行演示,其他同理
library(TCGAbiolinks)
library(SummarizedExperiment)
library(stringr)
setwd('D:/gdc/')#设置工作路径
query <- GDCquery(project = 'TCGA-GBM',
                  data.category = 'Transcriptome Profiling',
                  data.type = 'Gene Expression Quantification',
                  workflow.type = 'HTSeq - FPKM-UQ')
GDCdownload(query)
expdat <- GDCprepare(query)
matrix=assay(expdat)
namecol<-substring(colnames(expdat),1,16)#将'TCGA-14-0736-02A-01R-2005-01'转化成'TCGA-14-0736-02A'这样的形式
colnames(matrix)<-namecol
write.table(matrix,file = 'GBM_expression_FPKM-UQ.txt',sep='\t')#输出文件

这样我们就可以得到类似下图形式的数据

TCGAbiolinks还可以进行对数据进一步的分析,比如差异分析、富集分析等,待小编深入学习下再来介绍~

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多