前面我讲到TCGA的数据可以在5个组织机构可以获取,他们都提供了类似的接口来供用户下载数据 每个接口都有使用教程,比如http:///tutorial/FireBrowse-Tutorial.pdf 非常详细!!! 有的还专门写了软件接口:https://confluence./display/GDAC/Download 或者写了R的接口:http://www./cgds_r.jsp 接下来我们要讲的就是cbioportal网站提供的一个R接口,非常好用,只需记住4个函数即可!!! 只需熟记getCancerStudies,getCaseLists,getGeneticProfiles,getProfileData需要什么参数以及它们返回了什么对象即可! install.packages("cgdsr",repos="http://cran.us.") 第一个函数就是获取我们的cbioportal网站里面存储的关于TCGA的研究项目列表(每个study都是一篇文章),至今有126个(2016年7月12日21:37:40) 具体的文章可以见:https://tcga-data.nci./docs/publications/ 前面我下载过胃癌的RNA表达数据,我们这里可以验证一下: 我这里用R来下载一次看看 stad2014 <- "stad_tcga_pub" ##这篇文章里面的数据 ## 获取在stad2014数据集中有哪些样本列表, all_tables <- getCaseLists(mycgds, stad2014) dim(all_tables) ## 我们需要验证一下下载的mRNA表达量数据,所以我们选择下面这个样本列表 my_table <- "stad_tcga_pub_rna_seq_v2_mrna" ## 而后获取有哪些数据可以下载 all_dataset <- getGeneticProfiles(mycgds, stad2014) my_dataset <- 'stad_tcga_pub_rna_seq_v2_mrna' ##然后我们选择下载mRNA数据 BRCA1 <- getProfileData(mycgds, "BRCA1", my_dataset, my_table) ## 根据my_table这个样本列表来下载my_dataset这种数据 ##还可以下载临床数据来对比 getClinicalData(mycgds, my_table) ##临床数据经常下载失败,不知道为什么 拿到的数据,就可以与之前在TCGA官网里面下载的数据比较啦!! 但是下面的链接已经失效啦!
|
|