【原】伸出我的小脚，将TCGA轻轻绊倒，然后叉腰哈哈笑

健明 2021-07-14

展开全文

之前我们有一篇帖子讲解TCGA数据的下载 TCGA数据下载方式小结

可以先看一下，前面的部分，一直看到GDC（Genomic Data Commons）把数据下载下来就可以了，我们下面就开始处理数据

假设我们已经把数据下载到了这个文件夹

data_download_from_gdc

打开后发现是1208个文件夹，为什么是1208个，这跟我当时学的数据有关系，可以不用管让每个文件夹里面还有个压缩文件，我们现在的任务就是，如何把每个文件夹里面的压缩文件放置在统一的文件夹中假设我们的文件夹是这个,

00_data_read_in_one_file

并且他就是创建在 data_download_from_gdc中，所以现在文件夹的总体数目是应该是1208加1就是1209个我们在R语言中输入

length(list.files())

这个命令中list.files()的意思就是列举当前工作目录中文件，length的意思就是有有多少个，一看，果真是1209个其实

length(dir())

这个命令也能做这个事情。为什么我的文件夹要起一个这么诡异的名字？以00开头？？

这是因为我需要让他处于文件中第一个位置，我们来验证一下：

dir()[1]

发现第一个文件夹就是他，这样我就每次循环访问后面的1208个文件夹，每次都把看到的东西复制过来就可以了

你说我为什么这么事无巨细，因为我可以很简洁，也可以很啰嗦，取决于我是否想要别人听的懂。

在R语言里面是可以直接创建文件夹的，鼠标右击也可以

dir.create("00_data_read_in_one_file") #创建新的文件夹,确保文件夹排在第一位

遍历和复制,为什么从2开始，因为第一个文件夹你已经知道了

for (dirname in dir()[2:length(dir())]){
file <- list.files(dirname,pattern = "*.counts") #找到对应文件夹中的内容，pattern可以是正则表达式
file.copy(paste0(dirname,"/",file),"00_data_read_in_one_file") #复制内容到新的文件夹
}

运行完了之后，我们可以打开文件夹看一下，确实在里面，这时候可以全部选择，

将文件解压到data_unzip文件夹,解压数据1.42GB，

我们发现即使这个样子，文件的名称也是怪怪的

那我们就来转换，转换的信息藏在metadata文件中，这个要去看开始的那个帖子下载

切换一下工作目录

setwd("~/skill_practice/BRCA_999")

注意一开始我就建立了 BRCA_999这个文件夹， data_download_from_gdc是他的子文件夹， 00_data_read_in_one_file又是 data_download_from_gdc的子文件夹 metadata是json格式的

读入json格式的文件,他是一个1208行，15列的数据框

metadata <- jsonlite::fromJSON("metadata.cart.2017-11-15T09_56_59.722935.json")

我们转换的信息就是两列filename和associatedentities，我们把它选出来

require(dplyr)
metadata_id <- metadata %>%
dplyr::select(c(file_name,associated_entities))

我需要的是 file_name和样本名称，样本名称藏在了 associated_entities 列表中里面包括了 entity_id, case_id, entity_submitter_id, entity_type这四个项目，查看第一个了解一下

metadata$associatedentities[1] [[1]] entityid caseid 1 52033f64-1e6f-4657-a4fb-7cfeffc61951 39de7761-e762-4811-b95c-8216b79ae06b entitysubmitterid entitytype 1 TCGA-AN-A0XW-01A-11R-A109-07 aliquot

实际上这边如果能有一个更强力一点json阅读工具，可能结果还要直观一点

现在的想法是我把filename和 associated_entities中的 entity_submitter_id提取出来，做成一个数据框，然后我批量对应转换

naid_df <- data.frame()
for (i in 1:1208){
naid_df[i,1] <- substr(metadata_id$file_name[i],1,nchar(metadata_id$file_name[i])-3)
naid_df[i,2] <- metadata_id$associated_entities[i][[1]]$entity_submitter_id
}

现在把1208个小文件读入一个矩阵文件，并且给每一个文件加上 filename和 entity_submitter_id 论坛有道题目就是处理的这个问题

生信编程直播第四题：多个同样的行列式文件合并起来

http://www.:8080/thread-603-1-1.html

我自己也给出了R语言的解法

在R语言中将多个同样的行列式文件合并起来

http:///2017/11/10/14-R-for-binding-colums/

但是当时不知道，TCGA的单个文件是没有列名的，导致无法合并，所以本次要复杂一点

#读入所有解压的文件 1208个
nameList <- list.files("data_unzip/")
location <- which(naid_df==nameList[1],arr.ind = TRUE) ##which函数有一个已知value返回坐标的功能
TCGA_id <- as.character(naid_df[location[1],2]) ##通过坐标，获取TCGA_id
expr_df<- read.table(paste0("data_unzip/",nameList[1]),stringsAsFactors = F, header = F) #读入第一个文件，保存为data.frame
names(expr_df) <- c("gene_id",TCGA_id) #给刚才数据库命名

这边开始批量作业

for (i in 2:length(nameList)){
location <- which(naid_df==nameList[i],arr.ind = TRUE)
TCGA_id <- as.character(naid_df[location[1],2])
dfnew <- read.table(paste0("data_unzip/",nameList[i]),stringsAsFactors = F,header = F)
names(dfnew) <- c("gene_id",TCGA_id)
expr_df <- inner_join(expr_df,dfnew,by="gene_id")
}

晚上走的时候没运行完，早上来的时候已经完毕，限速环节应该是read.table，早上再来尝试运行一次总是说内存不够我尝试了一下fread来解决这个问题：

require(data.table)
nameList <- list.files("data_unzip/")
location <- which(naid_df==nameList[1],arr.ind = TRUE)
TCGA_id <- as.character(naid_df[location[1],2])
expr_df<- fread(paste0("data_unzip/",nameList[1]))
names(expr_df) <- c("gene_id",TCGA_id)
for (i in 2:length(nameList)){
location <- which(naid_df==nameList[i],arr.ind = TRUE)
TCGA_id <- as.character(naid_df[location[1],2])
dfnew <- fread(paste0("data_unzip/",nameList[i]))
names(dfnew) <- c("gene_id",TCGA_id)
expr_df <- inner_join(expr_df,dfnew,by="gene_id")
}

结果大概2分钟搞定，速度喜人！！！！总共60488行,查看最后几行发现有5行不是我们要的

tail(expr_df$gene_id,10)

去掉最后五行

expr_df <- expr_df[1:(length(expr_df$gene_id)-5),]

保存数据，大概是3个G左右

save(expr_df,file = "expr_df.Rda")

下面开始id转换，信息在GTF文件中表达矩阵里面的gene_id有小数点，而GTF文件中没有,调整一下，先以“.”分列，在去掉小数点后的列

require(dplyr)
require(tidyr)
expr_df_nopoint <- expr_df %>%
tidyr::separate(gene_id,into = c("gene_id","drop"),sep="\\.") %>%
dplyr::select(-drop)
save(expr_df_nopoint,file = "expr_df_nopoint.Rda")
load(file = "expr_df_nopoint.Rda")

下载GTF文件来注释 ftp://ftp.ensembl.org/pub/release-90/gtf/homo_sapiens

安装包：

source("https:///biocLite.R")
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
biocLite("rtracklayer")
biocLite("SummarizedExperiment")

读入GTF数据

gtf1 <- rtracklayer::import('Homo_sapiens.GRCh38.90.chr.gtf')
gtf_df <- as.data.frame(gtf1)

保存数据

save(gtf_df,file = "gtf_df.Rda")

读入27个变量，2612129个观测，测试一下显示的不错

test <- gtf_df[1:5,]
View(test)

进展的很快，我们现在可以提取mRNA的表达矩阵啦，以gtf文件中的 gene_biotype为标准，里面写 protein_coding的就是编码基因

首先要把这些基因提取出来，然后与表达谱融合，我在这个例子还提取了 gene_name, gene_id，所以最后的时候，我把三种表达方式合在了一起这样，以后我无论用什么方式都可以选出我要的基因了

require(dplyr)
require(tidyr)
mRNA_exprSet <- gtf_df %>%
dplyr::filter(type=="gene",gene_biotype=="protein_coding") %>% #筛选gene,和编码指标
dplyr::select(c(gene_name,gene_id,gene_biotype)) %>%
dplyr::inner_join(expr_df_nopoint,by ="gene_id") %>%
tidyr::unite(gene_id,gene_name,gene_id,gene_biotype,sep = " | ")

得到19688行，跟我们的认知很吻合

保存数据

save(mRNA_exprSet,file = "mRNA_exprSet.Rda")

下面我们提取非编码基因的是表达矩阵这里面有个trick，就是编码的gene虽然是用gene_biotype来锁定的但是，非编码RNA不能这样，应该用转录本来确定，

一个编码基因也有可能转录出非编码基因的，对么?

首先我定义了一个非编码RNA的集合，这个每个人的标准不一样，但是我的原则是，多多益善，这样出来以后会有个问题，就是编码基因转录出非编码基因会无法从基因名称上区分，可以在运行时把geneid换成转录本id，必须要记在心里。

ncRNA <- c("sense_overlapping","lincRNA","3prime_overlapping_ncRNA","processed_transcript","sense_intronic","bidirectional_promoter_lncRNA","non_coding")

这个太长了判断名称有没有写错

ncRNA %in% unique(gtf_df$transcript_biotype)

这时候就开始运行了

LncRNA_exprSet <- gtf_df %>%
dplyr::filter(type=="transcript",transcript_biotype %in% ncRNA) %>% #注意这里是transcript_biotype
dplyr::select(c(gene_name,gene_id,transcript_biotype)) %>%
dplyr::distinct() %>% #删除多余行????
dplyr::inner_join(expr_df_nopoint,by ="gene_id") %>%
tidyr::unite(gene_id,gene_name,gene_id,transcript_biotype,sep = " | ")