配色: 字号:
TCGA临床数据mRNA矩阵lncRNA矩阵miRNA矩阵文件整理
2017-06-23 | 阅:  转:  |  分享 
  
TCGA癌症数据整理

临床数据mRNA矩阵lncRNA矩阵miRNA矩阵文件

原创:BioWolf

TCGA数据库一下子火起来了,写个论文,做个报告,你不学点

TCGA,不扯上点TCGA,貌似立马矮了一截。那么对于初学者,如

何去了解这样一个数据库,如何利用有限的资源去学习利用TCGA数

据库,相信很多同学都想找到这些问题的答案。

通俗一点说,TCGA数据库就是癌症数据库,所以分析癌症相关

才会用到这个高大上的数据库,其他方向研究的可以飘过。紧紧说癌

症数据库,未免太低估了,TCGA数据库可是美国政府发起的癌症和

肿瘤基因图谱。这个数据库有一个远大的使命:提高人们对癌症发病

分子基础的科学认识及提高我们诊断、治疗和预防癌症的能力。TCGA

的目标也非常明确,完成一套完整的与所有癌症基因组改变相关的

“图谱”。



不得不佩服国外政府对科研的支持,最关键的一点,这个数据库

对全球科研工作者开放,这是一个令人鼓舞的消息,改版之前,只对

注册用户开放一部分数据,2016年底的这次改版,给所有TCGA研

究者带来了福音,大部分癌症数据免费开放给所有用户。

作为一个外文网站,界面虽然非常友好,但庞大的数据量,复杂

的分类,也让很多初学者倍感压力。

TCGA的数据主要包括基因的测序数据、DNACopyNumber

数据、甲基化数据、转录组的数据、miRNA的数据,还有一个非常

重要的就是临床数据。这些数据都可以用来做什么呢?基因的测序数

据可以得到基因的突变;DNACopyNumber数据可以看出那些片

段的拷贝数多了或者少了;甲基化数据可以找出差异的甲基化位点,

差异的甲基化区域;转录组的数据可以知道哪些基因高表达了,哪些

基因低表达了;miRNA的数据可以找出具有差异的miRNA,找出和

癌症相关的miRNA。



临床数据对我们的研究非常重要,因为基因的数据只是从基因的

层面进行分析,有了临床数据之后,就可以把基因的数据和临床数据

联合起来分析,比如我们希望知道某个基因的突变是否对临床的生存

期具有影响,就可以把突变数据和临床数据结合起来进行分析;在比

如希望知道某个基因的表达对病人的预后是否具有影响,也可以将转

录组的数据和临床数据结合起来,看某个基因的表达对病人的预后具

有影响。当然基因组的数据和分子水平的数据也可以联合分析,比如

说基因的表达数据可以和miRNA表达数据联合起来,可以看出在某

个癌症哪些miRNA会调控基因的表达;再比如甲基化和基因联合起

来,可以看出甲基化对基因表达的影响。

那么准备做TCGA数据挖掘了,首先需要得到这些数据,只有得

到这些数据,才能做后期的差异表达分析,差异基因的功能分析,生

存分析,COX分析等等,直至把论文数据分析完,发表得分,说起来

好像一切都顺理成章,操作起来可没那么简单,这样让很多人伤透了

脑细胞,单单数据下载就能把人搞晕,何况还有临床、基因、miRNA、

甲基化……

一、下面就来说说需要整体哪些数据:

1、临床信息

这个也是最基本的,查看文献就可以发现,每篇分析TCGA的论

文,在论文开头部分都要统计所分析癌症的临床数据。这个时候,很

多人就会问了,TCGA数据库下载下来的是XML格式的临床数据,

一个样本是一个文件,那么做肝癌就有300多个文件,每个文件都

包含这个样本的临床信息。

可把小伙伴们急坏了,这个时候多数人都会选择求救,在各地搜

索,最后无果,只看点点文字说用什么perl脚本,但是这脚本去哪

里获取?我们可以想象一下TCGA后台的工作人员,是不是都受过军

事化训练,对待数据的态度是如此严谨。

让我们看看处理好的临床数据表格吧,行名是样本,列名是临床

信息。



2、基因表达矩阵

3、mRNA表达矩阵

4、lncRNA表达矩阵



5、miRNA表达矩阵

二、正常的工作流程本来是这样的:

1、进入TCGA的官网,选择研究相关的癌症类型,下载Clinical

临床、TranscriptomeProfiling中的GeneExpression

Quantification、miRNAExpressionQuantification的

Metadata、Manifest文件,下载TCGA数据库提供的gdc下载工

具;

2、利用gdc工具,在本地CMD环境数据下载命令:gdc-

client.exedownload-mgdc_manifest.txt,下载临床原始数据、

基因表达数据、miRNA表达数据,其中临床数据是.xml的网页文

本文件,基因表达数据是每个样本一个压缩包,miRNA表达数据是

每个样本一个压缩包;

3、以宫颈鳞状细胞癌CESC为例,临床数据下载下来是307个文

件夹,每个文件夹里有一个.xml文件,保存着一个样本的临床数

据,需要想办法把这307个文件夹的307个.xml文件提取到一个

exl文件里面,提取的临床数据一般都只包含一部分信息,为了获得

完整的临床数据,很多学员想尽办法也没能成功;

4、CESC的基因表达包括307个文件,每个文件里面是一个压缩

包,每个压缩包保存了一个.txt文件,这个.txt文件就保存着一个样

本的表达信息。需要把307个压缩包提到一个文件夹中,使用压缩

软件,把307个压缩包解压,得到307个.txt文件,再用提取脚

本,把基因的表达矩阵提取出来;

5、基因矩阵提取出来之后,会发现TCGA用的GENEID是

EnsemblID,所以需要把EnsemblID转换成symbolID,这一步

又难倒了不少学员,当然教程生信自学网也有,可以去学习,现在

Ensembl官方下载Ensembl的数据库,对照Ensembl数据库和基

因矩阵,用脚本检索替换,得到symbolID的矩阵;

6、基因矩阵包含mRNA和lncRNA以及其他一些基因,需要把

mRNA和lncRNA分离出来,利用脚本提取mRNA和lncRNA的

矩阵;



7、CESC的miRNA表达数据包括307个文件夹,每个文件夹包括

一个.txt文件,这个.txt文件就保存了一个样本的miRNA表达信

息,需要把307个.txt文件提取到一个文件夹内,用脚本提取这

307个文件的表达信息,保存在一个exl文件里面。



看到这样的流程,估计还没开始操作,很多学员就惊叹了。不用

惊讶,这样的分析步骤已经是大神级别,普通学员可能在研究如何下

载TCGA数据,就花费了半个月的时间,每天都在搜索如何下载临床

数据,如何下载基因表达数据。下载下来之后,一看傻眼了,怎么都

是这样的,还能不能给人好好继续研究了。

三、33种癌症类型:



1、ACC腺样囊性癌;2、BLCA膀胱癌;3、BRCA乳腺癌;4、

CESC宫颈鳞状细胞癌;5、CHOL胆癌;6、COAD结肠癌;7、

DLBC淋巴癌;8、ESCA食管癌;9、GBM脑癌;10、LGG脑

癌;11、HNSC头颈部鳞癌;12、KICH嫌色细胞癌;13、

KIRC肾透明细胞癌;14、KIRP乳头状肾细胞癌;15、LAML骨髓

癌;16、LIHC肝癌;17、LUAD肺腺癌;18、LUSC肺鳞状细胞

癌;19、MESO胸膜癌;20、OV卵巢癌;21、PAAD胰腺癌;

22、PCPG肾上腺癌;23、PRAD前列腺癌;24、READ直肠癌;

25、SARC软组织癌;26、SKCM皮肤癌;27、STAD胃癌;28、

TGCT睾丸癌;29、THCA甲状腺癌;30、THYM胸腺癌;31、

UCEC子宫内膜癌;32、UCS子宫癌;33、UVM眼癌

经过半年的下载与整理,33种的重要癌症的基本临床信息、完

整临床信息、mRNA表达矩阵、lncRNA表达矩阵、miRNA表达矩

阵,都已经统计完成,每位学员都可以获取,不用再苦逼的凌晨起来

gdc下载数据,不用到处搜索如何提取临床数据,如何提取矩阵文件,

如果你需要节省宝贵的时间做更加重要的研究,那么整理好的这些数

据,可以直接用于后续的分析。



从此刻起,这一切的烦恼都过去了,你本应该话更多时间做研究

的,而不是花太多精力研究如何下载和提取临床信息,矩阵文件,后

续的差异分析,生存分析,Cox分析,共表达分析才是TCGA数据挖

掘的核心。当基本临床信息、完整临床信息、mRNA表达矩阵、

lncRNA表达矩阵、miRNA表达矩阵都可以直接获取,你节省的不

只是时间,还有科研进度,一步领先,步步领先,GEO数据库研究的

现状就是TCGA数据库的未来,这个是发展的必然。



献花(0)
+1
(本文系生信自学网首藏)