TCGA临床数据mRNA矩阵lncRNA矩阵miRNA矩阵文件整理

来自：生信自学网 > 馆藏分类

配色：

字号：大中小

2017-06-23 | 阅：转： | 分享

TCGA癌症数据整理

临床数据mRNA矩阵lncRNA矩阵miRNA矩阵文件

原创：BioWolf

TCGA数据库一下子火起来了，写个论文，做个报告，你不学点

TCGA，不扯上点TCGA，貌似立马矮了一截。那么对于初学者，如

何去了解这样一个数据库，如何利用有限的资源去学习利用TCGA数

据库，相信很多同学都想找到这些问题的答案。

通俗一点说，TCGA数据库就是癌症数据库，所以分析癌症相关

才会用到这个高大上的数据库，其他方向研究的可以飘过。紧紧说癌

症数据库，未免太低估了，TCGA数据库可是美国政府发起的癌症和

肿瘤基因图谱。这个数据库有一个远大的使命：提高人们对癌症发病

分子基础的科学认识及提高我们诊断、治疗和预防癌症的能力。TCGA

的目标也非常明确，完成一套完整的与所有癌症基因组改变相关的

“图谱”。

不得不佩服国外政府对科研的支持，最关键的一点，这个数据库

对全球科研工作者开放，这是一个令人鼓舞的消息，改版之前，只对

注册用户开放一部分数据，2016年底的这次改版，给所有TCGA研

究者带来了福音，大部分癌症数据免费开放给所有用户。

作为一个外文网站，界面虽然非常友好，但庞大的数据量，复杂

的分类，也让很多初学者倍感压力。

TCGA的数据主要包括基因的测序数据、DNACopyNumber

数据、甲基化数据、转录组的数据、miRNA的数据，还有一个非常

重要的就是临床数据。这些数据都可以用来做什么呢？基因的测序数

据可以得到基因的突变；DNACopyNumber数据可以看出那些片

段的拷贝数多了或者少了；甲基化数据可以找出差异的甲基化位点，

差异的甲基化区域；转录组的数据可以知道哪些基因高表达了，哪些

基因低表达了；miRNA的数据可以找出具有差异的miRNA，找出和

癌症相关的miRNA。

临床数据对我们的研究非常重要，因为基因的数据只是从基因的

层面进行分析，有了临床数据之后，就可以把基因的数据和临床数据

联合起来分析，比如我们希望知道某个基因的突变是否对临床的生存

期具有影响，就可以把突变数据和临床数据结合起来进行分析；在比

如希望知道某个基因的表达对病人的预后是否具有影响，也可以将转

录组的数据和临床数据结合起来，看某个基因的表达对病人的预后具

有影响。当然基因组的数据和分子水平的数据也可以联合分析，比如

说基因的表达数据可以和miRNA表达数据联合起来，可以看出在某

个癌症哪些miRNA会调控基因的表达；再比如甲基化和基因联合起

来，可以看出甲基化对基因表达的影响。

那么准备做TCGA数据挖掘了，首先需要得到这些数据，只有得

到这些数据，才能做后期的差异表达分析，差异基因的功能分析，生

存分析，COX分析等等，直至把论文数据分析完，发表得分，说起来

好像一切都顺理成章，操作起来可没那么简单，这样让很多人伤透了

脑细胞，单单数据下载就能把人搞晕，何况还有临床、基因、miRNA、

甲基化……

一、下面就来说说需要整体哪些数据：

1、临床信息

这个也是最基本的，查看文献就可以发现，每篇分析TCGA的论

文，在论文开头部分都要统计所分析癌症的临床数据。这个时候，很

多人就会问了，TCGA数据库下载下来的是XML格式的临床数据，

一个样本是一个文件，那么做肝癌就有300多个文件，每个文件都

包含这个样本的临床信息。

可把小伙伴们急坏了，这个时候多数人都会选择求救，在各地搜

索，最后无果，只看点点文字说用什么perl脚本，但是这脚本去哪

里获取？我们可以想象一下TCGA后台的工作人员，是不是都受过军

事化训练，对待数据的态度是如此严谨。

让我们看看处理好的临床数据表格吧，行名是样本，列名是临床

信息。

2、基因表达矩阵

3、mRNA表达矩阵

4、lncRNA表达矩阵

5、miRNA表达矩阵

二、正常的工作流程本来是这样的：

1、进入TCGA的官网，选择研究相关的癌症类型，下载Clinical

临床、TranscriptomeProfiling中的GeneExpression

Quantification、miRNAExpressionQuantification的

Metadata、Manifest文件，下载TCGA数据库提供的gdc下载工

具；

2、利用gdc工具，在本地CMD环境数据下载命令：gdc-

client.exedownload-mgdc_manifest.txt，下载临床原始数据、

基因表达数据、miRNA表达数据，其中临床数据是.xml的网页文

本文件，基因表达数据是每个样本一个压缩包，miRNA表达数据是

每个样本一个压缩包；

3、以宫颈鳞状细胞癌CESC为例，临床数据下载下来是307个文

件夹，每个文件夹里有一个.xml文件，保存着一个样本的临床数

据，需要想办法把这307个文件夹的307个.xml文件提取到一个

exl文件里面，提取的临床数据一般都只包含一部分信息，为了获得

完整的临床数据，很多学员想尽办法也没能成功；

4、CESC的基因表达包括307个文件，每个文件里面是一个压缩

包，每个压缩包保存了一个.txt文件，这个.txt文件就保存着一个样

本的表达信息。需要把307个压缩包提到一个文件夹中，使用压缩

软件，把307个压缩包解压，得到307个.txt文件，再用提取脚

本，把基因的表达矩阵提取出来；

5、基因矩阵提取出来之后，会发现TCGA用的GENEID是

EnsemblID，所以需要把EnsemblID转换成symbolID，这一步

又难倒了不少学员，当然教程生信自学网也有，可以去学习，现在

Ensembl官方下载Ensembl的数据库，对照Ensembl数据库和基

因矩阵，用脚本检索替换，得到symbolID的矩阵；

6、基因矩阵包含mRNA和lncRNA以及其他一些基因，需要把

mRNA和lncRNA分离出来，利用脚本提取mRNA和lncRNA的

矩阵；

7、CESC的miRNA表达数据包括307个文件夹，每个文件夹包括

一个.txt文件，这个.txt文件就保存了一个样本的miRNA表达信

息，需要把307个.txt文件提取到一个文件夹内，用脚本提取这

307个文件的表达信息，保存在一个exl文件里面。

看到这样的流程，估计还没开始操作，很多学员就惊叹了。不用

惊讶，这样的分析步骤已经是大神级别，普通学员可能在研究如何下

载TCGA数据，就花费了半个月的时间，每天都在搜索如何下载临床

数据，如何下载基因表达数据。下载下来之后，一看傻眼了，怎么都

是这样的，还能不能给人好好继续研究了。

三、33种癌症类型：

1、ACC腺样囊性癌；2、BLCA膀胱癌；3、BRCA乳腺癌；4、

CESC宫颈鳞状细胞癌；5、CHOL胆癌；6、COAD结肠癌；7、

DLBC淋巴癌；8、ESCA食管癌；9、GBM脑癌；10、LGG脑

癌；11、HNSC头颈部鳞癌；12、KICH嫌色细胞癌；13、

KIRC肾透明细胞癌；14、KIRP乳头状肾细胞癌；15、LAML骨髓

癌；16、LIHC肝癌；17、LUAD肺腺癌；18、LUSC肺鳞状细胞

癌；19、MESO胸膜癌；20、OV卵巢癌；21、PAAD胰腺癌；

22、PCPG肾上腺癌；23、PRAD前列腺癌；24、READ直肠癌；

25、SARC软组织癌；26、SKCM皮肤癌；27、STAD胃癌；28、

TGCT睾丸癌；29、THCA甲状腺癌；30、THYM胸腺癌；31、

UCEC子宫内膜癌；32、UCS子宫癌；33、UVM眼癌

经过半年的下载与整理，33种的重要癌症的基本临床信息、完

整临床信息、mRNA表达矩阵、lncRNA表达矩阵、miRNA表达矩

阵，都已经统计完成，每位学员都可以获取，不用再苦逼的凌晨起来

gdc下载数据，不用到处搜索如何提取临床数据，如何提取矩阵文件，

如果你需要节省宝贵的时间做更加重要的研究，那么整理好的这些数

据，可以直接用于后续的分析。

从此刻起，这一切的烦恼都过去了，你本应该话更多时间做研究

的，而不是花太多精力研究如何下载和提取临床信息，矩阵文件，后

续的差异分析，生存分析，Cox分析，共表达分析才是TCGA数据挖

掘的核心。当基本临床信息、完整临床信息、mRNA表达矩阵、

lncRNA表达矩阵、miRNA表达矩阵都可以直接获取，你节省的不

只是时间，还有科研进度，一步领先，步步领先，GEO数据库研究的

现状就是TCGA数据库的未来，这个是发展的必然。

献花(0)

(本文系生信自学网首藏)

类似文章 更多

发表评论：