TCGA癌症数据整理
临床数据mRNA矩阵lncRNA矩阵miRNA矩阵文件
原创:BioWolf
TCGA数据库一下子火起来了,写个论文,做个报告,你不学点
TCGA,不扯上点TCGA,貌似立马矮了一截。那么对于初学者,如
何去了解这样一个数据库,如何利用有限的资源去学习利用TCGA数
据库,相信很多同学都想找到这些问题的答案。
通俗一点说,TCGA数据库就是癌症数据库,所以分析癌症相关
才会用到这个高大上的数据库,其他方向研究的可以飘过。紧紧说癌
症数据库,未免太低估了,TCGA数据库可是美国政府发起的癌症和
肿瘤基因图谱。这个数据库有一个远大的使命:提高人们对癌症发病
分子基础的科学认识及提高我们诊断、治疗和预防癌症的能力。TCGA
的目标也非常明确,完成一套完整的与所有癌症基因组改变相关的
“图谱”。
不得不佩服国外政府对科研的支持,最关键的一点,这个数据库
对全球科研工作者开放,这是一个令人鼓舞的消息,改版之前,只对
注册用户开放一部分数据,2016年底的这次改版,给所有TCGA研
究者带来了福音,大部分癌症数据免费开放给所有用户。
作为一个外文网站,界面虽然非常友好,但庞大的数据量,复杂
的分类,也让很多初学者倍感压力。
TCGA的数据主要包括基因的测序数据、DNACopyNumber
数据、甲基化数据、转录组的数据、miRNA的数据,还有一个非常
重要的就是临床数据。这些数据都可以用来做什么呢?基因的测序数
据可以得到基因的突变;DNACopyNumber数据可以看出那些片
段的拷贝数多了或者少了;甲基化数据可以找出差异的甲基化位点,
差异的甲基化区域;转录组的数据可以知道哪些基因高表达了,哪些
基因低表达了;miRNA的数据可以找出具有差异的miRNA,找出和
癌症相关的miRNA。
临床数据对我们的研究非常重要,因为基因的数据只是从基因的
层面进行分析,有了临床数据之后,就可以把基因的数据和临床数据
联合起来分析,比如我们希望知道某个基因的突变是否对临床的生存
期具有影响,就可以把突变数据和临床数据结合起来进行分析;在比
如希望知道某个基因的表达对病人的预后是否具有影响,也可以将转
录组的数据和临床数据结合起来,看某个基因的表达对病人的预后具
有影响。当然基因组的数据和分子水平的数据也可以联合分析,比如
说基因的表达数据可以和miRNA表达数据联合起来,可以看出在某
个癌症哪些miRNA会调控基因的表达;再比如甲基化和基因联合起
来,可以看出甲基化对基因表达的影响。
那么准备做TCGA数据挖掘了,首先需要得到这些数据,只有得
到这些数据,才能做后期的差异表达分析,差异基因的功能分析,生
存分析,COX分析等等,直至把论文数据分析完,发表得分,说起来
好像一切都顺理成章,操作起来可没那么简单,这样让很多人伤透了
脑细胞,单单数据下载就能把人搞晕,何况还有临床、基因、miRNA、
甲基化……
一、下面就来说说需要整体哪些数据:
1、临床信息
这个也是最基本的,查看文献就可以发现,每篇分析TCGA的论
文,在论文开头部分都要统计所分析癌症的临床数据。这个时候,很
多人就会问了,TCGA数据库下载下来的是XML格式的临床数据,
一个样本是一个文件,那么做肝癌就有300多个文件,每个文件都
包含这个样本的临床信息。
可把小伙伴们急坏了,这个时候多数人都会选择求救,在各地搜
索,最后无果,只看点点文字说用什么perl脚本,但是这脚本去哪
里获取?我们可以想象一下TCGA后台的工作人员,是不是都受过军
事化训练,对待数据的态度是如此严谨。
让我们看看处理好的临床数据表格吧,行名是样本,列名是临床
信息。
2、基因表达矩阵
3、mRNA表达矩阵
4、lncRNA表达矩阵
5、miRNA表达矩阵
二、正常的工作流程本来是这样的:
1、进入TCGA的官网,选择研究相关的癌症类型,下载Clinical
临床、TranscriptomeProfiling中的GeneExpression
Quantification、miRNAExpressionQuantification的
Metadata、Manifest文件,下载TCGA数据库提供的gdc下载工
具;
2、利用gdc工具,在本地CMD环境数据下载命令:gdc-
client.exedownload-mgdc_manifest.txt,下载临床原始数据、
基因表达数据、miRNA表达数据,其中临床数据是.xml的网页文
本文件,基因表达数据是每个样本一个压缩包,miRNA表达数据是
每个样本一个压缩包;
3、以宫颈鳞状细胞癌CESC为例,临床数据下载下来是307个文
件夹,每个文件夹里有一个.xml文件,保存着一个样本的临床数
据,需要想办法把这307个文件夹的307个.xml文件提取到一个
exl文件里面,提取的临床数据一般都只包含一部分信息,为了获得
完整的临床数据,很多学员想尽办法也没能成功;
4、CESC的基因表达包括307个文件,每个文件里面是一个压缩
包,每个压缩包保存了一个.txt文件,这个.txt文件就保存着一个样
本的表达信息。需要把307个压缩包提到一个文件夹中,使用压缩
软件,把307个压缩包解压,得到307个.txt文件,再用提取脚
本,把基因的表达矩阵提取出来;
5、基因矩阵提取出来之后,会发现TCGA用的GENEID是
EnsemblID,所以需要把EnsemblID转换成symbolID,这一步
又难倒了不少学员,当然教程生信自学网也有,可以去学习,现在
Ensembl官方下载Ensembl的数据库,对照Ensembl数据库和基
因矩阵,用脚本检索替换,得到symbolID的矩阵;
6、基因矩阵包含mRNA和lncRNA以及其他一些基因,需要把
mRNA和lncRNA分离出来,利用脚本提取mRNA和lncRNA的
矩阵;
7、CESC的miRNA表达数据包括307个文件夹,每个文件夹包括
一个.txt文件,这个.txt文件就保存了一个样本的miRNA表达信
息,需要把307个.txt文件提取到一个文件夹内,用脚本提取这
307个文件的表达信息,保存在一个exl文件里面。
看到这样的流程,估计还没开始操作,很多学员就惊叹了。不用
惊讶,这样的分析步骤已经是大神级别,普通学员可能在研究如何下
载TCGA数据,就花费了半个月的时间,每天都在搜索如何下载临床
数据,如何下载基因表达数据。下载下来之后,一看傻眼了,怎么都
是这样的,还能不能给人好好继续研究了。
三、33种癌症类型:
1、ACC腺样囊性癌;2、BLCA膀胱癌;3、BRCA乳腺癌;4、
CESC宫颈鳞状细胞癌;5、CHOL胆癌;6、COAD结肠癌;7、
DLBC淋巴癌;8、ESCA食管癌;9、GBM脑癌;10、LGG脑
癌;11、HNSC头颈部鳞癌;12、KICH嫌色细胞癌;13、
KIRC肾透明细胞癌;14、KIRP乳头状肾细胞癌;15、LAML骨髓
癌;16、LIHC肝癌;17、LUAD肺腺癌;18、LUSC肺鳞状细胞
癌;19、MESO胸膜癌;20、OV卵巢癌;21、PAAD胰腺癌;
22、PCPG肾上腺癌;23、PRAD前列腺癌;24、READ直肠癌;
25、SARC软组织癌;26、SKCM皮肤癌;27、STAD胃癌;28、
TGCT睾丸癌;29、THCA甲状腺癌;30、THYM胸腺癌;31、
UCEC子宫内膜癌;32、UCS子宫癌;33、UVM眼癌
经过半年的下载与整理,33种的重要癌症的基本临床信息、完
整临床信息、mRNA表达矩阵、lncRNA表达矩阵、miRNA表达矩
阵,都已经统计完成,每位学员都可以获取,不用再苦逼的凌晨起来
gdc下载数据,不用到处搜索如何提取临床数据,如何提取矩阵文件,
如果你需要节省宝贵的时间做更加重要的研究,那么整理好的这些数
据,可以直接用于后续的分析。
从此刻起,这一切的烦恼都过去了,你本应该话更多时间做研究
的,而不是花太多精力研究如何下载和提取临床信息,矩阵文件,后
续的差异分析,生存分析,Cox分析,共表达分析才是TCGA数据挖
掘的核心。当基本临床信息、完整临床信息、mRNA表达矩阵、
lncRNA表达矩阵、miRNA表达矩阵都可以直接获取,你节省的不
只是时间,还有科研进度,一步领先,步步领先,GEO数据库研究的
现状就是TCGA数据库的未来,这个是发展的必然。
|
|