分享

TCGA数据库33种癌症临床数据、mRNA表达矩阵全部下载,可直接获取矩阵

 老学究ev2fmzu9 2018-08-19

转自https://baijiahao.baidu.com/s?id=1570277010018657&wfr=spider&for=pc


TCGA数据库33种主要癌症的数据已经可以获取了,有学员就会说,TCGA数据库本来就提供下载啊,有什么稀奇的?

经过半年的下载与整理,33种的重要癌症的基本临床信息、完整临床信息、mRNA表达矩阵、lncRNA表达矩阵、miRNA表达矩阵,都已经统计完成,每位学员都可以获取,不用再苦逼的凌晨起来gdc下载数据,不用到处搜索如何提取临床数据,如何提取矩阵文件,如果你需要节省宝贵的时间做更加重要的研究,那么整理好的这些数据,可以直接用于后续的分析。

癌症类型:

1、ACC腺样囊性癌;2、BLCA 膀胱癌;3、BRCA 乳腺癌;4、CESC 宫颈鳞状细胞癌;5、CHOL 胆癌;6、COAD 结肠癌;7、DLBC 淋巴癌;8、ESCA 食管癌;9、GBM 脑癌;10、LGG 脑癌;11、HNSC 头颈部鳞癌;12、KICH嫌色细胞癌;13、KIRC肾透明细胞癌;14、KIRP乳头状肾细胞癌;15、LAML 骨髓癌;16、LIHC 肝癌;17、LUAD 肺腺癌;18、LUSC肺鳞状细胞癌;19、MESO 胸膜癌;20、OV 卵巢癌;21、PAAD 胰腺癌;22、PCPG 肾上腺癌;23、PRAD 前列腺癌;24、READ 直肠癌;25、SARC 软组织癌;26、SKCM 皮肤癌;27、STAD 胃癌;28、TGCT 睾丸癌;29、THCA 甲状腺癌;30、THYM 胸腺癌;31、UCEC 子宫内膜癌;32、UCS 子宫癌;33、UVM眼癌

数据:

1、基本临床数据

行名是样本代号,列名是临床信息(包含16列主要临床信息,一般的研究和临床统计是能够满足的),如图

2、完整临床数据

行名是样本代号,列名是临床信息(包含150列左右,具体列数每个癌症样本不一样,包含全部的临床信息),如图

3、mRNA表达矩阵

行名是gene symbol,列名是样本代号,如图

4、lncRNA表达矩阵

行名是lncRNA,列名是样本代号,如图

5、miRNA表达矩阵

行名是miRNA,列名是样本代号,如图

正常的工作流程本来是这样的:

1、进入TCGA的官网,选择研究相关的癌症类型,下载Clinical临床、Transcriptome Profiling中的Gene Expression Quantification、miRNA Expression Quantification的Metadata、Manifest文件,下载TCGA数据库提供的gdc下载工具;

2、利用gdc工具,在本地CMD环境数据下载命令:gdc-client.exe download -m gdc_manifest.txt,下载临床原始数据、基因表达数据、miRNA表达数据,其中临床数据是.xml的网页文本文件,基因表达数据是每个样本一个压缩包,miRNA表达数据是每个样本一个压缩包;

3、以宫颈鳞状细胞癌CESC为例,临床数据下载下来是307个文件夹,每个文件夹里有一个.xml文件,保存着一个样本的临床数据,需要想办法把这307个文件夹的307个.xml文件提取到一个exl文件里面,提取的临床数据一般都只包含一部分信息,为了获得完整的临床数据,很多学员想尽办法也没能成功;

4、CESC的基因表达包括307个文件,每个文件里面是一个压缩包,每个压缩包保存了一个.txt文件,这个.txt文件就保存着一个样本的表达信息。需要把307个压缩包提到一个文件夹中,使用压缩软件,把307个压缩包解压,得到307个.txt文件,再用提取脚本,把基因的表达矩阵提取出来;

5、基因矩阵提取出来之后,会发现TCGA用的GENE ID是Ensembl ID,所以需要把Ensembl ID转换成symbol ID,这一步又难倒了不少学员,当然教程生信自学网也有,可以去学习,现在Ensembl官方下载Ensembl的数据库,对照Ensembl数据库和基因矩阵,用脚本检索替换,得到symbol ID的矩阵;

6、基因矩阵包含mRNA和lncRNA以及其他一些基因,需要把mRNA和lncRNA分离出来,利用脚本提取mRNA和lncRNA的矩阵;

7、CESC的miRNA表达数据包括307个文件夹,每个文件夹包括一个.txt文件,这个.txt文件就保存了一个样本的miRNA表达信息,需要把307个.txt文件提取到一个文件夹内,用脚本提取这307个文件的表达信息,保存在一个exl文件里面。

看到这样的流程,估计还没开始操作,很多学员就惊叹了。不用惊讶,这样的分析步骤已经是大神级别,普通学员可能在研究如何下载TCGA数据,就花费了半个月的时间,每天都在搜索如何下载临床数据,如何下载基因表达数据。下载下来之后,一看傻眼了,怎么都是这样的,还能不能给人好好继续研究了。

从此刻起,这一切的烦恼都过去了,你本应该话更多时间做研究的,而不是花太多精力研究如何下载和提取临床信息,矩阵文件,后续的差异分析,生存分析,Cox分析,共表达分析才是TCGA数据挖掘的核心。当基本临床信息、完整临床信息、mRNA表达矩阵、lncRNA表达矩阵、miRNA表达矩阵都可以直接获取,你节省的不只是时间,还有科研进度,一步领先,步步领先,GEO数据库研究的现状就是TCGA数据库的未来,这个是发展的必然。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多