数据挖掘专题 | GDC：我们不一样！

unicheng 2018-04-09

展开全文

做数据挖掘最有意思的地方并不在于最终挖到了什么，而是当你试图去了解你的数据时，不断出现的惊喜和意外！

两期的科普：

TCGA样本命名详解

GDC中的癌型详解( TCGA、TARGET、FM )

两期的基础：

关于TCGA中的mRNA数据

TCGA-RNA数据下载全攻略

相信大家已经对TCGA中的RNA数据有了一个初步的了解，可能很多小伙伴难以理解为啥还没到讲到后续数据分析？

因为如果你连自己手里的数据都不了解，往下做的意义在哪呢？等到得出错误结论才想到是不是自己的数据哪里有问题吗？

生信控可不推囫囵吞枣式的文章哟~

我们曾建议从GDC Legacy Archive上按平台去下载TCGA数据，例如对于RNA表达数据，可选择下载Hiseq或者GA测序平台的数据，所以甚至可以忽略GDC Data Portal不用。但是，GDC Data Portal和GDC Legacy Archive中存储的以及用户所能下载到的数据还是有本质区别的，所以如果GDC Legacy Archive中的数据不能满足现在的需求，而必须转向GDC Data Portal，或者新手就想从TCGA默认的途径去下载数据的时候，怎么办？

那就用GDC Data Portal，但是：

分析数据之前绝对不仅仅只有数据下载这一件事情需要去做！

本期以COAD-RNA数据为例，带大家来了解下从GDC Data Portal下载好数据后，在分析前需要注意什么！

1、使用TCGAbiolinks从GDC Data Portal上下载FPKM-UQ数据

代码见TCGA-RNA数据下载全攻略，结果文件如下：

60483个基因在521个样本中的表达数据

注意样本中有9个重复：

如上，分别是：

TCGA-A6-2674-01A、TCGA-A6-2684-01A

TCGA-A6-3809-01A、TCGA-A6-3810-01A

TCGA-A6-5656-01A、TCGA-A6-5659-01A

TCGA-A6-6650-01A、TCGA-A6-6780-01A

TCGA-A6-6781-01A，所以实际去重后只能保留512个样本。

重复样本怎么处理，详见 TCGA样本命名详解！

2、使用TCGAbiolinks从GDC Legacy Archive上下载Hiseq平台的RSEM数据

代码见TCGA-RNA数据下载全攻略，结果文件如下：

20502个基因在328个样本中的表达数据，无重复样本：

3、使用TCGAbiolinks从GDC Legacy Archive上下载GA平台的RSEM数据

结果文件如下：

20502个基因在193个样本中的表达数据，无重复样本：

数据了解1：

所以GDC Data Portal中样本总数（521）与GDC Legacy Archive中两平台样本量（328+193）总和一致，那是不是就是两平台样本的简单组合，类似COADREAD呢？

看个文氏图：

由上图可知，对于COAD癌型，GDC Data Portal完全包含了GDC Legacy Archive中Hiseq平台的样本，包含绝大部分GA平台的样本，所以GDC Data Portal中的样本并非GDC Legacy Archive中两平台测的样本的简单加和，且除此之外，还有13个新样本！

所以这13个样本到底是什么鬼？

小编做了一个测试，如下：

总结来说，GDC Data Portal中多出的样本为一个患者重复测序的样本（这个患者之前已经在GDC Legacy Archive中用Hiseq或者GA平台测过）！所以在GDC Data Portal中，对于同一患者，不仅有-01A和-01A的重复，还有-01B/C和-01A的重复，所以冗余比较大，而这些冗余样本在后续分析前应该去除！

数据了解2：

既然GDC Data Portal中的样本包含了两种测序平台，那到底有没有因平台差异而导致的批次效应？

其实，小编看到多数基于GDC Data Portal数据的文章中，都未提及平台和批次效应的问题！当然其中有例如肺鳞癌 (lung squamous cell carcinoma, LUSC)等多种癌型只有Hiseq平台测的样本，也有文章提到说是从GDC Data Portal中下载的Hiseq平台的数据，但实际并未排除GA测的样本！

所以要不要矫正批次效应，还是要数据说了算，只不过分析的人要认真对待

# FPKM_UQ数据中属于Hiseq平台的患者数据：

Hiseq_in_DataPortal = log2(D_coad_FPKM_UQ[,colnames(LH_coad)]+1)

# FPKM_UQ数据中属于GA平台的患者数据：

GA_in_DataPortal = log2(D_coad_FPKM_UQ[,intersect(colnames(D_coad),colnames(LG_coad))]+1)

# 绘制PCA图