做数据挖掘最有意思的地方并不在于最终挖到了什么,而是当你试图去了解你的数据时,不断出现的惊喜和意外! 两期的科普: 两期的基础: 相信大家已经对TCGA中的RNA数据有了一个初步的了解,可能很多小伙伴难以理解为啥还没到讲到后续数据分析? 因为如果你连自己手里的数据都不了解,往下做的意义在哪呢?等到得出错误结论才想到是不是自己的数据哪里有问题吗? 生信控可不推囫囵吞枣式的文章哟~ 我们曾建议从GDC Legacy Archive上按平台去下载TCGA数据,例如对于RNA表达数据,可选择下载Hiseq或者GA测序平台的数据,所以甚至可以忽略GDC Data Portal不用。但是,GDC Data Portal和GDC Legacy Archive中存储的以及用户所能下载到的数据还是有本质区别的,所以如果GDC Legacy Archive中的数据不能满足现在的需求,而必须转向GDC Data Portal,或者新手就想从TCGA默认的途径去下载数据的时候,怎么办? 那就用GDC Data Portal,但是: 分析数据之前绝对不仅仅只有数据下载这一件事情需要去做! 本期以COAD-RNA数据为例,带大家来了解下从GDC Data Portal下载好数据后,在分析前需要注意什么! 1、使用TCGAbiolinks从GDC Data Portal上下载FPKM-UQ数据 代码见TCGA-RNA数据下载全攻略,结果文件如下: 60483个基因在521个样本中的表达数据 注意样本中有9个重复: 如上,分别是: TCGA-A6-2674-01A、TCGA-A6-2684-01A TCGA-A6-3809-01A、TCGA-A6-3810-01A TCGA-A6-5656-01A、TCGA-A6-5659-01A TCGA-A6-6650-01A、TCGA-A6-6780-01A TCGA-A6-6781-01A,所以实际去重后只能保留512个样本。 重复样本怎么处理,详见 TCGA样本命名详解! 2、使用TCGAbiolinks从GDC Legacy Archive上下载Hiseq平台的RSEM数据 代码见TCGA-RNA数据下载全攻略,结果文件如下: 20502个基因在328个样本中的表达数据,无重复样本: 3、使用TCGAbiolinks从GDC Legacy Archive上下载GA平台的RSEM数据 结果文件如下: 20502个基因在193个样本中的表达数据,无重复样本: 数据了解1: 所以GDC Data Portal中样本总数(521)与GDC Legacy Archive中两平台样本量(328+193)总和一致,那是不是就是两平台样本的简单组合,类似COADREAD呢? 看个文氏图: 由上图可知,对于COAD癌型,GDC Data Portal完全包含了GDC Legacy Archive中Hiseq平台的样本,包含绝大部分GA平台的样本,所以GDC Data Portal中的样本并非GDC Legacy Archive中两平台测的样本的简单加和,且除此之外,还有13个新样本! 所以这13个样本到底是什么鬼? 小编做了一个测试,如下: 总结来说,GDC Data Portal中多出的样本为一个患者重复测序的样本(这个患者之前已经在GDC Legacy Archive中用Hiseq或者GA平台测过)!所以在GDC Data Portal中,对于同一患者,不仅有-01A和-01A的重复,还有-01B/C和-01A的重复,所以冗余比较大,而这些冗余样本在后续分析前应该去除! 数据了解2: 既然GDC Data Portal中的样本包含了两种测序平台,那到底有没有因平台差异而导致的批次效应? 其实,小编看到多数基于GDC Data Portal数据的文章中,都未提及平台和批次效应的问题!当然其中有例如肺鳞癌 (lung squamous cell carcinoma, LUSC)等多种癌型只有Hiseq平台测的样本,也有文章提到说是从GDC Data Portal中下载的Hiseq平台的数据,但实际并未排除GA测的样本! 所以要不要矫正批次效应,还是要数据说了算,只不过分析的人要认真对待 # FPKM_UQ数据中属于Hiseq平台的患者数据: Hiseq_in_DataPortal = log2(D_coad_FPKM_UQ[,colnames(LH_coad)]+1) # FPKM_UQ数据中属于GA平台的患者数据: GA_in_DataPortal = log2(D_coad_FPKM_UQ[,intersect(colnames(D_coad),colnames(LG_coad))]+1) # 绘制PCA图 可见,样本按测序平台有个比较明显的区分,所谓的批次效应( batch effect ),后续分析前必须要处理!否则得到的结论可能就是偏倚或者错误的了哦~ 小编的建议: 1、如果能满足需求,使用TCGAbiolinks下载GDC Legacy Archive的数据使用; 2、需要使用GDC Data Portal数据时,先确定自己要研究的癌型数据是否包含多平台; 3、如果含多平台,则分别处理分析! 不管是不是自己做分析,一定要引起重视哦!
|
|