分享

数据挖掘专题 | GDC:我们不一样!

 unicheng 2018-04-09

做数据挖掘最有意思的地方并不在于最终挖到了什么,而是当你试图去了解你的数据时,不断出现的惊喜和意外!


两期的科普:

TCGA样本命名详解

GDC中的癌型详解( TCGA、TARGET、FM )


两期的基础:

关于TCGA中的mRNA数据

TCGA-RNA数据下载全攻略


相信大家已经对TCGA中的RNA数据有了一个初步的了解,可能很多小伙伴难以理解为啥还没到讲到后续数据分析?

因为如果你连自己手里的数据都不了解,往下做的意义在哪呢?等到得出错误结论才想到是不是自己的数据哪里有问题吗?


生信控可不推囫囵吞枣式的文章哟~


我们曾建议从GDC Legacy Archive上按平台去下载TCGA数据,例如对于RNA表达数据,可选择下载Hiseq或者GA测序平台的数据,所以甚至可以忽略GDC Data Portal不用。但是,GDC Data Portal和GDC Legacy Archive中存储的以及用户所能下载到的数据还是有本质区别的,所以如果GDC Legacy Archive中的数据不能满足现在的需求,而必须转向GDC Data Portal,或者新手就想从TCGA默认的途径去下载数据的时候,怎么办?


那就用GDC Data Portal,但是:

分析数据之前绝对不仅仅只有数据下载这一件事情需要去做!


本期以COAD-RNA数据为例,带大家来了解下从GDC Data Portal下载好数据后,在分析前需要注意什么!

1、使用TCGAbiolinks从GDC Data Portal上下载FPKM-UQ数据

代码见TCGA-RNA数据下载全攻略,结果文件如下:


60483个基因在521个样本中的表达数据

注意样本中有9个重复


如上,分别是:

TCGA-A6-2674-01A、TCGA-A6-2684-01A

TCGA-A6-3809-01ATCGA-A6-3810-01A

TCGA-A6-5656-01A、TCGA-A6-5659-01A

TCGA-A6-6650-01A、TCGA-A6-6780-01A

TCGA-A6-6781-01A,所以实际去重后只能保留512个样本。


重复样本怎么处理,详见 TCGA样本命名详解


2、使用TCGAbiolinks从GDC Legacy Archive上下载Hiseq平台的RSEM数据

代码见TCGA-RNA数据下载全攻略,结果文件如下:


20502个基因在328个样本中的表达数据,无重复样本:



3、使用TCGAbiolinks从GDC Legacy Archive上下载GA平台的RSEM数据

结果文件如下:


20502个基因在193个样本中的表达数据,无重复样本:



数据了解1:

所以GDC Data Portal中样本总数(521)与GDC Legacy Archive中两平台样本量(328+193)总和一致,那是不是就是两平台样本的简单组合,类似COADREAD呢?

看个文氏图:


由上图可知,对于COAD癌型,GDC Data Portal完全包含了GDC Legacy Archive中Hiseq平台的样本,包含绝大部分GA平台的样本,所以GDC Data Portal中的样本并非GDC Legacy Archive中两平台测的样本的简单加和,且除此之外,还有13个新样本!


所以这13个样本到底是什么鬼?

小编做了一个测试,如下:


总结来说,GDC Data Portal中多出的样本为一个患者重复测序的样本(这个患者之前已经在GDC Legacy Archive中用Hiseq或者GA平台测过)!所以在GDC Data Portal中,对于同一患者,不仅有-01A和-01A的重复,还有-01B/C和-01A的重复,所以冗余比较大,而这些冗余样本在后续分析前应该去除


数据了解2:

既然GDC Data Portal中的样本包含了两种测序平台,那到底有没有因平台差异而导致的批次效应?

其实,小编看到多数基于GDC Data Portal数据的文章中,都未提及平台和批次效应的问题!当然其中有例如肺鳞癌 (lung squamous cell carcinoma, LUSC)等多种癌型只有Hiseq平台测的样本,也有文章提到说是从GDC Data Portal中下载的Hiseq平台的数据,但实际并未排除GA测的样本!


所以要不要矫正批次效应,还是要数据说了算,只不过分析的人要认真对待


# FPKM_UQ数据中属于Hiseq平台的患者数据:

Hiseq_in_DataPortal = log2(D_coad_FPKM_UQ[,colnames(LH_coad)]+1)

# FPKM_UQ数据中属于GA平台的患者数据:

GA_in_DataPortal = log2(D_coad_FPKM_UQ[,intersect(colnames(D_coad),colnames(LG_coad))]+1)

# 绘制PCA图

                      

可见,样本按测序平台有个比较明显的区分,所谓的批次效应( batch effect ),后续分析前必须要处理!否则得到的结论可能就是偏倚或者错误的了哦~


小编的建议

1、如果能满足需求,使用TCGAbiolinks下载GDC Legacy Archive的数据使用;

2、需要使用GDC Data Portal数据时,先确定自己要研究的癌型数据是否包含多平台;

3、如果含多平台,则分别处理分析!


不管是不是自己做分析,一定要引起重视哦!

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多