一文就会TCGA数据库基因表达差异分析

阿非ycfg 2020-05-05

展开全文

致歉信

本文早在2020年3月13日就已经在本公众号发布，截止到2020年5月4日，已经有60人付费，由于本人的操作不当，意外把文章删除了。对已经付费的粉丝们，深感抱歉。其实，我早已将视频上传到B站(未提供代码)：

https://www.bilibili.com/video/BV117411Z7Cq

相信付费的您已经拿到代码和相关文件，如果有什么问题可以联系我。

邮箱：bioinfocloud@aliyun.com

DoubleHelix

2020.05.04

下面是之前的文章内容

关于TCGA数据库的教程，前期我们已经推出了一些文章：

【1】TCGA数据库使用教程

【2】R语言TCGA-Assembler包下载TCGA数据

【3】TCGA数据挖掘（一）：TCGAbiolinks包介绍

【4】TCGA数据挖掘（二）：数据下载与整理

【5】TCGA数据挖掘（三）：表达差异分析

【6】TCGA数据挖掘（四）：表达差异分析（2）

【7】TCGA数据挖掘（四）：表达差异分析（3）

【8】TCGA数据挖掘（四）：表达差异分析（4）

【9】TCGA数据挖掘（五）：miRNA差异分析

【10】TCGA数据挖掘(六):WGCNA（加权基因共表达网络分析）

前面的这些文章虽然介绍了TCGA数据库的差异表达，但部分用了perl脚本，如果不懂perl的同学，数据库更新，数据格式可能会变换，运行脚本就得不到想要的结果，所以这里我们就只用R语言进行系统性的讲解，包括数据下载、整理、融合、基因ID转换以及表达差异分析，最后通过火山图进行可视化。所以你需要有一定的R基础，能看的懂代码，能改一些参数。

关于差异表达分析我们利用DESeq2和EdgeR包，其实在我们前面基因芯片数据挖掘序列文章中都已介绍：

基因芯片数据分析（五）：edgeR包的基本原理

基因芯片数据分析（六）：DESeq2包的基本原理

基因芯片数据分析（七）：edgeR差异分析实战案例

基因芯片数据分析（八）：DESeq2差异分析实战案例

可以先通过五~八这4篇文章了解这2个包的原理和使用教程。其实，你只要能从TCGA数据库下载的数据整理得到表达矩阵，参照七、八这2篇文章就可以得到差异表达结果。下面我们步入正题...........

一.数据下载

数据下载有3中方式，官网在线下载；官放下载工具下载；R语言包下载，比如：TCGAbiolinks。TCGA-Assembler等。我们推荐使用TCGAbiolinks，个人觉得这是挖掘TCGA数据比较好用的包。

下面是TCGAbiolinks包下载肺腺癌（LUAD）的转录组数据代码：

########################## 这里下载的是Counts数据，不是FPKM数据####################setwd('.')##包的安装if (!requireNamespace('BiocManager', quietly = TRUE)) install.packages('BiocManager')BiocManager::install('TCGAbiolinks')# 加载相应的包，可能会需要其他包，提示错误就安装缺少的包。# 因为每个人已经安装的包不一样。library(TCGAbiolinks)# 请求数据。query <- GDCquery(project = 'TCGA-LUAD', data.category = 'Transcriptome Profiling', data.type = 'Gene Expression Quantification', workflow.type = 'HTSeq - Counts')# 从query中获取结果表，它可以选择带有cols参数的列，并使用rows参数返回若干行。# 594个barcode samplesDown <- getResults(query,cols=c('cases'))

# 533个barcodedataSmTP <- TCGAquery_SampleTypes(barcode = samplesDown, typesample = 'TP')# 59个barcodedataSmNT <- TCGAquery_SampleTypes(barcode = samplesDown, typesample = 'NT')# 59个正常组织和533个肿瘤组织样本作为研究dataSmTP_short <- dataSmTP[1:533]dataSmNT_short <- dataSmNT[1:59]# 根据前面的筛选，再次请求数据queryDown <- GDCquery(project = 'TCGA-LUAD', data.category = 'Transcriptome Profiling', data.type = 'Gene Expression Quantification', workflow.type = 'HTSeq - Counts', barcode = c(dataSmTP_short, dataSmNT_short))

GDCquery函数中的参数可以参考前面的文章，TCGAbiolinks包介绍，其实这里面的参数和网页上的筛选条件是一样的。

网页筛选后添加购物车就可以直接下载了。最后一种下载方式是通过官方工具Data Transfer Tool：

https://gdc./access-data/gdc-data-transfer-tool。

关于网页下载需要下载几个文件。

如果直接使用TCGAbiolinks包下载，并用该包进行数据分析，就没有这么麻烦。我们这里主要是讲解通过网页下载的数据，直接整理，分析。让大家知道更加详细的流程。只是下载数据的话，上面三种方式都可以，不过现在TCGAbiolinks包下载速度可慢了，而且这个包现在好像因为R版本的更新，部分函数好像会出错。网页版下载数据是把筛选好的样本数据打包下载，文件太大，网速不好可能会中断。但一般也没什么问题。