TCGAbiolinks
是一个大而全的R包,常见的分析都能做,比如差异分析、富集分析、生存分析等等。上次学习了差异分析,今天学习下富集分析和生存分析。
但其实这些分析我们都是把数据保存好用其他包做的~
富集分析
如果大家要做富集分析,那肯定是首选clusterprofiler
了,不过今天这个还是要学习下。
还是用上篇推文得到的coadDEGs
继续进行富集分析。
新版TCGAbiolinks包学习:差异分析
load(file = "coadDEGs.Rdata")
在TCGAbiolinks
里进行富集分析很简单,就一句代码搞定。
library(TCGAbiolinks)
Genelist <- coadDEGs$gene_name # gene_symbol
# 进行GO和KEGG分析
ansEA <- TCGAanalyze_EAcomplete(
TFname = "TCGAbiolinks enrichment analysis",
RegulonList = Genelist
)
## [1] "I need about 1 minute to finish complete Enrichment analysis GO[BP,MF,CC] and Pathways... "
## [1] "GO Enrichment Analysis BP completed....done"
## [1] "GO Enrichment Analysis MF completed....done"
## [1] "GO Enrichment Analysis CC completed....done"
## [1] "Pathway Enrichment Analysis completed....done"
# 富集分析结果可视化
TCGAvisualize_EAbarplot(
tf = rownames(ansEA$ResBP),
GOBPTab = ansEA$ResBP,
GOCCTab = ansEA$ResCC,
GOMFTab = ansEA$ResMF,
PathTab = ansEA$ResPat,
nRGTab = Genelist,
nBar = 10
)
## png
## 2
然后就可以得到一张条形图:
生存分析
可以使用之前保存好的数据,也可以直接下载使用,临床数据不大,一般都能下载下来~
# 临床数据可以像这样下载,直接就是一个数据框
clin.coad <- GDCquery_clinic("TCGA-COAD", "clinical")
dim(clin.coad)
## [1] 461 70
会直接得到这样一个数据框,非常方便:
然后就可以进行生存分析了,比如我们用gender
作为分组变量:
TCGAanalyze_survival(
data = clin.coad,
clusterCol = "gender",
main = "TCGA Set\n COAD",
height = 10,
width=10
)
## File saved as: survival.pdf
结果会得到这样一个图:
肯定是不如自己用别的包画的好看~
也可以使用基因表达量进行分组,然后进行差异分析,只要把基因表达量数据加进去即可~
但是如果这样做的话,我们肯定是选择使用survival
包做,比TCGAanalyze_survival()
更加灵活好用~