【原】使用clusterProfiler进行GO富集分析

生信修炼手册 2019-12-24

展开全文

clusterProfiler是一个功能强大的R包，同时支持GO和KEGG的富集分析，而且可视化功能非常的优秀，本章主要介绍利用这个R包来进行Gene Ontology的富集分析。

进行GO分析时，需要考虑的一个基础因素就是基因的GO注释信息从何处获取。Bioconductor上提供了以下19个物种的Org类型的包，包含了这些物种的GO注释信息

packages	organism
org.Ag.eg.db	Anopheles
org.At.tair.db	Arabidopsis
org.Bt.eg.db	Bovine
org.Ce.eg.db	Worm
org.Cf.eg.db	Canine
org.Dm.eg.db	Fly
org.Dr.eg.db	Zebrafish
org.EcK12.eg.db	E coli strain K12
org.EcSakai.eg.db	E coli strain Sakai
org.Gg.eg.db	Chicken
org.Hs.eg.db	Human
org.Mm.eg.db	Mouse
org.Mmu.eg.db	Rhesus
org.Pf.plasmo.db	Malaria
org.Pt.eg.db	Chimp
org.Rn.eg.db	Rat
org.Sc.sgd.db	Yeast
org.Ss.eg.db	Pig
org.Xl.eg.db	Xenopus

clusterProfiler在做GO分析时，会读取这些包中的GO信息，从这里也可以看出，Bioconductor的生态体系，不同R包的数据传递和依赖组成了其生态环境。

对于以上19个物种，只需要安装对应的org包，clusterProfile就会自动从中获取GO注释信息，我们只需要差异基因的列表就可以了，使用起来非常方便。

在进行富集分析时，支持以下两种算法

1. Over-Representation Analysis

过表达分析其实就是费舍尔精确检验，对于以上19个物种，分析的代码如下

ego <- enrichGO(
  gene          = gene,
  keyType = "ENTREZID",
  OrgDb         = org.Hs.eg.db,
  ont           = "CC",
  pAdjustMethod = "BH",
  pvalueCutoff  = 0.01,
  qvalueCutoff  = 0.05,
  readable      = TRUE)

gene就是差异基因对应的向量，keyType指定基因ID的类型，默认为ENTREZID, 该参数的取值可以参考keytypes(org.Hs.eg.db)的结果，建议采用ENTREZID, OrgDb指定该物种对应的org包的名字，ont代表GO的3大类别，BP, CC, MF; pAdjustMethod指定多重假设检验矫正的方法，cufoff指定对应的阈值，readable=TRUE代表将基因ID转换为gene symbol。

2. Gene Set Enrichment Analysis

ego <- gseGO(
  geneList     = geneList,
  OrgDb        = org.Hs.eg.db,
  ont          = "CC",
  nPerm        = 1000,
  minGSSize    = 100,
  maxGSSize    = 500,
  pvalueCutoff = 0.05,
  verbose      = FALSE)

GSEA分析通过置换检验来计算p值，nPerm指定置换次数。

对于这19个物种之外的其他物种，也支持读取基因的GO注释文件，然后进行分析，注释文件的格式如下

GeneId	GO	Description
1	GO:0005819	spindle
2	GO:0072686	mitotic spindle
3	GO:0000776	kinetochore

只需要3列信息即可，第一列为geneID, 第二列为基因对应的GO编号，第三列为GO的描述信息。这3列的顺序是无所谓的，只要包含这3种信息就可以了。
读取该文件，进行分析的代码如下

data <- read.table(
  "go_annotation.txt",
  header = T,
  sep = "\t")
go2gene <- data[, c(2, 1)]
go2name <- data[, c(2, 3)]
# 费舍尔精确检验
x <- enricher(
gene,
TERM2GENE = go2gene,
TERM2NAME = go2name)
# GSEA富集分析
x <- GSEA(
gene,
TERM2GENE = go2gene,
TERM2NAME = go2name)

对于GO富集分析的结果，clusterProfiler提供了以下几种可视化策略