生信分析中经常会得到一些基因,然后做GO富集分析,达到对基因进行注释和分类的目的。 本文利用R语言的ggplot2包,从头带您绘制可发表级别的GO富集分析结果图。 一 载入数据集和R包 利用各种生信工具得到富集分析结果,数据列可能不一致,但关键几列都有。 library(ggplot2) data <- read.csv("GO_enrichment_significant.csv",header=TRUE) head(data) 二 GO结果绘制基础bar图 参照之前ggplot2使用方法,更改geom即可绘制简单的bar图,按照GO_category分组颜色 ggplot(data=data, aes(x=GO_term,y=Num_of_symbols_in_list_in_GO, fill=GO_category)) + geom_bar(stat="identity", width=0.8) 可看出和文献中的差距较大,体现在以下几个方面: A:标题,坐标轴“业余”; B:GO_category顺序未按照输入文件,相同GO_category没在一起; C:横坐标label太长,重叠在一起。 三 “细节”调整GO结果bar图 3.1 坐标轴调整策略 #将GO_term设定为factor即可按照顺序输出 GO_term_order=factor(as.integer(rownames(data)),labels=data$GO_term) ggplot(data=data, aes(x=GO_term_order,y=Num_of_symbols_in_list_in_GO, fill=GO_category)) + geom_bar(stat="identity", width=0.8) + coord_flip() + xlab("GO term") + ylab("Num of Genes") + theme_bw() 好像有一点能看了,尝试其他策略。 3.2 调整横坐标label策略 将label调整成一定角度倾斜 COLS <- c("#66C3A5", "#8DA1CB", "#FD8D62") ggplot(data=data, aes(x=GO_term_order,y=Num_of_symbols_in_list_in_GO, fill=GO_category)) + geom_bar(stat="identity", width=0.8) + scale_fill_manual(values = COLS) + theme_bw() + xlab("GO term") + ylab("Num of Genes") + labs(title = "The Most Enriched GO Terms")+ theme(axis.text.x=element_text(face = "bold", color="gray50",angle = 70,vjust = 1, hjust = 1 )) 嗯 ,标签太长溢出,采取保留GO-term的前三个单词(可以其他策略)后面...代替,可以excel或者R function 解决。 3.3 调整label长度后绘图 GO_term_order=factor(as.integer(rownames(data)),labels=labels) COLS <- c("#66C3A5", "#8DA1CB", "#FD8D62") ggplot(data=data, aes(x=GO_term_order,y=Num_of_symbols_in_list_in_GO, fill=GO_category)) + geom_bar(stat="identity", width=0.8) + scale_fill_manual(values = COLS) + theme_bw() + xlab("GO term") + ylab("Num of Genes") + labs(title = "The Most Enriched GO Terms")+ theme(axis.text.x=element_text(face = "bold", color="gray50",angle = 70,vjust = 1, hjust = 1 ))
好了 ,这样好像比较顺眼了,不管什么软件工具得到的GO富集结果,都可以绘图,然后,,,发文章去吧。。。 |
|