、 火山图是大家在阅读文献时经常看到的图,主要用于展示基因的差异表达,在前期筛选课题的时候常用,且常与热图搭配出现。因为绘制出来的差异表达的基因形如火山,故得名火山图。 火山图主要用于展示显著差异表达的基因。通常对显著的定义是:p0.05且两组表型的基因表达差异/Fold Change在两倍以上,即FC>=2。但在文献中我们常见的火山图横纵坐标分别是log2FC与-log10Pvalue。以2为底数,取基因表达变化的对数值为横坐标使得结果更容易读懂:比如,某基因在实验组中的表达是对照组中的4倍,log24=2,若基因在实验组中的表达是对照组的2倍,log22=1。在火山图中,横坐标每增加一个单位,则说明基因在两组表型中呈两倍的差异,。在火山图中取10为底数p值的负对数为纵坐标主要两个考虑:一,可以使得纵坐标的刻度更合理,因为p值间的差异可能非常大,可以取值正无穷小到1之间;二,对数处理后的原p值越小对应的纵坐标值越大,即越显著。 火山图的本质是散点图,理论上可以画散点图的工具都可以用来画火山图。比如在线网站NetworkAnalyst,SangerBox里面的火山图绘制工具都可以做火山图。工具虽然方便但是自己可操作的空间少了,本文先向大家介绍人人都可以快速掌握的excel绘制火山图的方法。 数据: 65例病人的正常组织与对应的直肠癌中的基因表达数据(GEO accession: GSE20842) Excel绘制火山图主要分为以下几个步骤: 打开下载的原始数据集,选中表格中P.Value,logFC两列复制到新的excel1中(原始数据中logFC即默认的底数为2,即log2FC) 在新的表格中C2单元格中输入=-LOG10(A2) 后Enter键,得到单元格结果。再点双击击单元格右下角则会以同样的函数生成这一列相应的值 从数据中筛选出p<=0.05且|log2fc|>=2的数据到新列(E,F,G)中得到如下excel1表格(自此我们得到了绘制火山图所需要完整的数据,excel1中A,B,C三列为原始数据中p ,log2FC及对应的-log10(P.Value)值。E,F,G则为筛选后的数据值) 依次选中B/C两列-插入-图标散点图,生成火山图 自定义火山图参数更改图表样式 选中图片-图表工具-设计-图表样式(自由搭配满意的图片样式) 在生成火山图后,我们需要从所有数据中筛选出差异表达的基因,即筛选出p<=0.05且|log2fc|>=2的数据 单击选中图标数据任意一个数据点-右键选择“选择数据”-“添加” 在添加的数据系列中填写合适的系列名称与横纵坐标轴值(此处系列名称我们填 p<>,即我们之前筛选出来的E,G,F三列数据;X,Y轴填写数据对应的单元格范围,此处我们都是2:500)。自此,我们就在火山图中标记出了我们感兴趣的差异表达的基因。 我们可以为火山图加坐标轴标题,图例,图表标题,数据标签等元素 ![]() 单机选中图表中任意一个数据-右键选择“设置数据系列格式” 通过此菜单栏,可以自定义图表中的任一元素参数 ![]() 选中你感兴趣的数据点-右键选择“添加数据标签”,显示该数据对应的值,然后在原始数据中匹配相应的genesymbol添加就好啦(同时可以在设置数据系列格式中自定义参数) ![]() 本文我们向大家演示如何通过excel绘制自己满意的火山图。Excel绘制火山图主要分为数据的处理(筛选你感兴趣的数据到新列),选择数据并作标记,添加图表元素(坐标轴与标题名,图例等参数),修改元素参数,添加数据标签(可以添加对应的gene symbol)等内容。Excel操作简单普遍,相信大家都可以绘制自己满意的火山图!(若想绘制更美观的火山图,请关注下周推文:用R语言绘制火山图) |
|