分享

maftools包分析突变数据,绘制瀑布图

 生信交流平台 2022-07-26 发布于上海

前面给大家介绍了MAF文件格式

☞ MAF格式(mutation annotation format)

以及如何从TCGA数据库下载MAF格式的突变数据。

☞ 如何从TCGA数据库下载体细胞突变数据(somatic mutation)

今天我们来讲讲,怎么用R的maftools包来分析MAF格式的突变数据,并用瀑布图来展示结果。maftools这个包的主要分为两部分功能,分析和可视化。下图列出了,这个包中相应的函数的名字。

我们先用maftools包自带的数据,给大家讲解这个包的使用方法。后面再来实战,重现SCI文章中的瀑布图。
#安装maftools包BiocManager::install("maftools")#加载maftools包library(maftools)#指定maf文件的路径和名字laml.maf = system.file('extdata', 'tcga_laml.maf.gz', package = 'maftools') #读取maf文件laml = read.maf(maf = laml.maf, clinicalData = laml.clin)#输出对象laml
我们可以看到laml里面存的是一个MAF的对象,以及各种突变的统计信息

接下来我们可以对所有样本里面突变的summary信息进行可视化
pdf(file="maf_summary.pdf",width =12,height=7)plotmafSummary(maf = laml,addStat = 'median')dev.off()
我们会得到下面的一张突变的汇总图,包括各种突变分类统计图,突变类型统计图,碱基改变统计图,每个样本包含突变数统计图,样本中各种突变分类的箱型图,突变最多的10个基因所包含的突变类型,以及样本占比情况。


接下来我们就可以来绘制瀑布图了,我们可以通过top来控制展示多少个突变最多的基因,这里展示20个突变最多的基因。
pdf(file="oncoplot.pdf",width =12,height=7)oncoplot(maf = laml, top = 20)dev.off()
我们可以得到下面这张瀑布图

这张图最上面展示的是每个样本的TMB(tumor mutation burden,肿瘤突变负荷),每兆碱基(每1百万个碱基)中体细胞突变的数目。TMB可以作为一种新兴肿瘤免疫治疗生物标志物。中间类似瀑布的部分展示的是每个基因在每个样本中的突变情况。每一行是一个基因,每一列是一个样本。不同的颜色表示不同的不变类型。具体可以查看左下角的图注。右边的柱形图表示包含该基因突变样本的占比,以及突变类型的组成。

到这里我们瀑布图的绘制就完成了,是不是很简单。后面我们会找一篇SCI文章中的瀑布图来复现。

为了方便大家交流学习,共同进步,我特地创建了微信交流群

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多