分享

如何通过可视化解读GWAS分析结果

 育种数据分析 2024-03-10 发布于河南

最近有老师问GWAS可视化的内容,GWAS分析结果没有曼哈顿图和QQ图是没有灵魂的,这两个图究竟怎么看呢,下面介绍一下:

大家好,我是邓飞,GWAS分析应该是可视化最靓的仔了,五颜六色,形状各异,真叫人眼花缭乱,看了又看。

GWAS最直观的结果,就是曼哈顿图,看一下GWAS分析是否理想,就是看有没有点超过了阈值线,类似鲤鱼跃龙门,我们希望它有,但也不希望它太多!

除了曼哈顿图,还有QQ图,它主要是从模型的角度看一下显著位点是否是假阳性。

显著性的位点,怎么能缺少LDblock(LDblock绘制连锁不平衡和单体型图),倒三角缺不了的!

有时候还会绘制LD衰减图(LD衰减图绘制--PopLDdecay)。

做完GWAS只给出显著性位点和注释基因的汇总统计表格,没有几个绚丽的图就不好意思出来见人,如何绘制曼哈顿图和QQ图?(颜值即正义 | 只知道qqman而不知道cmplot是不专业的),还可以将多个性状或者多个环境的曼哈顿图合并(多性状GWAS结果如何合并做曼哈顿图!

图好做,但是怎么看?怎么解读?这篇文章介绍一下!

QQ图和曼哈顿图是嘛意思?

GWAS分析中,会有一个结果,每个SNP的P值,可以根据这个值,以及SNP的染色体和物理位置,进行作图。

常见的图是QQ图和曼哈顿图。比如:

什么是QQ图

QQ图,全称quantile-quantile plot,又称为「分位图」它是判断模型假阳性、假阴性的重要指标。

「为何要用QQ图来表示GWAS的结果呢?」

一般,我们认为,P值达到显著性,那就说明不同的SNP分型,对表型数据是有显著性影响的,但是在GWAS中,我们将显著的原因分为两个部分:

第一是自然选择(Selection),我这里所说的自然选择不仅指达尔文在《进化论》中所描述的物竞天择,还指所有对物种适应性有影响作用的“力量”,比如高辐射环境、疾病、病毒等,这也是我们在GWAS研究中真正关心的突变;

第二是遗传漂变(genetics drift),它是一种比较随机的基因组突变而且数量也不少,虽然也是物种演化的一种重要力量,但是由于它的突变都比较随机,目前认为它与环境的变迁没有必然联系,但也会在某些时候,有些随机的突变带来了生存优势,便会在种群中显示出它的作用。但绝大多数情况下,对于已经在群体中稳定存在的性状而言,并不认为它们有明显的作用,所以GWAS研究是不关心这一类突变的,我们要把它们全部排除掉。如果你发现自己得到的结果全部是这样的变异的话,那么,应该重新考虑一下如何重新设计这个分析,包括是否应该增加样本量以及想办法排除技术错误以及干扰因素等方面,或者也可能它们之间就是没有关系。

--https://zhuanlan.zhihu.com/p/59767114,知乎,碱基矿工

第一个部分,是由于突变导致的表型变异,比如AA变异了AT或者TT,导致产奶量增加,AA比如是10Kg,AT是15Kg,TT是20Kg,而且达到极显著水平,我们可以认为该突变导致产奶量变化,是我们关注的位点或者基因。GWAS的目的就是找到这样的位点,进而找到这样的基因。

第二个部分,是随机遗传漂变,它显示的统计显著性只是偶然,并不是该位点真的影响表型值。随机漂变,是随机在染色体上变化,它符合均匀分布,所以一定范围内有一定的概率。这些位点,是我们需要排除的。

QQ图的x坐标是均匀分布的值(理论值),经过-log10转换了。QQ图的y坐标实际的P值(观测值),经过-log10转换了。

「如果所谓的变异都是遗传漂变引起的:」

那就是这样一个图:横坐标和纵坐标都是在一条直线上,他们是完全一致的,因为X坐标是模拟的均匀分布的P值,而Y坐标是真实的P值,它与X一致,就说明它的分布也是均匀分布的,那我们就可以认为它是随机漂变的产物。「如果所谓的变异都是遗传漂变引起+真实变异引起的:」

那它的图应该是这样的:刚开始的位点,比如-log10在3之前,都是和均匀分布是一致的,是随机漂变导致的。在大于3之后,均匀分布还是在直线上,但是由于随机漂变+真实位点的存在,开始偏离直线,并且上翘,这些上翘的位点就是我们关注的位点。

所以,好的GWAS分析,有结果的QQ图,都是前期在直线上,后面上翘。有点翘的QQ图才是好的QQ图。

什么是曼哈顿图

首先,曼哈顿是一个地名,是这样的:

因为建筑高低错落有致,我们将GWAS中不同染色体表示不同的位置,将不同SNP的P值比作不同的建筑,就会有种曼哈顿夜景的感觉:

「好的曼哈顿图:」

GWAS分析中,原理就是SNP位点和控制性状的基因存在LD状态,即SNP的分型可以代表基因的不同分型,所以,真实的显著位点应该是在基因两侧分布的,有一个上升和下降的趋势,比如这样的图:

「坏的曼哈顿图:」

只有孤零零的一个点,周围没有显著的点,这很有可能是假阳性,因为GWAS分析和培育品种是类似的:一出出一窝!

想要更好的学习和交流,快来加入飞哥的知识星球,这是一个生物统计+数量遗传学+GWAS+GS的社区,在这里你可以向飞哥提问、帮你定学习计划、跟着飞哥一起做实战项目,冲冲冲。点击这里加入吧:飞哥的学习圈子


分割线


大家好,我是邓飞,一个持续分享的农业数据分析师,这里我将自己公众号的干货内容挑重点罗列一下,方便大家阅读和使用。

1,GWAS学习教程(快来领取 | 飞哥的GWAS分析教程更新啦),这个pdf是我将公众号的内容进行了汇总,更方便从头学习GWAS分析,里面配套了数据、代码和讲解,属于干货推荐的Number 1。

2,农学人如何入门数据分析资料汇总(飞哥汇总 | 入门数据分析资源推荐),里面推荐了免费的教程,包括编程、统计和专业书籍。

3,数量遗传学电子书下载(数量遗传学,分享几本书的电子版

4,R语言电子书线上书籍推荐(学习R语言这几本电子书就够了!

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多