最近有老师问GWAS可视化的内容,GWAS分析结果没有曼哈顿图和QQ图是没有灵魂的,这两个图究竟怎么看呢,下面介绍一下: 大家好,我是邓飞,GWAS分析应该是可视化最靓的仔了,五颜六色,形状各异,真叫人眼花缭乱,看了又看。 GWAS最直观的结果,就是曼哈顿图,看一下GWAS分析是否理想,就是看有没有点超过了阈值线,类似鲤鱼跃龙门,我们希望它有,但也不希望它太多! 除了曼哈顿图,还有QQ图,它主要是从模型的角度看一下显著位点是否是假阳性。 显著性的位点,怎么能缺少LDblock(LDblock绘制连锁不平衡和单体型图),倒三角缺不了的! 有时候还会绘制LD衰减图(LD衰减图绘制--PopLDdecay)。 做完GWAS只给出显著性位点和注释基因的汇总统计表格,没有几个绚丽的图就不好意思出来见人,如何绘制曼哈顿图和QQ图?(颜值即正义 | 只知道qqman而不知道cmplot是不专业的),还可以将多个性状或者多个环境的曼哈顿图合并(多性状GWAS结果如何合并做曼哈顿图!) 图好做,但是怎么看?怎么解读?这篇文章介绍一下! QQ图和曼哈顿图是嘛意思?GWAS分析中,会有一个结果,每个SNP的P值,可以根据这个值,以及SNP的染色体和物理位置,进行作图。 常见的图是QQ图和曼哈顿图。比如: 什么是QQ图QQ图,全称 「为何要用QQ图来表示GWAS的结果呢?」 一般,我们认为,P值达到显著性,那就说明不同的SNP分型,对表型数据是有显著性影响的,但是在GWAS中,我们将显著的原因分为两个部分: ❝ 第一个部分,是由于突变导致的表型变异,比如AA变异了AT或者TT,导致产奶量增加,AA比如是10Kg,AT是15Kg,TT是20Kg,而且达到极显著水平,我们可以认为该突变导致产奶量变化,是我们关注的位点或者基因。GWAS的目的就是找到这样的位点,进而找到这样的基因。 第二个部分,是随机遗传漂变,它显示的统计显著性只是偶然,并不是该位点真的影响表型值。随机漂变,是随机在染色体上变化,它符合均匀分布,所以一定范围内有一定的概率。这些位点,是我们需要排除的。 QQ图的x坐标是均匀分布的值(理论值),经过-log10转换了。QQ图的y坐标实际的P值(观测值),经过-log10转换了。 「如果所谓的变异都是遗传漂变引起的:」 那就是这样一个图:横坐标和纵坐标都是在一条直线上,他们是完全一致的,因为X坐标是模拟的均匀分布的P值,而Y坐标是真实的P值,它与X一致,就说明它的分布也是均匀分布的,那我们就可以认为它是随机漂变的产物。「如果所谓的变异都是遗传漂变引起+真实变异引起的:」 那它的图应该是这样的:刚开始的位点,比如-log10在3之前,都是和均匀分布是一致的,是随机漂变导致的。在大于3之后,均匀分布还是在直线上,但是由于随机漂变+真实位点的存在,开始偏离直线,并且上翘,这些上翘的位点就是我们关注的位点。 所以,好的GWAS分析,有结果的QQ图,都是前期在直线上,后面上翘。有点翘的QQ图才是好的QQ图。 什么是曼哈顿图首先,曼哈顿是一个地名,是这样的: 因为建筑高低错落有致,我们将GWAS中不同染色体表示不同的位置,将不同SNP的P值比作不同的建筑,就会有种曼哈顿夜景的感觉: 「好的曼哈顿图:」 GWAS分析中,原理就是SNP位点和控制性状的基因存在LD状态,即SNP的分型可以代表基因的不同分型,所以,真实的显著位点应该是在基因两侧分布的,有一个上升和下降的趋势,比如这样的图: 「坏的曼哈顿图:」 只有孤零零的一个点,周围没有显著的点,这很有可能是假阳性,因为GWAS分析和培育品种是类似的:一出出一窝! 想要更好的学习和交流,快来加入飞哥的知识星球,这是一个生物统计+数量遗传学+GWAS+GS的社区,在这里你可以向飞哥提问、帮你制定学习计划、跟着飞哥一起做实战项目,冲冲冲。点击这里加入吧:飞哥的学习圈子 分割线 大家好,我是邓飞,一个持续分享的农业数据分析师,这里我将自己公众号的干货内容挑重点罗列一下,方便大家阅读和使用。 1,GWAS学习教程(快来领取 | 飞哥的GWAS分析教程更新啦),这个pdf是我将公众号的内容进行了汇总,更方便从头学习GWAS分析,里面配套了数据、代码和讲解,属于干货推荐的Number 1。 2,农学人如何入门数据分析资料汇总(飞哥汇总 | 入门数据分析资源推荐),里面推荐了免费的教程,包括编程、统计和专业书籍。 3,数量遗传学电子书下载(数量遗传学,分享几本书的电子版) 4,R语言电子书线上书籍推荐(学习R语言这几本电子书就够了!) |
|