分享

后GWAS时代,TWAS能否让我们少走弯路?

 herohugo 2019-04-03

编者按:公元1082年,被贬黄州的苏轼在这一年写下了有名的《赤壁赋》和《后赤壁赋》。大文豪宽阔的胸怀似乎丝毫不在意人生的窘迫,刚刚发出“有客无酒,有酒无肴,月白风清,如此良夜何?”的无奈感慨,须臾就可“于是携酒与鱼,复游于赤壁之下”。

后基因组时代,我们携SNP与表型,还需要什么才能复游于“赤壁”之上呢?

这几年得益于测序技术的进步,我们对生物的研究,已彻底的进入了基因组时代。一个个参考基因组测序计划+群体重测序计划得以实施,给我们讲着一个个作物遗传变异、重要性状遗传调控结构的精美故事,每每发表于顶级期刊。这里面就不得不提一个重要的技术GWAS,学术翻译“全基因组关联分析”,小名也叫“织袜子”。

可是GWAS只是给出和某个性状关联的SNP位置,究竟是哪个基因影响表型,我们还需要从近等基因系、导入系这些稳扎稳住的遗传学方法去锁定我们要的基因。尤其是像小麦这种LD衰减距离超级巨大的物种,不光我们GWAS定位到的区间非常巨大,甚至连我们GWAS的底层模型都会被带偏,产生更多的假阳性。

相对于动植物可以人为再创建群体,设计实验来定位克隆基因。人类里面因为伦理等各种原因,只能依赖自然群体。同时如果能在GWAS这一层面上就能解决大部分问题,那是再好不过了。这几年GWAS在人类里面又有很多新的进展,比如利用转录组测序的方法补充GWAS分析(注意是补充不是替代),Transcriptome-wide association studies,简称TWAS

最近一期的NG上面在线了两篇关于TWAS的文章,一篇题为《Probabilistic fine-mapping of transcriptome-wide association studies》的研究文章,提出了一种FOCUS (fine-mapping of causal gene sets)的方法,利用GWAS结果,群体材料全基因组转录组结果,候选位点的LD等这些信息,构建统计模型,给出了候选位点每个基因的可能性,为我们寻找关联区域的候选基因提供了新的信息。

图1. FOCUS基本原理

这种方法其实是直接检测gene-trait的关联性。如图1所示,a图上是普通的GWAS曼哈顿图;中间是利用全基因组转录组数据,建立的SNP-gene 表达的影响关系,G代表基因,G1、G2、G3、G4、G5和G6是这个候选区间的6个基因,每一列是一个SNP,颜色深浅代表每个SNP对这6个基因表达量变化的影响大小;下方是这个区间SNP之间的LD关系。利用这些信息,进行统计模型的计算,得到右图6个基因和性状的关联性。相对于之前利用SNP位置找基因,提供了一个直接基因和表型关联关系,利于我们更快的找到关键基因。

图2. FOCUS方法模拟结果

是不是这样呢?

作者首先进行了模拟分析,发现83%的致病基因会都会落在FOCUS 90%的置信区间里。

这种方法最大的弊端是什么呢?

就是我们基因影响表型的表达部位,不在我们转录组测序的组织里,那这种方法就会有偏差。举例来说,如果表型是雄性不育,那么目标基因的表达部位可能就是在花药里,但是我们测的转录组却是在叶片里。那还能得到可靠结果吗?作者的分析结果是一定程度上可以的。图2,e图说明,致病基因只要在测序组织表达量和致病组织表达量(发挥功能组织)有0.2以上的遗传力,就可以被相当的功效检测到,这在一定程度上缓解了转录组测序的组织要求严格性。

这种方法是不是真的这么好呢?

NG同期在线了另一篇题为《Opportunities and challenges for transcriptome wide association studies》的观点文章对TWAS这种方法进行更为广泛的测试和讨论。这篇文章也提出基因表达量之间的关联性,基因间位置的重叠性,测序的组织差异等问题都会带来假阳性?但是,TWAS依然相对于孤零零的只有SNP-trait的GWAS结果而言,是一个很大的进步。TWAS确实能在一定程度上增大我们找到真正候选基因的可能性。文章同时也指出在做TWAS时候要尤其注意基因表达的相关性和组织偏好性。

那么,TWAS会很快在小麦里得以运用吗?

让我们,别持目以待,早点动手开始吧!所以,哪位老板那里有群体,有数据,让我们来玩一次吧。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多