分享

生信分析|如何结合GWAS和转录组数据鉴定疾病相关组织或细胞

 生物_医药_科研 2019-01-14

问题的提出

总所周知,人们利用GWAS技术已经找到了许多复杂疾病的易感位点,但我们对疾病的病例机制仍然知之甚少。因为表达调控的存在,基因组上的遗传信号的传递是有时空特异性的,也就是需要知道基因在什么时间什么地点发挥作用。因此,鉴定出疾病相关特异性组织对我们理解病理机制就格外重要了。2018年4月发表在《Nature Genetics》上的一篇文章就针对以上问题,开发出一套整合了GWAS和转录组数据寻找疾病易感信号富集的组织或细胞的工具——LDSC-SEG。

方法流程总览

话不多说,直接上图

mark

图中以精神分裂症研究为例,整个过程大致可分成四步。首先获取多个组织来源的标准化转录组表达矩阵(GTEx可下载),对于每一个基因,计算其t-statistic;然后根据t-statistic排序,选取前10%基因作为焦点组织(这里指cortex)的特异表达基因(包括只在该组织表达的基因和仅仅表达平均值较高的基因);然后再选取的基因上下游各增加100kb区域,从而构建出属于焦点组织的基因组注释;最后,作者采用经典的LDSC算法(同一个团队发表在2015年NG上的文章)计算精神分裂症的GWAS遗传信号是否富集与上述基因组注释内。幸运地是,作者将自己的软件和全部中间数据都公开在github上给大家使用,感兴趣的读者可以下载尝试(https://github.com/bulik/ldsc)。

公共数据挖掘——48个复杂性状的组织特异性分析

转录组数据初步分析

有了这么好的工具,作者肯定会拿现有的公共数据小试牛刀的。于是就从GTExFranke lab上下载了205个组织的转录组表达数据,为了方便可视化,作者将组织分成9个类别进行分析。GWAS数据的主要来源是UK BiobankBrainstorm Consortium, 分析时去除了位于HLA区域内的位点,因为该区域不寻常的遗传结构和连锁不平衡模式。初步分析结果如下图,48个性状中有34个至少富集在一个组织或细胞类别中(FDR<>

mark

以上结果也基本符合人们的生物学预期,例如免疫相关表型富集在免疫类型细胞中;精神类表型则展现出了大脑特异性的富集;低密度脂蛋白和胆固醇水平富集与肝组织中。

独立chromatin数据验证

相较于转录组,染色质结构数据也能反应细胞特异性。作者利用不同维度的细胞数据试图验证自己最初的发现并比较两种数据的异同。如下图,在系统水平,作者验证了34个中的33个表型;在组织和细胞水平验证了20个中的13个表型。

mark

有趣的是,染色质数据找到的富集数目更多,显著性也高于转录组数据。

在得到以上数据后,基本可以认为这个新开发的方法具有足够的能力分析并解释生物学问题了,文章的后面几段就重点讨论大脑相关性状和免疫相关性状的富集情况,这里就不在一一赘述了,感兴趣的读者可以下载原文细读。

总结

通过整合GWAS和多种组织来源的基因表达数据,研究人员可以找到疾病相关的特异性组织或细胞,为理解疾病的病理基础提供了新的研究方法和思路。该方法的理论依据是只有遗传变异所在的基因在某些组织中特异性表达才认为该组织于疾病或者性状相关。

参考文献

Finucane H K, Reshef Y A, Anttila V, et al. Heritability enrichment of specifically expressed genes identifies disease-relevant tissues and cell types.[J]. Nature Genetics, 2017, 50(4):621-629.

PS:发送后台“19.1.14文献”获取链接

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多