【原】今天我们来聊一聊孟德尔随机化

生信修炼手册 2019-12-24

展开全文

在传统的实验设计中，由于种种混杂因素的存在，我们仅仅能够分析变量之间的关联性，最典型的比如GWAS, 对于显著的位点，只能够说明这些位点和性状之间存在关联。对于了解事情发生的原因和规律而言，关联性是不够的，我们需要的是因果性。为了更好的探究因果关系，必须在实验设计和方法上加以改进。

孟德尔随机化, Mendilian Randomization, 简写为MR, 是一种在流行病学领域应用广泛的一种实验设计方法。通过引入一个称之为工具变量的中间变量，来分析暴露因素和结局之间的因果关系，示意图如下

参考资料

http://chinaepi./zhlxbx/ch/reader/create_pdf.aspx?file_no=20170427&flag=1&journal_id=zhlxbx&year_id=2017

传统的实验方法直接探究暴露因素和结局变量之间的因果关联，由于混杂因素的存在，无法有效说明二者之间的因果性。工具变量的引入巧妙规避了混杂因素的影响，在上述模型中

暴露因素X和结局变量Y会受到混在因素U的影响
工具变量Z和混杂因素U之间不存在任何联系，相互独立
工具变量Z和暴露因素X之间存在关联性, 结局变量Y之间没有直接的关联性，仅能够通过暴露因素X和结局变量Y之间建立关联

之所以称之为孟德尔随机化，是因为在工具变量的选择上，将遗传变异作为了工具变量。在孟德尔遗传规律中，亲代等位基因随机分配给子代，基因型决定表型，基因型通过表型与疾病发生关联，基因型看做是工具变量Z, 表型看做是暴露因素X, 疾病看做是结局变量Y。

基因型（特指胚系细胞的基因型）是先天决定的，不会受到生长环境，经济地位，行为因素的干扰，而且先有基因，再有表型，再有疾病，三者的先后顺序符合因果时序。

孟德尔随机化的具体实验设计有很多种，来看一个最简单的模型，示意如下

遗传变量G与暴露因素X有关联，如果观测到遗传变异与解决变量Y之间也存在关联，那么可以说明是遗传变异G通过暴露因素X对结局变量Y造成的影响，从而说明了暴露因素X和结局变量Y之间的因果性。

上述模型称之为一阶段MR, 为了增加分析结果的可靠性，量化关联效应的大小，还有很多更复杂的孟德尔随机试验设计，比如独立样本MR, 两样本MR, 双向MR, 两阶段MR, 基因-暴露交互作用MR等等，其中两样本MR，用来自相同群里的两批数据分别研究遗传变异G与暴露因素X, 遗传变异G与结局变量Y之间的关联性，通常是利用大样本量的GWAS分析，由于其样本量大，分析结果具有较好的把握度。而且可以基于已有的GWAS结果来进行分析，经济高效，应用的最为广泛。

在选择遗传变异时，可以是SNP,也可以是CNV等其他类型的遗传变异，只不过SNP使用的最多。对于SNP而言，并非选择全部的SNP位点，而是需要选择与暴露因素具有较强关联性的SNP位点，可以参考gwas结果来进行筛选。筛选出SNP位点之后，还有多种建模方式，可以利用单个SNP位点，多个SNP位点，等位基因个数，遗传风险评分等不同方式来建模，量化关联。使用多个SNP位点来建模时，需要进行MR-Egger分析来评价基因多效性带来的偏倚。

GWAS数据的不断增加为孟德尔随机化研究提供了数据基础，随着统计方法的推陈出新，各种组学技术的发展，孟德尔随机化的研究也应用的越来越广泛。

·end·