在传统的实验设计中,由于种种混杂因素的存在,我们仅仅能够分析变量之间的关联性,最典型的比如GWAS, 对于显著的位点,只能够说明这些位点和性状之间存在关联。对于了解事情发生的原因和规律而言,关联性是不够的,我们需要的是因果性。为了更好的探究因果关系,必须在实验设计和方法上加以改进。 孟德尔随机化, Mendilian Randomization, 简写为MR, 是一种在流行病学领域应用广泛的一种实验设计方法。通过引入一个称之为工具变量的中间变量,来分析暴露因素和结局之间的因果关系,示意图如下 参考资料
传统的实验方法直接探究暴露因素和结局变量之间的因果关联,由于混杂因素的存在,无法有效说明二者之间的因果性。工具变量的引入巧妙规避了混杂因素的影响,在上述模型中
之所以称之为孟德尔随机化,是因为在工具变量的选择上,将遗传变异作为了工具变量。在孟德尔遗传规律中,亲代等位基因随机分配给子代,基因型决定表型,基因型通过表型与疾病发生关联,基因型看做是工具变量Z, 表型看做是暴露因素X, 疾病看做是结局变量Y。 基因型(特指胚系细胞的基因型)是先天决定的,不会受到生长环境,经济地位,行为因素的干扰,而且先有基因,再有表型,再有疾病,三者的先后顺序符合因果时序。 孟德尔随机化的具体实验设计有很多种,来看一个最简单的模型,示意如下 遗传变量G与暴露因素X有关联,如果观测到遗传变异与解决变量Y之间也存在关联,那么可以说明是遗传变异G通过暴露因素X对结局变量Y造成的影响,从而说明了暴露因素X和结局变量Y之间的因果性。 在选择遗传变异时,可以是SNP,也可以是CNV等其他类型的遗传变异,只不过SNP使用的最多。对于SNP而言,并非选择全部的SNP位点,而是需要选择与暴露因素具有较强关联性的SNP位点,可以参考gwas结果来进行筛选。筛选出SNP位点之后,还有多种建模方式,可以利用单个SNP位点,多个SNP位点,等位基因个数,遗传风险评分等不同方式来建模,量化关联。使用多个SNP位点来建模时,需要进行MR-Egger分析来评价基因多效性带来的偏倚。 GWAS数据的不断增加为孟德尔随机化研究提供了数据基础,随着统计方法的推陈出新,各种组学技术的发展,孟德尔随机化的研究也应用的越来越广泛。 ·end· |
|