【转】孟德尔随机化

whwywu 2020-07-31

展开全文

MR的研究策略随着统计学方法的深入而被不断地推陈出新，从最早的一阶段MR到单一样本MR、两样本MR、两阶段MR、双向MR以及基因-环境交互作用MR和网络MR，设计方法不断深入，有的方法仅提供因果关联的推断或因果效应的大小估计。各种方法的原理如下：

① 一阶段MR（One stage MR）：最早的MR研究设计是由G-X和G-Y的关联来推断X-Y的关联（图 3），也是最为简单的关联推断，因为没有X-Y因果效应大小的估计，只是通过推断来估计X与Y的可能关联，比如，脂蛋白[Lp（a）]相关的KIV-2基因拷贝数变异与血浆Lp（a）水平有关，同时又与心肌梗死（myocardial infarction，MI）发生有关，因此推断Lp（a）水平与MI的发生有关^[13]，尽管此结论是建立在推断基础上的，但比直接测量研究人群Lp（a）水平和MI发生之间的关联时无法忽略的混杂因素相比，有着更可靠的把握度。但随后，该方法又因无效应大小估计而逐步被取代。

image.png

② 独立样本MR（One-sample MR）：该方法利用单一研究样本，通过使用2阶段最小二乘法回归模型（2-stage least-squares regression，2SLS），定量估计暴露因素X与Y之间的关联效应大小。
如图 4，第一步：建立G-X回归模型，获得暴露因素预测值（predicted value，P），可以使用单个SNP、多个SNPs、等位基因个数或者遗传风险评分（genetic risk scores，GRSs）纳入方程（随着GRS评分增加，暴露因素风险增加多少）。第二步：构建P-Y的回归模型，即获得暴露因素预测值P和结局变量Y之间的回归方程。例如：欲获得X-Y直接的关联，可能受到混杂因素C和U的影响，通过2SLS来实现。见图 4。

image.png

目前很多MR的研究使用多个SNPs位点作为工具变量的设计，此时可以使用加权线性回归模型（weighted linear regression），或者使用Wald比值法先进行单个SNP的关联，然后再选择固定效应模型（fixed effect model）或者随机效应模型（random effect model）对多个位点效应进行Meta汇总。但是，两种方法的前提条件必须满足各SNPs之间是完全独立的，或者通过连锁不平衡运算排除SNPs之间的关联^[18]。

③ 两样本MR（Two-sample MR）：两样本MR的设计策略是建立在G-X和G-Y的关联研究人群来自相同人群的两个独立样本（如GWAS与暴露，GWAS与结局的关联数据^[19]），要求两样本具有相似的年龄、性别和种族分布特征，因为样本量较大，该方法可以获得更大的把握度。目前，两样本MR因为全球大量GWAS合作组的公共数据而被广泛使用^[19]，比如国际血压研究合作组（the International Consortium for Blood Pressure），冠心病全基因组重复验证和Meta分析合作组（Coronary Artery Disease Genome wide Replication and Meta-analysis，CARDIoGRAM，http://www./），全球血脂遗传合作组（Global Lipids Genetics Consortium），全球吸烟与遗传合作组（Tobacco and Genetics Consortium）等，可以通过合作组的网站直接下载G-X与G-Y关联结果数据。此设计是基于现有数据，具有把握度大、经济、高效的特点^[18]。

④ 双向MR（Bidirectional MR）：又称为互为MR（Reciprocal MR），如图 6，如果待研究因素X₁与研究因素X₂有关联，遗传变异G₁与X₁和X₂将都有关联，但是遗传变异G₂与X₂有关却与X₁不存在关联（虚线）^[20]。这种方法有助于进一步理清危险因素与疾病结局之间的关联。如Timpson等^[21]在双向MR设计中使用肥胖基因FTO（rs9939609）（G₁）和CRP基因（rs3091244）（G₂）作为工具变量，分别指代BMI（X₁）和循环CRP水平（X₂），观察性研究结果提示BMI与循环CRP之间有关联（P＜0.000 1），但无法推断因果方向。通过FTO（rs9939609）指代BMI与CRP之间有显著性关联（P=0.006），而CRP（rs3091244）指代CRP与BMI之间无显著性关联（P=0.2），可以推断BMI升高可引起肥胖症进而引起CRP水平改变，但CRP水平不会引起肥胖症^[21]。此方法在解决因果网络方向的问题上将会有很大用途^[22]，但是在分析未知生物学效应的两个变量时，要防止被双向MR的结果误导^[20]。

image.png

⑤ 两阶段MR（Two-step MR）：与两样本MR不同的是，两阶段MR需要使用遗传工具变量来评价因果关联的可能中间变量M（Mediation），来探讨环境暴露因素（E）是否通过表观遗传指标（M）而导致疾病（O）改变，见图 7。第一阶段，遗传工具变量G₁独立于混杂因素，指代暴露因素E与结局O之间的关联，并且必须经过中间变量M才能实现；第二阶段，另一独立遗传工具变量G₂作为中间变量M的指代工具，分析中间变量M与结局O之间的关联。比如BMI通过血压来间接影响冠心病的发生^[23]。目前此方法已被应用于表观遗传流行病学（Epigenetic Epidemiology）研究^[24]，Binder和Michels^[25]使用母亲MTHFR C677T，A1298C两位点作为工具变量，发现7个CpG位置参与了红细胞叶酸与甲基化改变之间的关联。Dekkers等^[26]使用全基因组甲基化数据发现，免疫细胞差异甲基化结果是由个体内部血脂水平（TG，LDL-C，HDL-C）变化所导致，反之则不亦然。此方法必须满足E-M和E-O之间的关联呈线性以及同质性的假设前提，并且已被延伸成为分析复杂因果网络关系的基础，如网络MR设计（Network MR）^[27]。

image.png

⑥ 基因-暴露交互作用MR（Gene-exposure interactions）：MR研究设计还可以用于探讨基因-暴露因素在疾病发生中的交互作用现象，同时要求基因与结局的关联必须取决于暴露因素的状态。这种方法可以区分基因直接作用于结局，还是基因通过暴露因素而作用于结局。如Holmes等^[28]发现携带酒精代谢酶基因ADH1B rs1229984突变等位基因A的个体不饮酒或者少量饮酒的比例更高，进而发生冠心病和中风的风险亦显著降低。假设同时满足ADH1B rs1229984 A在饮酒者中与冠心病和中风的发生无关，这说明ADH1B rs1229984与冠心病和中风的关联不通过饮酒而发生（直接效应），可能会有另外的通路存在。因此需要有无暴露组或亚人群的基因-疾病无关联的证据支持。Brunner等^[15]同样使用酒精代谢酶基因（ADH，ALDH）的68个SNPs作为工具变量，发现饮酒不能增加前列腺癌的风险，但是可影响疾病预后。Taylor等^[29]使用大样本欧洲人群MR研究证实饮用咖啡不能降低前列腺癌的风险。