MR设计策略

国熙台 2024-01-01 发布于山东

展开全文

MR的研究策略随着统计学方法的深入而被不断地推陈出新，从最早的一阶段MR到单一样本MR、两样本MR、两阶段MR、双向MR以及基因-环境交互作用MR和网络MR，设计方法不断深入，有的方法仅提供因果关联的推断或因果效应的大小估计。各种方法的原理如下：

①一阶段MR（One stage MR）：最早的MR研究设计是由G-X和G-Y的关联来推断X-Y的关联（如图1），也是最为简单的关联推断，因为没有X-Y因果效应大小的估计，只是通过推断来估计X与Y的可能关联，比如，脂蛋白[Lp（a）]相关的KIV-2基因拷贝数变异与血浆Lp（a）水平有关，同时又与心肌梗死（myocardial infarction，MI）发生有关，因此推断Lp（a）水平与MI的发生有关，尽管此结论是建立在推断基础上的，但比直接测量研究人群Lp（a）水平和MI发生之间的关联时无法忽略的混杂因素相比，有着更可靠的把握度。但随后，该方法又因无效应大小估计而逐步被取代。

图1. 孟德尔随机化的一阶段设计

①独立样本MR（One-sample MR）：该方法利用单一研究样本，通过使用2阶段最小二乘法回归模型（2-stage least-squares regression，2SLS），定量估计暴露因素X与Y之间的关联效应大小。

图2. 孟德尔随机化单一样本设计

如图2，第一步：建立G-X回归模型，获得暴露因素预测值（predicted value，P），可以使用单个SNP、多个SNPs、等位基因个数或者遗传风险评分（genetic risk scores，GRSs）纳入方程（随着GRS评分增加，暴露因素风险增加多少）。第二步：构建P-Y的回归模型，即获得暴露因素预测值P和结局变量Y之间的回归方程。例如：欲获得X-Y直接的关联，可能受到混杂因素C和U的影响，通过2SLS来实现。

为获得X-Y关联强度大小：E（Y|X，C，U）=β₀+β_XX+β_CC+β_UU

第一步：E（X|C，G）=α₀+α_CC+α_ZG=PXCG（PXCG为G-X回归模型暴露因素预测值）；

第二步：E（Y|PXG，C）=θ₀ +θ_X PXCG +θ_CC，

其中第二步中需根据结局变量的类型选择合适的回归模型，如果结局为连续型变量（如标志物水平），使用线性回归模型，结局为二分类变量（如疾病与否），则使用logistic回归模型（θ_X=log OR）。θ_X的流行病学意义在于：因为遗传变异所导致的暴露因素水平每增加一个单位，疾病或者结局发生风险增加了多少。由于该方法局限于单个样本，把握度较小，工具变量的选择也比较局限，容易受到潜在混杂因素的影响。2SLS的分析方法在Stata软件中可以使用“ivregress”（StataCorp）、在R软件中使用“ivpack”（R Foundation）来实现。

上述方法针对单一研究人群的资料，而实际上很多研究者无法获得多数研究的原始资料，只能根据汇总后的数据（发表后的论文或者Meta分析合成数据）提供关联证据。如果是单一位点（SNP）作为工具变量，可以使用Wald比值和其s_x来估计X-Y关联大小。如图3，通常Wald比值法有两个步骤：第一步：通过G-X和G-Y的回归模型获得回归系数α_g和δ_g，可以来自现有关联研究数据；第二步：获得G-Y的回归模型系数δ_g，计算获得X-Y回归模型系数β_x=δ_g/α_g，并估计其s_x。

图3. 孟德尔随机化的单一样本设计DAG模型

注：αg：G-X关联系数；βx：X-Y关联系数；δg：G-Y关联系数

目前很多MR的研究使用多个SNPs位点作为工具变量的设计，此时可以使用加权线性回归模型（weighted linear regression），或者使用Wald比值法先进行单个SNP的关联，然后再选择固定效应模型（fixed effect model）或者随机效应模型（random effect model）对多个位点效应进行Meta汇总。但是，两种方法的前提条件必须满足各SNPs之间是完全独立的，或者通过连锁不平衡运算排除SNPs之间的关联。

①两样本MR（Two-sample MR）：两样本MR的设计策略是建立在G-X和G-Y的关联研究人群来自相同人群的两个独立样本（如GWAS与暴露，GWAS与结局的关联数据），要求两样本具有相似的年龄、性别和种族分布特征，因为样本量较大，该方法可以获得更大的把握度。目前，两样本MR因为全球大量GWAS合作组的公共数据而被广泛使用，比如国际血压研究合作组（the International Consortium for Blood Pressure），冠心病全基因组重复验证和Meta分析合作组（Coronary Artery Disease Genome wide Replication and Meta-analysis，CARDIoGRAM，http://www./），全球血脂遗传合作组（Global Lipids Genetics Consortium），全球吸烟与遗传合作组（Tobacco and Genetics Consortium）等，可以通过合作组的网站直接下载G-X与G-Y关联结果数据。此设计是基于现有数据，具有把握度大、经济、高效的特点。

②双向MR（Bidirectional MR）：又称为互为MR（Reciprocal MR），如图4，如果待研究因素X₁与研究因素X₂有关联，遗传变异G₁与X₁和X₂将都有关联，但是遗传变异G₂与X₂有关却与X₁不存在关联（虚线）。这种方法有助于进一步理清危险因素与疾病结局之间的关联。如Timpson等在双向MR设计中使用肥胖基因FTO（rs9939609）（G₁）和CRP基因（rs3091244）（G₂）作为工具变量，分别指代BMI（X₁）和循环CRP水平（X₂），观察性研究结果提示BMI与循环CRP之间有关联（P＜0.000 1），但无法推断因果方向^[1]。通过FTO（rs9939609）指代BMI与CRP之间有显著性关联（P=0.006），而CRP（rs3091244）指代CRP与BMI之间无显著性关联（P=0.2），可以推断BMI升高可引起肥胖症进而引起CRP水平改变，但CRP水平不会引起肥胖症。此方法在解决因果网络方向的问题上将会有很大用途，但是在分析未知生物学效应的两个变量时，要防止被双向MR的结果误导。

图4. 双向孟德尔随机化设计

①两阶段MR（Two-step MR）：与两样本MR不同的是，两阶段MR需要使用遗传工具变量来评价因果关联的可能中间变量M（Mediation），来探讨环境暴露因素（E）是否通过表观遗传指标（M）而导致疾病（O）改变。第一阶段，遗传工具变量G₁独立于混杂因素，指代暴露因素E与结局O之间的关联，并且必须经过中间变量M才能实现；第二阶段，另一独立遗传工具变量G₂作为中间变量M的指代工具，分析中间变量M与结局O之间的关联。比如BMI通过血压来间接影响冠心病的发生。目前此方法已被应用于表观遗传流行病学（Epigenetic Epidemiology）研究，Binder和Michels使用母亲MTHFR C677T，A1298C两位点作为工具变量，发现7个CpG位置参与了红细胞叶酸与甲基化改变之间的关联。Dekkers等使用全基因组甲基化数据发现，免疫细胞差异甲基化结果是由个体内部血脂水平（TG，LDL-C，HDL-C）变化所导致，反之则不亦然^[2]。此方法必须满足E-M和E-O之间的关联呈线性以及同质性的假设前提，并且已被延伸成为分析复杂因果网络关系的基础，如网络MR设计（Network MR）。

图5. 两阶段孟德尔随机化设计

①基因-暴露交互作用MR（Gene-exposure interactions）：MR研究设计还可以用于探讨基因-暴露因素在疾病发生中的交互作用现象，同时要求基因与结局的关联必须取决于暴露因素的状态。这种方法可以区分基因直接作用于结局，还是基因通过暴露因素而作用于结局。如Holmes等发现携带酒精代谢酶基因ADH1B rs1229984突变等位基因A的个体不饮酒或者少量饮酒的比例更高，进而发生冠心病和中风的风险亦显著降低^[3]。假设同时满足ADH1B rs1229984 A在饮酒者中与冠心病和中风的发生无关，这说明ADH1B rs1229984与冠心病和中风的关联不通过饮酒而发生（直接效应），可能会有另外的通路存在。因此需要有无暴露组或亚人群的基因-疾病无关联的证据支持。Brunner等同样使用酒精代谢酶基因（ADH，ALDH）的68个SNPs作为工具变量，发现饮酒不能增加前列腺癌的风险，但是可影响疾病预后^[4]。Taylor等使用大样本欧洲人群MR研究证实饮用咖啡不能降低前列腺癌的风险^[5]。

众所周知，现在的孟德尔随机化火爆了天，因为孟德尔随机化分析偏向于临床研究，更能展现出临床意义，只需要通过挖掘公共数据库的数据就能得到相似的结果，省钱省时又省力，感兴趣的小伙伴何不赶快行动起来呢？

参考文献

1.Timpson NJ, Nordestgaard BG, Harbord RM, et al. C-reactive protein levels and body mass index:Elucidating direction of causation through reciprocal Mendelian randomization[J].Int J Obes (Lond), 2011, 35(2): 300–308. DOI:10.1038/ijo.2010.137

2.Dekkers KF, van Iterson M, Slieker RC, et al. Blood lipids influence DNA methylation in circulating cells[J].Genome Biol, 2016, 17(1): 138. DOI:10.1186/s13059-016-1000-6

3.Holmes MV, Dale CE, Zuccolo L, et al. Association between alcohol and cardiovascular disease:Mendelian randomisation analysis based on individual participant data[J].BMJ, 2014, 349: G4164. DOI:10.1136/bmj.g4164

4.Brunner C, Davies NM, Martin RM, et al. Alcohol consumption and prostate cancer incidence and progression:a Mendelian randomisation study[J].Int J Cancer, 2017, 140(1): 75–85. DOI:10.1002/ijc.30436.Epub2016Oct8

5.aylor AE, Martin RM, Geybels MS, et al. Investigating the possible causal role of coffee consumption with prostate cancer risk and progression using Mendelian randomization analysis[J].Int J Cancer, 2017, 140(2): 322–328. DOI:10.1002/ijc.30462