天才的假设—孟德尔随机化！

骨科笔记 2024-02-11 发布于甘肃

展开全文

孟德尔随机化的起源

孟德尔随机化(mendelian randomization,MR)方法的提出，为解决RCT难以开展，以及观察性研究无法排除混杂因素和反向因果的关联等问题提供了有效的途径。

1986年，Katan首次提出:基于等位基因在配子形成时遵循随机分配原则，可用基因型作为待研究中间表型的工具变量来推断其与疾病状态的因果关联，其效应估计值不会受到混杂因素及反向因果关联的影响。

2003年，George首次发表MR文章于IJE杂志，提出MR有助于理解疾病的环境决定因素，正式提出MR的研究框架和研究设计。02孟德尔随机化的定义

孟德尔随机化（Mendelian Randomization, MR）是一种基于全基因组测序数据（GWAS数据），利用单核苷酸多态（SNP)作为变量工具（Instrumental Variable, IV），用于揭示因果关系的新型流行病学方法。

简而言之，孟德尔随机化是利用自然界中随机分配的基因对表型的影响，来推断表型对疾病的影响。03孟德尔随机化的原理

MR是利用工具变量（Instrumental variables，IV）来研究因果性，处理混杂因素的一种遗传流行病学方法。①工具变量z与混杂因素u无关联(独立性)；②工具变量z与暴露因素x有关联（关联性）；③工具变量z与结局变量Y无关联，z只能通过变量X与Y发生关联（排除限定准则）。

全基因组关联分析（Genome-wide association study）是指在人类全基因组范围内找出存在的序列变异，即单核苷酸多态性（SNP），从中筛选出与疾病相关的SNPs。

上面都是比较抽象的概念，下面咱们通过一个例子更直观的理解MR。假设小伙伴想研究肥胖（X）对二型糖尿病（Y）的关系，但是通过有关实验得出肥胖人群确实更容易罹患二型糖尿病。但是这样，只能得出两者共同发生的概率比较高，我们仍然不能说明肥胖是二型糖尿病的危险因素。

比如，肥胖可能通过影响血压、血脂、胰岛素抵抗（U）这些指标进而影响二型糖尿病的发生；再比如二型糖尿病容易引起肥胖，而不是肥胖引起二型糖尿病。其实，这就是较难排除混杂因素和反向因果的影响。

而MR可以通过引入遗传变异（基因Z)的数据，非常完美的规避这两个痛点，如图所示，但是做MR要有3个假设前提：

1. 基因M要和肥胖（暴露因素）强相关联。—关联性假设

2. 基因M和结局变量二型糖尿病和其他混杂因素没有关联。—独立性假设

3. 基因M只能通过影响肥胖对二型糖尿病造成影响，而不能通过其他途径影响二型糖尿病。—排他性假设

同时满足以上三个条件的，我们就可以把该遗传变异代替为肥胖的工具变量（IV）。

04孟德尔随机化的优势和局限01MR的优势

①遗传相关中，因果关系的方向是确定的，遗传多样性导致了不同的表型，反之则不成立。

②一般情况下我们所测量的环境暴露因素都或多或少与行为，社会，心理等因素相关，造成偏倚。但遗传变异则不受这些混淆因素影响。

③相对来说，遗传变异与其效应的测量误差较小。

④目前GWAS的数据相对容易获取。02MR的局限

①弱工具变量偏倚(weak instrument bias):单个遗传工具所能解释的表型变异程度有限，需要扩大样本量以获得足够的把握度。

②多效性问题(pleiotropy):当工具变量存在多效性问题，其因果推断的结论解释需谨慎，需要采用不同的方法进行分析，以期得到稳健的结果。

③Beavis效应:基于GWAS结果的MR可能会出现“胜利者的诅咒(the winner’s curse)”偏倚。在两独立样本的MR中使因果关联被低估。

④发展补偿(canalization):对于某些不良暴露，个体在长期发育过程中可能会形成补偿机制，降低不良遗传因素的影响，可能会引起效应值的高估。

⑤生物学机制(biological mechanism):MR的结果解释需要生物学机制的支持，不能仅依靠统计学效应值。05孟德尔随机化地主要类型

两样本MR

我们重点介两样本MR，两样本MR的设计策略为，获得“基因-暴露”和“基因-结局”关联的样本分别来源于两个独立样本(如GWAS与暴露，GWAS与结局的关联数据)要求两样本来自同一种族人群。因为样本量较大，该方法可以获得更大的把握度。目前，两样本MR因为全球大量GWAS合作组的公共数据而被广泛使用。06孟德尔随机化的实例文章

好啦，既然我们了解这么多有关MR的知识，那么我们通过一篇文章更深入的学习一下两样本孟德尔随机化的方法。参考文献：柴红强,庞磊,吴明等.利用两样本孟德尔随机化方法探究茶摄入量与膀胱癌发病风险的因果关系[J].现代肿瘤医学,2023,31(18):3450-3454.