【原】MR | 第2期.工具变量怎么选，在文章中怎么写？

新用户4064dVjo 2023-07-22 发布于北京

展开全文

上一期我们以证明“肥胖和冠心病的因果关系”为例给大家介绍了MR的必要性和理论基础（孟德尔随机化第一期），想必大家都已了解MR是介于传统的观察性研究和随机对照试验的一种中间类型。MR证据等级高，实施简便，正好补充了传统的观察性研究和随机对照实验的劣势。“万丈高楼起于基石”，只有夯实好基础，我们才能更好地运用MR解决实际科研问题。那么今天我们聚焦一个新话题——什么是MR？我们将从两方面进行分析：MR的定义、MR的三大核心假设。

1.MR的定义

我们开门见山，MR是利用非实验数据中的遗传变异来推断暴露对结局的因果影响。

上述定义中涉及3个关键术语：

1）非实验数据：流行病学研究包括观察性研究和实验性研究，上述“非实验性研究”可理解为观察性研究，包括横断面研究、病例对照研究、队列研究等任何研究人员未应用干预措施的研究。

2）遗传变异：在这里主要指单核苷酸多态性（single nucleotide polymorphism，SNP），即在基因组水平上由于单个核苷酸的变异所引起的DNA序列多态性。是单个碱基的转换或颠换所引起，也可以由碱基的插入或缺失所致。它普遍存在于人类和动物基因组，是指突变频率>l％的单核苷酸变异。也是人类可遗传的变异中最常见的一种，占所有已知多态性的90%以上。

3）暴露与结局：流行病学研究中的经典术语，暴露指代假定的因果风险因素。它可以是生物标志物、人体测量指标、饮食或生活方式因素，或任何其他可能影响结果的风险因素。结局：通常是疾病。

2.MR中将遗传变异(SNP)作为工具变量的三个核心假设

我们先通过一个例子（如上图）来过渡：既往研究显示高BMI是冠心病的危险因素，但是尚不明确与BMI相关的遗传变异对冠心病的影响，为了解决该科学问题，可开展MR，通过能够代表BMI的基因变异（即SNP）作为工具变量（instrumental variable， IV），推导BMI对于冠心病的因果效应。提到工具变量，接下来我们需要明确怎样的遗传变异才算作工具变量。

遗传变异满足工具变量的三个核心假设：

①相关性假设：遗传变异必须与暴露具有稳健的强相关性；以上为例，我们就需要寻找与BMI具有显著相关的遗传位点，如何寻找呢？去细看纳入研究的GWAS数据，里面会注明每个SNP的P值（这些细节一般会写在文章的方法学部分）。

②独立性假设：工具变量必须独立于混杂因素；以上为例，遗传位点与冠心病相关的其他危险因素（高血压、高血糖、高血脂、家族史、吸烟、饮酒等）无关。一般我们在撰写paper时不对独立性假设做额外的统计学检验，这要求我们在筛选SNP时阅读大量的文献，剔除既往文献中已报道的既与肥胖相关又与其他危险因素相关的位点。

③排他性假设：遗传变异应只通过暴露而非其他途径影响结局；以上为例，遗传因素只通过影响BMI影响冠心病，而没有其他路径。以外的其他通路影响结局时，该遗传变异既具有多效性，这种多效性可能导致独立性假设和排他性假设不成立。其中最容易出现的是SNP与结局相关，此时需要计算两者回归系数，剔除显著的个体。在后续的MR-Egger回归中（后续会详细介绍）也可以通过回归截距不为零且P<0.05时检查基因多效性。

理解了上述例子后，我们可以对“工具变量”的三个核心假设进行外延（如下图），其中假设1、2、3分别对应相关性假设、独立性假设、排他性假设。

总之，工具变量的选择是MR研究中的关键一环，因此需要特别注意相关细节。下一期，我们将分享MR的指导原则和总方针。

大家对于推送内容有任何问题或建议可以在公众号菜单栏“更多--读者的话”栏目中提出，我们会尽快回复！

参考文献：

Xu L, Borges MC, Hemani G, Lawlor DA. The role of glycaemic and lipid risk factors in mediating the effect of BMI on coronary heart disease: a two-step, two-sample Mendelian randomisation study. Diabetologia. 2017;60(11):2210-2220.