倾向性评分匹配（PSM）-1

闲庭之雨 2020-04-07

展开全文

转载

运用真实世界数据，开展治疗方案与预后关系研究 | 一键实现基于R语言的倾向性评分匹配（PSM）

PSM近年来成为观察性研究的加分技能

N Engl J Med （SCI 影响因子72.4）

二代药物支架PCI和CABG手术相比对多支冠脉病变冠心病的观察性研究，核心结果呈现的是PSM匹配的队列。Bangalore, S., et al., Everolimus-eluting stents or bypass surgery for multivessel coronary disease.2015

JAMA Internal Medicine.（SCI 影响因子16.5）

口服氟喹诺酮对主动脉夹层和主动脉瘤发生发展的影响，巢式病例对照研究，用PSM做敏感性分析。Lee, C., et al., Risk of Aortic Dissection and Aortic Aneurysm in Patients Taking Oral Fluoroquinolone. 2015

Eur Urol.（SCI 影响因子16.2）

局部治疗对转移性前列腺癌患者生存率的影响：国家癌症数据库分析，观察性研究，用PSM防止选择偏性。Loppenberg, B., et al., The Impact of Local Treatment on Overall Survival in Patients with Metastatic Prostate Cancer on Diagnosis: A National Cancer Data Base Analysis. 2017

N Engl J Med （SCI 影响因子72.4）

肠促胰岛素药物和心衰关系的多中心观察性研究，在敏感性分析部分做了PSM。Filion, K.B., et al., A Multicenter Observational Study of Incretin-based Drugs and Heart Failure.2016，图略。

为什么要做PSM？

如果验证已经在临床开展的某治疗方案疗效好，可以不随机分组。运用既往的病例资料开展观察性研究，其他指标影响预后评价，如何处理？

例如，针剂治疗的患者吸烟者多。吸烟会导致预后差，因此造成了针剂组预后差的假象。控制混杂就是考虑到其它因素影响后，评价暴露因素X对结局Y的独立作用。控制混杂非常重要。RCT研究是通过随机化分组控制混杂的。

观察性研究的常见误区是为了满足“组间可比性”，通过人为挑选研究对象强行配平表1。例如，研究服药和针剂相比对预后的影响。发现服药组女性多，为了满足组间性别可比，删除部分服药组女性患者，样本量减少了。又发现两组吸烟差异显著，删除部分吸烟患者，样本量又减少了。继续配平年龄、BMI等指标，最后发现样本量减少很多。

这样挑选研究对象强行配平表1，如果投稿到高质量期刊，审稿人会质疑研究者造假，认为研究对象存在选择偏性，因为临床真实情况不可能两组患者其他指标完全一致。如何解决呢？可以用倾向性评分匹配（PSM）的方法。

什么是PSM呢？

原理可以简单的理解为：用多个配对变量跟分组变量建立回归方程，根据方程每个研究对象算出一个值作为评分（score），评分相近的研究对象匹配。就像高考，单科成绩可以有差异，总分接近的考生被认为水平差不多。

如何实现PSM操作

数据中的HBP（是否高血压）是分组变量，0为对照组，1为病例组，NA代表缺失。每个人有一个唯一编码ID，以及性别sex、年龄age、体质指数BMI等变量信息。现在，我想根据性别、年龄和BMI，对分组变量做1:2配对。

使用易侕软件“数据操作”--“病例对照配对”

分组变量（HBP）、配对变量（sex、age、BMI）、研究对象编号（ID）。研究者根据需要设置匹配比例，例如1:2匹配。勾选“计算倾向性评分再按评分配对”。“倾向性评分配对病例对照相差范围”是指匹配时的评分差异，例如选择0.05表明评分差异在0.05分以内的可以配对。点击查看结果。就是这么简单！

易侕软件采用了智能化的优先顺序进行匹配，尽可能最大限定地为每个病例找到对照。自动编写R程序，自动摘录结果制表，直接输出需要用到的图表结果：

做好了！

得出配对组号、倾向性评分、配对编号等。

上图标明病例与对照的倾向性评分分布，方便判断哪些区间可用于匹配的资源有限，帮助研究者完善匹配策略。如果匹配条件中用于计算倾向性评分的变量里有连续性变量，软件自动再运行曲线拟合模型。

本例中对AGE和BMI进行平滑曲线拟合，重新计算评分，重新匹配。输出图表结果同上。输出的xls文件名带“_gam”以标明用GAM（广义相加模型）计算倾向性评分进行的匹配。图表结果略。

更详细的软件操作和结果解读视频如下：

匹配好的数据库跟含有其它变量的原始数据合并，就可以进行后续的分析了。数据库合并的内容可以参考：一键合并多个数据 | 基线资料表、实验室检查表、随访表……如何快速合并？

论文的统计学方法描述

可以参考新英格兰的这篇文章 Everolimus-eluting stents or bypass surgery for multivessel coronary disease. N Engl J Med, 2015. 372(13): p. 1213-22.（SCI IF=72）需要描述：临床上选择不同治疗方案的患者，基线资料可能存在差异。运用倾向性评分匹配（PSM）的方法使得队列的基线资料相似。

原文如下：

还需要描述：匹配的比例、倾向性评分的相差范围、用于匹配的变量等。原文如下：

观察性队列研究，如果做了PSM，需要呈现原始数据和PSM的两套结果。因为原始数据是最真实的，PSM是考虑了混杂之后的结果。相当于敏感性分析。

如果两套结果一致，表明治疗方案对预后的影响受混杂因素影响不大。
如果不一致，通过对比也可知考虑到混杂后治疗方案的独立作用。

例如NEJM的表1：

PSM小结

1、可用于观察性研究

队列研究设计，分组变量是暴露因素X
病例对照研究设计，分组变量是结局指标Y

2、用于配对的变量

通常匹配性别、年龄
如果匹配变量和X密切相关，存在假阴性的偏性，如果依然是阳性发现，表明X对Y作用强

3、做敏感性分析：PSM和原始队列都做分析

4、易侕软件基于R语言的PSM

可以灵活设置匹配比例（1：n），更加符合临床研究设计要求
自动实现连续变量的曲线拟合（GAM模型），更加精准拟合X和Y的关系

5、PSM好处：提高论文证据力度，控制混杂、防止偏性

参考文献

[1] Filion K B, Azoulay L, Platt R W, et al. A Multicenter Observational Study of Incretin-based Drugs and Heart Failure[J]. N Engl J Med, 2016,374(12):1145-1154.

[2] Bangalore S, Guo Y, Samadashvili Z, et al. Everolimus-eluting stents or bypass surgery for multivessel coronary disease[J]. N Engl J Med, 2015,372(13):1213-1222.

[3] Lee C, Lee M G, Chen Y, et al. Risk of Aortic Dissection and Aortic Aneurysm in Patients Taking Oral Fluoroquinolone[J]. JAMA Internal Medicine, 2015,175(11):1839.

[4] Loppenberg B, Dalela D, Karabon P, et al. The Impact of Local Treatment on Overall Survival in Patients with Metastatic Prostate Cancer on Diagnosis: A National Cancer Data Base Analysis[J]. Eur Urol, 2017,72(1):14-19.

欢迎关注EmpowerStats！