倾向性评分匹配（Propensity Score Matching）的基本要点

新用户8943QyqL 2023-02-14 发布于广东

展开全文

长青藤医学编辑

作者：张科宏

制版：Freda

2020.08.18

倾向性评分匹配（Propensity Score Matching）这个词，相信大家都不陌生。

我用倾向性评分匹配作为关键词在PubMed上做了检索，出来就是下面这张图：x轴是年份，从1963年开始到2020年结束，y轴是每年发表的论文数量。

从这张图中大家可以看到，使用倾向性评分匹配的研究数量，从2000年开始呈现爆发式增长，显然是个好东西。

倾向性评分匹配是什么，怎么用，能够达成什么目的，这还得从一个笑话说起：话说两个医生聊天，其中一个说：我今天完成了行医生涯中第1000例心脏手术，1000个病人，到今天为止900个还活着。

另一位医生不以为然：我也做了1000例心脏手术，到今天为止940个还活着，94%比90%，我的水平更高。

这么说话，显然是不公正的。

原因：两位医生手术刀下的病人心脏病种类、病情严重程度、年龄很可能不一致，而这些因素和医生水平混杂在一起，共同决定了患者的预后。因此，两个百分比的差异既可能是医生水平不同造成的，也可能是林林总总的混杂因素不平衡导致的。

解决方案：招募一群心脏病患者，随机分配到两个组别，分别由两位医生主刀，对比预后。这是随机对照临床试验-RCT。

RCT被现代医学推崇，其根源是：随机平衡了混杂因素，因此，观测到的结局差异可以归因到干预的差别。

如果不做RCT，有没有方法能够平衡混杂因素呢？

有！倾向性评分匹配就是一种。

下面，我们用2018年发表在外科领域顶级期刊外科学年鉴上的一篇论文作为实例，学习倾向性评分匹配的基本要点。

Outcomes After Minimally-invasive Versus Open Pancreatoduodenectomy

A Pan-European Propensity Score Matched Study

胰十二指肠切除微创和开腹手术预后的对比：一个泛欧洲倾向性评分匹配研究

(DOI: 10.1097/SLA.0000000000002850)

研究对象：

2014到2017年在53家德国和荷兰医学中心接受胰十二指肠切除术的4220名患者，其中730名接受了微创手术，剩余3490名患者接受了开腹手术。

研究目的是看哪种手术方式术后30天内严重并发症更低。

下面是论文方法部分关于倾向性匹配的描述。

第一句：

Propensity score matching was applied to achieve a balanced exposure groups at baseline (ie, minimal confounding), in accordance with the recommendations by Lonjon et al.

关键词： “baseline”，明确告诉读者：我匹配的是基线特征，手术中和手术后发生的事情不管。

有些人可能会说：并发症不仅仅取决于基线特征，还和手术中手术后发生的事情，比如：失血量有关，术中出血越多，术后并发症越多，因此只对基线特征进行匹配是错误的。

你说别人错误是错误的！

为什么错，还得从倾向性评分的定义说起。

倾向性评分，评的是具体每一位患者更加倾向于接受微创还是开腹手术，回到RCT，随机的目的是让每一个入组的患者接受微创手术的几率相等。

在回顾性研究中，患者接受微创还是开腹手术，受到基线特征的影响，比如：病情比较复杂的患者，医生会更多地考虑开腹。

倾向性评分匹配的就是这个，科学的描述是：匹配两组患者接受微创手术倾向性（即几率、目的）和RCT一样达成混杂因素的组间平衡。

这个做法背后的基本道理是：决定某一个特定患者接受微创手术倾向性的因素，只能是手术前就存在的东西。

可能有人会说不对，我医生决定微创还是开腹，也会考虑到手术中和手术后可能发生的事情，比如出血量多少。

不错，但是，医生预判手术中和手术后可能发生的事情，不是瞎猜，而是根据手术前的情况，也就是基线特征去推测。

所以，纳入倾向性评分必须是手术前就有的事情，具体包括人口学和基线特征。

如果把基线特征之外的东西纳入了倾向性评分，那么这个研究从根本上就站不住脚。

第二句话：

The probability to undergo MIPD for each patient (ie, the propensity score) was obtained from a logistic regression model.

每一个病人接受微创手术的几率，也就是倾向性评分，是用逻辑回归得出的。

第三句话：

The study entry survey was used to ensure all reported MIPD selection factors were included as covariates in the model to further reduce potential confounding by indication.

这句话告诉读者：

纳入回归模型的变量不是我拍脑袋拍出来的，而是我事先对参与这个研究的医生做了一个调研，询问他们在选择微创还是开腹手术时会考虑哪些因素。

第四句话：

Final covariates were age, sex, BMI, ASA, Charlson comorbidity index, ECOG, tumor location (pancreas vs periampullary / distal common bile duct vs duodenum), suspected malignancy, organ involvement on imaging, multivisceral resection, porto-mesen-teric vein resection, and pancreatic texture (Supplement 1, http://links./SLA/B435).

交代最终纳入倾向性评分的变量都有哪些。这个事情特别重要，必须交代。

如果论文中不做交代，读者就无法判断你的匹配是否靠谱。

第五句话：

MIPD cases were analyzed intention-to-treat, regardless of conversion to open surgery, and matched in a 1:1 ratio to OPD controls based on the propensity score with a standard caliper width of 0.2.

告诉读者几件事情：

1、数据分析采用了意向治疗原则，微创转开腹患者，算微创；回顾性研究采用意向治疗原则，背后的道理，我们以前的栏目有特别的解读，今天不具体展开。

2、匹配比例是1:1；

3、匹配的标准是差别不超过0.2。也就是说：两个病人要相互匹配，倾向性评分差别不超过0.2个标准差。这一点也非常关键。如果作者不做说明，别人就无法判断你匹配的好还是不好。

总结一下倾向性评分匹配，首先你要知道需要匹配的是什么，也必须知道要告诉读者什么，他们才能知道你的匹配是合格的，而这些东西，只要你能够从常识和基本逻辑角度出发，掌握基本道理，就没有什么难度。

欢迎留言讨论和分享~

SCI论文编辑|修回支持|学术培训