【原】从入门到精通，真实世界研究“倾向得分方法”10讲开启。饕餮大餐，欢迎学习！

妙趣横生统计学 2020-02-21

展开全文

"如何分析真实世界研究数据"系列（15）

我一直想写倾向得分方法，现在宅在家里，可以好好来介绍了！倾向得分方法是真实世界研究数据因果推断中重要的方法，主要用于控制混杂偏倚。现在它是大数据真实世界研究的明星技术。如果不懂倾向得分，真实世界数据分析也许会碰到一些困惑。

2006年，顶尖流行病学杂志《美国流行病学杂志》（Am J Epidemiol ）总结了真实世界研究控制混杂常用的五种方法：

1. 多元回归模型调整混杂

2. 倾向性评分匹配（PSM）后构建回归模型

3. 回归模型调整倾向性评分（PS）

4. 回归模型+加权（IPTW）处理

5. 回归模型+加权（SMR）处理

上述5种方法中，第2、3、4、5种方法都基于倾向得分进行拓展分析，可见其地位的重要性。

我计划采用10篇左右推文来系统地论述倾向得分法的概念、原理、方法和应用。这一系列教程，在国内任何书籍、文章都将绝无仅有！

第一讲一文读懂倾向得分

医学研究中，倾向得分方法是利用倾向得分这一指标来进行混杂因素控制的方法。现在很多人在使用倾向得分方法，但我估计会用倾向得分法这一技术的人中，大部分对倾向得分概念一知半解。因此，系列第一篇尝试通俗易懂地帮助大家了解这一概念以及它对混杂偏倚控制的重要意义。

1.什么是倾向得分？

假如，有一项关于肺癌药物的前瞻性队列研究，其暴露因素为治疗措施。治疗措施分为两组，一组是暴露组治疗措施是放疗+纳武利尤单抗，非暴露组则只有简单的传统放疗，结局为客观缓解率（ORR）,也就是有效率；由于是非随机化研究，患者可以自主选择选择暴露组药物还是对照组药物。

患者会怎么选择呢？有些人倾向选择非暴露组，有些倾向于选择暴露组。从一个整体来看，比如总共1000人，其中600人选择暴露组，400人选择对照组，那么整体人群选择暴露组的比例为0.6。

0.6是什么？0.6就是这组人群倾向得分的平均值。换言之，倾向得分就是这1000人中，每个个体倾向于成为暴露组的期望概率值。

具体到每一个个体，由于存在着差异性，每个个体的倾向得分可能都不相同。现在我们不妨做一个简单的、更具体的频率计算。由于这组人群包括了若干个变量，其中包括结局指标、暴露因素，还有两个可能的混杂因素：年龄和性别。基于上述信息，我们可以计算得到以下各组人群进入暴露组的比例。

可以看出，不同人群进入暴露组的比例是不同的，男性进入暴露组的比例比女性要高，年龄轻的入组暴露组要更高。这意味着男性倾向得分高于女性，年轻高于年老。

更细致地来看，男性年轻人接受“放疗+纳武利尤单抗”的概率最高。一个男性、小于60岁的人，倾向得分是0.75，那意味着，他有四分之三的可能性接受“放疗+纳武利尤单抗”治疗。如果是女性、又是大于60岁，那么入组暴露组的概率只有50%。

这些不同人群入组暴露组的比例，是个体选择暴露组的概率，实际上就是不同人群中个体的倾向得分。

如果数据库涉及的变量不仅包括年龄、性别，还有更多的特征变量，那么具体到个体上，每位研究对象可能都会拥有一个属于自己、异于别人的得分（当然很多个体倾向得分很可能是相同的）。不同得分意味着不同的倾向性。

比如：男性、70岁，杭州人，离婚、公务员倾向得分是0.82分，而同样70岁，杭州人，离婚、公务员的一名女性则是0.68分。

不同倾向性意味着什么？

倾向得分在个体讨论上并没有太大意义。比如甲的倾向得分是0.7，乙为0.3，那么最后可能性是甲选择了对照组，而乙反而选择暴露组。这是因为个体层面上，组别选择充满各种随机性。但是，倾向得分在群体层面上，就能体现价值。比如一组10人平均倾向得分是0.8，另外一组10人倾向得分是0.5，那么第一组10人成为暴露组的比例往往要高于第二组。

2.倾向性与组间分组均衡性的关系

由于个体选择暴露还是对照组时存在着不同的倾向性，在一个非随机对照样研究里，暴露组和对照组在人群的分布结构上往往存在着较大差别。

本例中，由于男性、年轻人更倾向于进入暴露组，而女性、老年人进入暴露组的倾向性稍低，最后的结局便是，相对女性、老年人，更多比例的男性、年轻人进入暴露组。

男性和女性进入各组的比例不同

因此，暴露组和对照组年龄结构和性别结构体现明显的差异。对于暴露组而言，男性比例占据62.3%，对照组只占48.7%；>=60岁占55.7%，<60岁则占69.2%。显然分组不均衡！

3.分组不均衡意味着什么？

分组不均衡，意味着暴露组更多的是男性和年轻人。即便是暴露组相对对照组治疗效果显著，这个效果也不一定是治疗措施添加纳武利尤单抗造成的，也许是因为男性或者年轻人效果比女性和老年人效果要好。此时，男性和年轻人就是常所说的混杂因素。

关于混杂因素，可以关注之前的文章：写临床研究SCI文章，不能不了解混杂因素与混杂偏倚！

现在不妨回顾下成为混杂因素的三大条件。

1.混杂因素与暴露因素有关。这就意味着分组不均衡。就本例而言，不同性别入暴露组的比例不同（或者暴露组和对照组性别比例不同）。

2.混杂因素也是结局的一个影响因素。年龄和性别如果是混杂因素，那么它们必须是影响疗效的因素，比如男性比女性效果要好，大于60岁老年人效果要差。

3.混杂因素不是中间变量。假如性别是中间变量，那么意味着暴露因素对结果的效果将通过性别来起作用。通俗来说，添加了纳武利尤单抗之后，干预措施首先将改变性别，然后再改变效果。显然，性别是无法被改变的，所以性别不是中间变量。

这几个条件中，一般最关心的是第一个条件，即分组均不均衡的问题。性别、年龄、甚至其它变量可能分组不均，而分组不均衡的变量，很可能是混杂因素。

现在我们不妨分析下，年龄和性别这两个分组不均衡变量对结果带来的混杂偏倚。

一个真实世界研究，最基本处理混杂偏倚的方法是回归分析方法。比如，上述的例子中，我们可采用logistic回归方法来发现混杂因素、控制混杂偏倚。

首先进行单因素的logistic回归分析。该分析没有放入年龄和性别，无法控制混杂偏倚。结果是P=0.002，具有统计学差异,OR=1.222。

接着，纳入分组不均衡的性别和年龄两个协变量，再进行多因素logistic回归分析。如果性别和年龄是混杂变量，那么这一过程会控制偏倚，从而得到真实的关于暴露因素的效应。结果group变量 P=0.361，OR=1.130，没有统计学意义，和单因素回归分析出入很大。

这一出入说明什么？一旦存在混杂偏倚，单因素分析得到的是不真实的结果，采用多因素回归分析则可以控制混杂偏倚，因此其结果将不同于单因素logistic回归。多因素结果更加真实可靠。

因此，由于每个人入组倾向不同，分组不均衡，非随机对照研究很可能存在着混杂因素，一般可以采用多因素回归的方法排除混杂因素的干扰。

本例中，为什么单因素回归P<0.05，而多因素居然P>0.05？这是因为，单因素分析结果看起来暴露因素和结局相关，但实际上是由于年龄性别（混杂因素）既和暴露因素相关，又和结局相关，所以造成暴露因素和结局存着在相关性。

总结来说，倾向得分不同将造成分组不均衡，分组不均衡很容易造成混杂偏倚，因此倾向得分的不同很可能会造成混杂偏倚！

4.复合倾向得分

回归虽然能够处理混杂偏倚，但它能应对的往往是少量的混杂因素。真实世界研究研究里，比如基于医院电子病历库的研究，混杂因素往往很多，可能超过十来个、甚至是几十个！回归分析过程中，当一个模型自变量几十个以上，变量之间的关系趋向于复杂，回归方法效果将变得不那么好，建模很可能失败。我们将无法探讨暴露因素与结局的真实关系。

怎么办？回归模型要进行降维处理！一种办法是把这些混杂变量合并到一起，将多个自变量变成一个自变量！

现在我们把年龄和性别放在一起，形成一个新的复合变量（见下表），合并之后双变量变为单变量（降维了），之前我们要应付性别、年龄、现在只要应付一个复合变量就行了。同理，100个变量也可以合并变成一个复合变量。这就是降维处理！

同时，一个复合变量的基础上，可以合并形成一个倾向得分。我们可以看出，这个复合变量有4个水平，每个水平入组暴露组的比例是不同的，那意味着，每个人群倾向得分不同，男性<60岁最容易进入暴露组，女性>60最不太进入暴露组。

所以最后结果就是暴露组拥有更多的男性年轻人，分组就会不均衡，暴露组和对照组在倾向得分上就会不同。本案例中，我们可以绘制一张直方图来比较暴露组和对照组倾向得分分布。

它们存在着差异！上图虽然比较简陋，但可以看出，对照组倾向得分更低，暴露组倾向得分更高一些。暴露组倾向得分平均值为0.62，对照组为0.59分。

当然，多数时候倾向得分图不难看，比如下方三图，分别代表了不同的倾向得分状况。

倾向得分差别太大，分组均衡性太差，估计是大多数变量都分组不均衡
分组均衡
倾向得分存在一定的差别，可能存在着若干个混杂变量，他们分组不均衡。

这里面有一个非常重要的特征需要交待：如果暴露组和对照组复合变量倾向得分均数相同，那么两组个体特征基本上没有太大差异。换言之，如果倾向得分相同，那么暴露和对照组分组一般就是均衡的，我们无需一个一个考虑原始变量。反之，如果暴露组和对照组复合变量倾向得分均数不相同，那么暴露组和对照组中将至少一个原始变量分布存在着差异。所以复合倾向得分完全可以代替原始变量来反映两组人群的均衡性！