分享

倾向性评分分析的统计学考虑

 汉无为 2023-06-20 发布于湖北

前面,我们已经有过四篇关于倾向性评分的文章:倾向性评分分析手把手教你SAS实现倾向性评分匹配倾向性评分overlapping weighting的SAS实现(一)以及生存资料倾向性评分OW的SAS实现(二)。从代码实现的角度来说,是可以很轻松实现的。今天我们还是重点汇总一次在做倾向性评分分析时,需要重点考虑的一些统计学问题。

与RCT的原则比较

RCT中,接受何种处理与其潜在结局之间是相互独立的,这就意味着ATE(average treatment effect)等同于ATT(average treatment effect for the treated)。而在真实世界研究(RWS)中,由于混杂的存在,ATE与ATT并非等价。当我们基于倾向性评分(propensity score, PS)分析时,条件是,在给定的可观测的协变量组合下,处理与结局之间是条件独立的(即strongly ignorable),此时,我们认为关于处理的分配达到了伪随机化或者说事后随机化

降维

由于PS是协变量的一个函数,无论有多少个协变量,最后都可以综合成为一个PS,因而,PS实际起到了降维的作用。而在后续的分析中,研究者仍然可以将一些重要协变量的子集和PS纳入分析之中。

协变量选择

对于RWS,主要重点在于混杂偏倚的控制。

图片
协变量选择

很显然,如上图所示,PS主要是选择混杂变量C来计算进入处理组的概率。PS本身不是控制混杂,而是通过后续的匹配、分层、加权或者回归调整的方法,不同程度地提高组间非研究因素的均衡可比性,从而削弱非研究因素(协变量)对处理效应估计的影响。

因而,在协变量的选择中,结合专业知识,我们需要尽可能排除中介变量M、collider B以及工具变量IV,尽可能纳入所有已测量的混杂因素,当然,需要同时考虑到样本量的问题。一般地,有效样本量的考虑基于协变量数的10-20倍来计算。

需要注意的是,PS不适用于时依性协变量的混杂控制。此外,处理随时间发生变化或较为罕见时,PS可能失效。

PS分析

无论采用何种PS计算模型(logistic、机器学习等),每位观测对象进入处理组的概率均需不为零(即positivity)。得到PS后,需检验overlap assumption,即组间的PS需要交叉重叠(common support)。一般地,若某观测的PS值高于对照组PS的最大值或低于对照组PS的最小值,可考虑删去该观测;而若重叠范围有限,则不宜采用PS。

另外,PS后组间协变量应达到均衡,但是这个均衡并非针对实际的人群而言,也没有必要,只是针对当前进行PS的分组样本而言,因而,不需要通过假设检验的统计推断方法来进行检验。目前,用于评价组间均衡性的方法standardized mean difference (SMD)、图形法展示等。

还有重要的一点是,若在PS之后,协变量仍未达到均衡,我们此时可以考虑增加交互性或高次项,如限制性立方样条等,再进行PS,直到协变量达到均衡。流程可以参考如下:

图片
propensity score analysis
敏感性分析

基于不同的PS分析,得到的结果可能不同,一般地,我们需要借助敏感性分析来评估结论的稳定性。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多