倾向值(Propensity Score,倾向性得分)分析近些年来火的一塌糊涂,PubMed自由词搜索Propensity Score,相关文章近些年大有井喷之势(图标数据截止2020.05.21)。 但严格来说,倾向性得分算不得一种“分析”方法,而是一种用于数据处理的方式,常用于观察性研究混杂因素的控制。比如你想研究施加某种干预对结局指标是否有改善,数据来自回顾性的既有资料的收集,由于是观察性研究,大概率存在混杂因素在组间不均衡的问题(如基线不平),这个时候你就可以考虑倾向性得分分析了。 PS就是以干预因素(组别)为因变量,以所有观测到的非研究性因素为自变量进行logistic或probit回归,在给定的协变量条件下,个体接受干预因素处理的概率。根据PS,我们就可以对试验组和对照组进行筛选,使得不同组的非研究性因素实现均衡,从而达到控制的目的。倾向性得分本身并不能控制混杂,而是通过PS匹配、加权、分层或进入回归模型直接调整混杂等方式,不同程度地提高对比组间的均衡性,从而削弱或平衡协变量对效应估计的影响,达到“类随机化”的效果,又称为事后随机化。简单理解,就是从大量的样本数据中将具有共同特征的干预组和对照组样本挑选出来,然后对这些符合要求的样本进行分析。 经检验发现吸烟和非吸烟组的数据均呈非正态(数据非正态分布,宜用中位值[25%分位数,75%分位数]表示),如果直接采用两独立样本非参数检验,结果如下: 但同时我们也发现,很多的混杂因素在吸烟和非吸烟组中也具有统计学意义,这样以来我们就不能明确出生体重在吸烟和非吸烟组的不同是由于吸烟这个因素造成的还是由于其他的混杂因素造成的。 注:①我不知道老外的这个教育水平是怎么个意思,本例按连续变量处理;②经检验年龄和教育水平均呈非正态分布;③正态性和方差齐性检验、均值、标准差、中位值、百分位数都可以通过explore过程获得(Analyze>> Descriptive Statistics >> Explore…);非参数检验:Analyze >> Nonparametric Tests>> Independent Samples…;分类资料统计及卡方分析:Analyze >> Descriptive Statistics >> Crosstables… Data→Propensity Score Matching… Group Indicator(组指示变量):选入需要考察的干预因素,本例为mbsmoke;
(1)二分类logistic回归模型:首先给出的是以吸烟(1=吸烟者;0=不吸烟者)为因变量、以需要校正的变量为自变量构建二分类logistic回归结果,采用的是enter方法,二分类logistic回归可参加《因变量二分类资料的logistic回归》。后续每个研究对象的PS值就是根据该回归模型得出的。
Data>>Select Cases… 选择matchid不为0的个案 经检验发现母亲教育水平(Z=-3.163,P=0.002)、是否饮酒(chi2=12.097,P=0.001)在组间仍有统计学意义,我们需要重新进行倾向性匹配,Match Tolerance(匹配容差)设为0.02时共成功匹配843对,是否饮酒在组间仍有统计学意义(chi2=3.957,P=0.047),Match Tolerance最终设为0.01时共成功匹配834对,经分析各混杂因素在组间实现均衡,结果如下表。结果表明扣除其他因素的影响,孕期吸烟对新生儿的体重的确有影响(Z=-10.408,P<0.001)。 2020.05.21 |
|
来自: Memo_Cleon > 《待分类》