分享

一文了解什么是倾向得分匹配PSM?

 Mark_killua 2020-07-10

倾向得分匹配,在医学研究及计量经济领域都有广泛应用,其目的在于减少数据偏差和混杂因素的干扰。

很多统计软件都支持PSM,如SPSS和stata。SPSSAU最新版本也提供了倾向得分匹配。

下面我们就一起来了解下,究竟什么是倾向得分匹配?以及如何分析?

PSM解决的是选择偏差问题(即控制混杂因素),倾向得分配比就是利用倾向评分值,从对照组中为处理做中的每个个体寻找一个或多个背景特征相同或相似的个体作为对照。这样就最大程度降低了其他混杂因素的干扰。

比如,想研究‘读研究生’对于收入的影响。一种简单的做法是直接对比‘读过’和‘没有读过’这两类群体的收入差异,但这种做法并不科学。因为还可能存在其他变量影响着研究结果,如性别,年龄,父母学历,父母是否做教育工作等因素都会干扰到研究。

因此,PSM正是为了减少这种干扰。PSM可实现找到类似的两类人,他们的基本特征都基本一致,主要区别在于‘是否读过’研究生。这样可减少干扰因素差异带来的数据偏差和混杂干扰。

一、案例背景

当前有一项‘读研对于收入影响’的研究,共收集1000个研究对象(样本)。其中有的研究对象‘读研究生’,有的研究对象‘没有读研究生’,希望研究是否读过研究生,对于年收入的影响情况。其他变量还包括父母学历,父母是否从事教育相关职业等。

二、操作步骤

选择【计量经济研究】--【倾向得分匹配】。

【研究变量】:放入主要研究变量。本例中为“是否读研”

【特征项】:放入其他可能影响结果的变量。本例中为“父亲学历”、“母亲学历”、“父亲是否从事教育”、“母亲是否从事教育”。

依次将变量放入,点击开始分析。

SPSSAU默认使用最邻近匹配法,进行匹配。抽选方法可以选择不放回抽样和放回抽样两种。

勾选[保存信息],可自动保存匹配得分、匹配关系、匹配成功次数及匹配ID。

三、结果解读

1 基本信息汇总

从上表可知:本次PSM分析使用最邻近匹配方式,并且精确匹配优先的算法,且使用放回抽样方法。总共待匹配项(‘读过研究生’的样本数量)为233个,全部都实现精确匹配成功,匹配成功率为100%。

此表格仅列出算法的过程信息等,具体匹配效果应以下表格即PSM平行假设检验表格为准。

2 平行假设检验

从上表可知:在匹配前,实验组和控制组(是否读研两类群体),他们的父母特征,包括父亲是否从事教育,父亲学历和母亲学历均有着显著性差异(p 值 <0.05),也即说明是否读研两类群体,他们的父母背景特征确实有着不一致性,父母背景特征属于干扰因素。

在匹配之后,‘父亲是否从事教育’,‘母亲是否从事教育’,‘父亲学历’和‘母亲学历’这4项干扰因素,在实验组和控制组两组间并没有呈现出显著性(p 值>0.05),即说明匹配之后,实验组和控制组在父母背景特征上具有一致性。

同时针对标准化偏差值来看,在匹配之后,该值全部均为0,小于20%,即说明匹配之后,‘父亲是否从事教育’,‘母亲是否从事教育’,‘父亲学历’和‘母亲学历’这4项上,实验组和控制组的特征基本一致。(PS:本案例数据较好,因此匹配后标准化偏差完全为0%,实际研究中可能较少出现此类现象)

针对‘标准化偏差减少幅度’来看,该值为100%,也即说明PSM匹配后,实验组和控制组的个体特征差异性,得到了非常明显的改善。匹配前,实验组和控制组在干扰因素之间的平均值差异明显,但匹配之后,实验组和控制组在干扰因素之间的平均值差异不明显。

综合上述说明可知:此次PSM有着良好的效果,PSM匹配后数据可用于进一步科学研究使用。

SPSSAU系统返回的weight信息数据,weight为0表示匹配成功次数为0,weight大于0说明肯定匹配成功(至少匹配成功1次),因此后续研究时,先筛选出weight大于0,然后再进行分析。比如本研究‘是否读研究生’对于‘年收入’的差异,因此可先筛选出weight大于0的数据,然后再进行t检验分析,对比‘是否读研究生’两类群体‘年收入’的差异性。

3 标准化偏差变化对比图表

通过标准化偏差的变化情况,可以了解到每个干扰因素修正前后的变化情况。

如果标准化偏差变化明显,则说明匹配效果较好。由于图中处理后的标准化偏差均为0.00%,说明匹配会让实验组和对照组数据时干扰因素特征的不一致得到明显的改善,意味着匹配效果良好。

四、其他说明

(1)匹配之后如何进行后续研究?

选中‘保存信息’后,SPSSAU系统返回的weight信息数据,weight为0表示匹配成功次数为0,weight大于0说明肯定匹配成功(至少匹配成功1次),因此后续研究时,先筛选出weight大于0,然后再进行分析。

(2)匹配效果不好怎么办?

PSM平行假设检验用于判断匹配效果,而且匹配效果是综合各项指标判断。如果各项指标均‘很差’,可以考虑以下几种做法,分别是:修改匹配方式,修改半径匹配的阀值,修改抽样方式,以及更换干扰因素项等,多次尝试对比找出最优结果即可。同时,PSM匹配并无完美的匹配效果,通常综合各项指标分析,在可接受范围内即可。

以上就是本次分享内容,登录SPSSAU官网了解更多内容。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多