PSM倾向得分匹配法学习指南

张春强2022 2023-02-15 发布于安徽

展开全文

1. 面对的问题-自我选择偏误

面对“参加就业培训可以增加参与者的未来收入吗？”**这个问题，首先我们我们不能简单的去比较是否参加就业培训对人们未来收入的影响，那样我们的调研对象就是“所有人”，而不是“参加就业培训的人”。其次，我们可能会发现参加就业培训的人的收入要比不参加就业培训的人的收入更低，难道就业收入是有害的吗？其实是因为参加就业培训的人可能是失业者、刑满释放着等等。

总结来看，在这个问题上，我们更想知道的是：参加就业培训者的状况比他们不参加就业培训改善了多少，即：

$ATT\equiv\mathbb{E}\left( y_{1i}-y_{0i}\right|D_i=1)$

ATT就是我们最为关注的参与组的平均处理效应，

$y_{1i}$

第一个字母表示是否参加培训，第二个字表i表示第几个样本，所以

$y_{1i}$

表示第i个样本参加就业培训的收入，

$y_{0i}$

表示第i个样本不参加就业培训的收入。但是我们发现在同一时空下，一个人要么参加就业培训，要么不参加就业培训，即

$y_{0i}$

是不可测的。

这就是我们面临的问题，PSM分析方法就是通过匹配来帮我们构造一个反事实的样本，进而使得

$y_{0i}$

可测，ATT可估。

2. 采用的方法-匹配

2.1匹配原则：

个体i的倾向得分为，在给定xi的情况下，个体i进入处理组的条件概率p（xi）=P（Di=1|x=xi），简记为p（x）。概率相近的个体便具有可比性，成为下一步分析的依据。

2.2匹配估计量的简单例子：

匹配估计量的简单例子.png

这个是只有一个协变量x的估计，其中i=1，2，3是对照组，i=4,5,6,7是处理组。

对于i=1这个个体，xi=2，处理组4~7中有个体i=5与之匹配，故

$\hat y_{01}=y_{01}=1$

$\hat y_{11}=y_{15}=8$

;

对于i=2这个个体，xi=4，处理组4~7中最为相近的是4和6，故

$\hat y_{02}=y_{02}=8$

$\hat y_{12}=\left(y_{14}+y_{16}\right)/2=7.5$

;

以此类推，最后算出所有个体参与培训、不参与培训的值，再求平均值：

ATT=[(8-7)+(7.5-8)+(7.5-6)+(9-7.5)+(8-7)+(6-7.5)+(5-7)]/7=-0.25

备注：匹配的过程一般都是计算机推导的，但是基本的原理要懂

3. 相似性的定义及其测度

3.1协变量的选择

我们用协变量来定义相似性：treat是干预变量，X是协变量，Y是结果变量。

（1）当协变量不影响干预变量，但是影响结果变量时，引入协变量可以提高干预精度；

（2）当协变量与结果变量没关系，会增加标准误差；

（3）当遗漏重要的协变量，会导致偏差；

因此，对结果有重要影响的协变量，无论是否对干预变量有影响，都应该引入协变量作为匹配的依据。

（4）最后，协变量多来自已经发表的文献。有依据有出处即可。

3.2匹配方法-这是计算机做的，但是基本的思想需要了解

（1）近邻匹配:

1对1匹配：为每个干预组个体在控制组中寻找距离最近的个体来匹配。如果出现距离相同的个体，可以随机选择一个匹配，或按照排序后第一个出现的个体进行匹配。

优缺点：由于匹配样本少，故估计方差大；每个匹配都是最近的，故偏差小

1对多匹配：为每个干预组个体在控制组中寻找多个相似个体进行匹配

优缺点：匹配样本多，估计精度提高；但与干预组个体匹配的第二个、第三个以及后边的控制组个体与干预组个体相似度降低，故偏差会增加

重复匹配：重复选择控制组的样本进行匹配，会降低最终匹配样本的样本量，估计精度下降

贪婪匹配：关注单个样本，要求每个干预组的个体都在控制组中找一个距离最近的，但这不一定是总体上最近的。

最优匹配：关注总体的偏差，即要求所有干预组个体同时进行匹配，寻找对所有干预组个体而言匹配上的总距离最小。因此如果关注平均因果效应，选择贪婪匹配比较好；若关心每个个体的匹配效果，要选择最优匹配，这样可以得到更加平衡的结果。

（2）卡尺匹配或半径匹配

（3）核匹配

（4）局部线性回归匹配

（5）样条匹配

经验①：最好进行一对四匹配，这样可以使得均方误差MES最小

经验②：如果控制个体不多，应选择又放回匹配；如果控制组个体比较多，应选择核匹配

经验③：尝试不同的匹配方法，然后比较结果，结果相似说明很文件；如果结果差异比较大，需要深挖原因。

4. 匹配效果检验

4.1共同支撑检验

首先是“共同支撑”的基本假定。在进行匹配时，为了提高匹配质量，通过仅保留倾向得分重叠部分的个体（尽管这样回损失样本容量）。具体来说，共同支撑集中任一个体的得分都必须大于控制组和处理组最小倾向得分中较大的那个，同时还需要小于控制组和处理组最大倾向得分中较小的那个。如果倾向得分的共同取值范围太小，则会导致偏差。

倾向得分的共同取值范围.png

然后是如何检验的问题。方法1是比较匹配前后的核密度图，最好的结果是匹配之后两条线很相近，这便代表“共同支撑集”范围比较大。

核密度图.png

方法2是画条形图显示倾向得分的共同取值范围。下图显示了大多数观测值都在共同取值范围内，因此在匹配时仅会损失少量样本。

倾向得分的共同取值范围 .png

4.2 平衡性检验

首先，平衡性检验的目的，是为了看看匹配后各个变量的均值有没有明显差异。主要看下表的三个数据：

平衡性检验.png

第一个数据：匹配前后各个变量的均值是否有明显差异（看Mean）。

第二个数据：或者看平衡后均值的偏差（看%bias），平衡后偏差小于10%，基本上是可以接受的。

第三个数据：看p值（或t值）。原假设是控制组与处理组没有系统性的差异，只要p＞0.05（或|t|＜1.96），就无法拒绝原假设，即可视为通过了平衡性检验。

5. PSM方法局限性

（1）大样本

（2）要求处理组和控制组有较大的共同取值范围

（3）要控制可观测的变量，如果存在不可观测的协变量，会导致“隐形偏差”

6. Stata命令及结果的查看

6.1 相关命令解读

首先，基本命令的解读。PSM命令的一般格式为：

psmatch2 D x1 x2 x3,outcome(y) logit ties ate common odds pscore(varname) qutetly

其中：

D为处理变量（treatment variable）；

x1 x2 x3协变量，即得分依据；

outcome(y)用来指定变量y作为结果变量（outcome variable）；

logit是选项，说明指定logit来估计倾向得分，默认方法是probit；

ties表示包括所有倾向得分相同的并列个体，就是不剔除它们；

ate表示同时汇报ATE（总体的平均处理效应）、ATU（控制组的平均处理效应）、ATT（处理组的平均处理效应），默认仅汇报ATT；

common表示仅对共同取值范围内的个体进行匹配，默认是对所有的个体进行匹配；

odds表示使用几率比（胜率p/(1-p)）进行匹配，默认就p进行匹配；

pscore（varname）用来指定某变量作为倾向得分，默认通过x1 x2 x3进行打分；

quietly表示不汇报对倾向得分的估计过程。

其次，psmatch2提供的不同的匹配方法。有：

（1）psmatch2 D x1 x2 x3, outcome(y)neighbor（k）noreplacement

K近邻匹配。默认k=1，即进行一对一匹配。noreplacement表示进行无放回匹配，默认进行有放回匹配，这个选项只能用于一对一匹配。

（2）psmatch2 D x1 x2 x3,outcome(y) radius caliper(real)

卡尺匹配。其中radius表示进行卡尺匹配，其中caliper(real)用来指定卡尺

$\varepsilon$

，必须是正实数。

（3）psmatch2 D x1 x2 x3,outcome(y)neighbor（k）caliper（real）

neighbor（k）caliper（real）表示卡尺内的k近邻匹配。

（4）psmatch2 D x1 x2 x3,outcome(y)kernel kerneltype（type）bwidth（real）

其中，kernel表示核匹配，kerneltype（type）用来指定核函数，默认使用二次核（epan kernel），bwidth（real）用来指定带宽，默认带宽为0.06

（5）psmatch2 D x1 x2 x3,outcome(y) 11r kerneltype（type）bwidth(real)

选项11r表示进行局部线性回归匹配，其中kerneltype（type）指定核函数，默认用三三核（tricubic kernel），bwidth（real）指定带宽，默认0.8

（6）psmatch2 D x1 x2 x3，outcome(y) spline。spline表示进行样条匹配。

（7）psmatch2 D x1 x2 x3，outcome(y) mahal(varlist)ai(m)

Mahal(varlist)表示进行马氏匹配，用于指定计算马氏距离的协变量。ai（m）表示异方差文件标准误，仅适用于马氏距离的k近邻匹配，m为正整数，用于计算稳健标准误的近邻个数，一般可让m=k。

最后是pamatch2的两个估计后命令。有：

（1）pstest x1 x2 x3，both graph。该命令用来估计是否平衡。both表示同时显示匹配前的数据平衡情况，默认只显示匹配后的情形。graph笔试图示各变量匹配前后的平衡情况

（2）psgraph,bin（#）。该命令是要画直方图来显示倾向得分的共同取值范围，选项bin（#）用来指定直方图的分组数，默认为20组。

6.2 案例应用

完善ing…

参考资料：

（1）葵花宝典：陈强的《高计计量经济学及Stata应用》第28章

（2）【计量地图】倾向得分匹配法（PSM）理论、操作与案例：https://zhuanlan.zhihu.com/p/125752955

（3）模型系列-PSM（Stata实操）：https://www.jianshu.com/p/216c0beb6fb0

（4）倾向得分匹配、双重差分倾向得分匹配(PSM、PSM-DID)-原理及stata实操（第一弹）：https://www.bilibili.com/read/cv2545056/

（5）双重差分倾向得分匹配(PSM-DID)-stata实操（第二弹）：https://www.bilibili.com/read/cv4360682?from=articleDetail

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：张春强2022 > 《倾向匹配》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

张春强2022

关注对话

TA的最新馆藏

全网爆火的chatgpt到底能帮我们做些什么？
关于国家社科基金【研究内容】中“研究对象”撰写思路与建议
在大顶刊《管理世界》发现新实证模型了，来看看你见过没？
学术论文中的主题语句，让段落清晰度倍增的秘诀
8大文献工具最好用的原来是它？
小白必看国内AI排行榜，无需爬梯免费好用！

喜欢该文的人也喜欢更多

热门阅读换一换