【香樟推文2435】从交叠双重差分法到堆叠双重差分法——举例与讨论

湖经松哥 2022-03-28

展开全文

图片来源：Bing

原文信息：Deshpande, Manasi, and Yue Li. 2019. 'Who Is Screened Out? Application Costs and the Targeting of Disability Programs.' American Economic Journal: Economic Policy, 11 (4): 213-48.DOI: 10.1257/pol.20180076Andrew Goodman-Bacon, Difference-in-differences with variation in treatment timing, Journal of Econometrics, Volume 225, Issue 2, 2021, Pages 254-277, .

引言经典的双重差分法比较处理组和控制组在政策冲击前后变化的差异，即“差异之差异”。在满足平行趋势假设的情况下，下式中

即经典双重差分估计量。

（1）经典DID考察两个组别（处理组和控制组）、两个时间窗口（处理前和处理后）的情形。在更一般的情况下，政策冲击的时点存在差异，此时模型区别于经典DID的2×2设定，将（1）式中的Treat、Post虚拟变量改变为一般化的个体固定效应

和时间固定效应

，交乘项改变为一般化的

，即得到双向固定效应双重差分法（TWFE Staggered DID，交叠双重差分法）：

（2）近期，AER、RES、JoE等期刊上发表的大量文章表明，在处理效应存在异质性时，传统的双向固定效应双重差分法存在偏误。将估计系数β进行分解，可以解释这种偏误的来源。Goodman-Bacon（2021）证明，（2）式得到的β估计值可以分解为若干2×2DD估计量的加权平均数。这些DD估计量按照处理组和控制组的相互处理状态可以分为4类：早处理个体vs从不处理个体；晚处理个体vs从不处理个体；早处理个体vs晚处理个体（尚未处理个体，not-yet-treated）；晚处理个体vs早处理个体（已处理个体，already-treated）。可以看出，如果满足平行趋势假定，前三种情况的控制组都是合理的。但第四种情况中，早处理的个体作为晚处理个体的控制组，此时，控制组的趋势掺杂了处理效应，因而不是一个好的控制组。当第四类在所有2×2DD估计量中占有较大比例时，便可能导致β估计值与实际的处理效应相差很大，甚至可能具有相反的符号。对此，Goodman-Bacon提出：根据上述DD分解定理，可以计算这四类2×2DD估计量的具体大小和权重，并考察第四类估计量的权重和大小情况。如果第四类估计量的估计系数与其他三类估计量相比相差不大，且权重很小，则不会对结果产生显著影响，此时可以接受TWFE的估计结果。但如果第四类估计量的权重很大，便需要采取其他估计方法，以获得对真实处理效应的更优估计。现有的可行方法包括Event Study（事件研究）、Reweighting Estimation（重新赋权估计）、Counterfactual Estimation（反事实估计）和Stacked DID（堆叠DID）等。

Stacked DID方法是一个应用先行的方法，目前在Cengiz et al.(2019)、Deshpande and Li(2019)和Fadlon and Nielsen,(2015)中得到了初步应用。这里以Deshpande and Li(2019)的文章《谁被筛选了？申请成本和残疾人保障计划的指向性》为例，简要介绍Stacked DID的使用原理、方法并进行简单的讨论。

研究背景

残疾人保障计划在发达国家中实施得越来越广泛。残疾人社会保障保险（Social Security Disability Insurance，SSDI）是美国实施的一项残疾人保险计划，此计划利用公共资金为残疾工人提供金钱和医疗支持。截至2015年，该计划的服务对象已经达到900万人。此外，补充保障收入（Supplemental Security Income，SSI）也为超过700万低收入残疾人提供了保障。这些计划都旨在为残疾程度较高、收入较低的残疾人提供保障。政府有效实施这些计划的重中之重就是确定哪些群体是真正需要帮助的对象。而在此之前，残疾人为申请参与此计划，需要主动提交诸多资料，包括但不限于提交其财务状况记录、医疗记录及其他辅助资料，同时还要了解并熟悉申请流程，这都构成了残疾人申请参与计划的成本。这些成本既可能屏蔽那些不太需要参与此计划的“不合格者”，也可能屏蔽那些需要参与此计划的“最合格者”——健康状况很差、生活困苦而受教育程度较低的残疾者甚至可能会因为不熟悉申请保障计划流程信息而被此类计划拒之门外。因此，总体来看，申请成本对保障计划的指向性究竟有什么影响，并没有一致的结论。事实上，由于鉴别真正有需要的残疾人会耗费大量的管理资金，政府也一直在致力于探索有效率的政策设计来提高此类计划的选择性。本文利用美国社会保障局外地办事处关闭时间的差异考察了申请成本对残疾人保障计划指向性的影响。此处值得注意的背景是：美国社会保障局（SSA）外地办事处可以为残疾人填写申请表提供必要的帮助，但不对残疾人的医疗状况评估，对残疾人能否参与保障计划也不具有裁定权。因此，社保局办事处的存在与否，仅影响申请者的申请成本，而不影响申请者是否申请成功的概率，这可以排除“办事处本身有助于增强计划指向性”的竞争性解释。本文的研究发现，社保局办事处的关闭导致申请者的成本增加，导致了残疾人保障计划更加不具有针对性，无益于改善社会不平等问题。虽然残疾人保障计划是为增进残疾人福祉而设计的，但在申请成本增大时，它反而加剧了低收入残疾人群体与高收入群体的不平等。

识别策略

作者使用了美国社会保障局的行政数据、SSA计划办公室提供的与申请者数量和具体背景信息有关的详细数据、社保局办事处所处位置地理数据和关闭日期有关数据等丰富的来源构造了一份丰富的数据集，数据有关细节在此略去，感兴趣的读者请参见原文。首先，为了检验办事处关闭时间是否具有选择性，作者利用办事处和其所处地区特征进行了平衡性检验，结果表明，尽管某些因素在处理组和控制组之间有显著差异，但并为对处理时间呈现出一致的选择性，可以认为处理时间随机，这为作者利用办事处关闭的时间差异进行识别设计提供了可能。

图（1）

作者将关闭的社保局办事处（closing）记为c，样本期内关闭的社保局办事处所在区域，即关闭点（文章记为closing zips）记为i，并将i区域及与其近邻（最近邻，第二近邻和第三近邻）的地区（Neighboring zips）也视为关闭点，这些关闭点均为社保局办事处关闭处理下受影响的处理组（记为closing，关闭区），办事处尚未关闭的地区视为控制组，见图（1）。前已述及，一般的双向固定效应回归会带来负权重导致的偏误，为解决此问题，作者在本文采用堆叠DID进行估计。其思路为：根据关闭时间（单位为季度），将每个closing cluster划分为一个“子数据集”（共118个）；在每份“子数据集”内，将t期接受处理的个体视为处理组，将t+2期以后被处理的个体视为控制组，时间为相对于处理时点的相对时间窗口（Event Quarters）；排除规模较小的样本点（以“子数据集”社保局办事处关闭前，残疾保障申请人数小于4人衡量）；最后，再将118个“子数据集”合并为一个数据集，并将处理时间过晚的处理组也作为对照组。最终得到的数据集包括1110个关闭点，时间窗口为-12到8，共有zip-quarter样本点100万个。为估计办事处关闭产生的影响，估计如下方程：

（3）Y为结果变量，表示s州地点i在c关闭区、t季度的残疾保障申请人数量或获批数量；αi为地点固定效应；γst为州-季度交互固定效应；Treatic为处理组虚拟变量，如果地点i为c关闭区对应的处理组（关闭点）则取1，否则取0；

为相对时间窗口虚拟变量，如果t季度为c开始接受处理后|τ|期（如果τ为正）或|τ|期前（如果τ为负）取1，否则取0。交乘项系数δ为感兴趣的系数，其表示处理时点τ季度之后，c关闭区影响的处理组和控制组之间变化的差异。

堆叠DID需要注意聚类标准误的使用问题。本文出于两方面的考虑将标准误聚类于c层面。第一，本文关心的变动（variation）在各关闭区c水平上；第二，由于本文仅将未来接受处理的个体（late treated）作为当期接受处理个体的控制组，这种处理在合并数据集时将导致同样的样本出现多次，但这种关闭点（zip）之间的嵌套仅发生在c之内，因此将标准误聚类到c层面以解决组内自相关的问题。以Post和Zero代替相对时间与Treat交互，得到与方程（3）相似的方程（4）：

（4）下图给出了Closing zip、Neighboring zip、Unaffected zip三类地点的主要特征的描述性统计，可见closing zip与neighboring zip的特征相对接近，而二者与unaffected zip的特征具有明显差异，因此作者利用处理组内处理时点（timing）差异进行识别，而不使用处理的发生（occurrence）差异进行识别，这更大程度上保证了处理组与控制组的相似性。

估计结果

下图报告了（4）式的估计结果：

结果表明事前平行趋势假设成立，并表明地区社保局办事处的关闭导致残疾保障申请数和获批数均下降，且获批数下降显著多于申请下降。在保险津贴没有显著变化的情况下，这表明社保局办事处的关闭不成比例地降低了那些本可能获批的残疾人申请的可能性。下表分别为以申请和获批数为结果变量的（5）式估计结果：

根据上述图表分特征报告的估计结果可以发现，受教育水平较低、收入较低、残疾比较严重的申请者因办事处关闭受到的影响更大，这进一步表明，办事处关闭导致的申请成本上升很可能在更大程度上导致条件更差的申请者被保险计划拒之门外。

原文针对许多细节进行了讨论，并进行了丰富的稳健性检验、机制分析和一般均衡福利分析，限于篇幅，在此不再介绍，请感兴趣的读者参见原文。总之，本文的结果表明，社保局办事处的存在，有助于降低残疾人申请残疾社会保险的成本，而办事处的关闭，更多地降低了那些最需要保障的残疾人的申请可能，这不仅降低了残疾保险计划的指向性，而且在更大程度上，损害了社会总福利，也与政府设立残疾人保险从而缓解残疾人与健全人之间社会经济地位不平等的初衷背道而驰。

总结与讨论

本文介绍的Stacked DID和Stacked Event Study是评估多处理时点设计的一种新方法，此类方法仅在少数几篇实证文章中应用过，是一种实践先于理论的方法，因此有待更多理论计量界的讨论。目前，堆叠DID方法可以理解为，根据处理时点分组回归，并将分组回归所得的估计系数加权求和的一种方法；其具体做法为，根据处理时点（或类似的方式）划分子实验组别，在各子实验组别内确定处理组和“好控制组”，再将各子实验组数据合并，构成合并数据集，然后利用合并数据集进行估计。这种方法避免了所谓“坏控制组”的问题，但存在的一个问题是：现存的讨论中尚未提供最好的加权方法。关于再加权问题，Callaway and Sant’Anna (2020)的方法同样解决“坏控制组”问题并提供了更多加权方法。此外，堆叠DID在应用中会出现数据重复（duplication）或嵌套（nest）的问题——所有的untreated组及部分late-treated组可能在不同的子数据集中作为对照组，此时要考虑使用聚类稳健标准误解决组内自相关问题。

作者信息：熊昊洋，中国社会科学院大学商学院，邮箱xionghaoyang@ucass.edu.cn，欢迎批评指正！