DID策略下双向固定效应估计量在估计什么？

liyu_sun 2020-09-20

展开全文

最近，AER第9期发表了一篇关于多期数据双重差分方法的理论文章，山东大学陈强老师公众号发文进行了详细介绍。

最近，我也读了几篇相关的文章，下面进行一个简单梳理。给大家介绍一下双向固定效应估计量在多期数据双重差分设计下及事件研究法为何也存在偏差，事件研究法下进行的平行趋势检验为何也存在问题。本文只是简单的介绍，意在让大家对该方法存在问题有所了解，具体详情请阅读原文。

标准的DID非常简单，适用场景是两期两组个体，政策干预只在第二期发生并只影响干预组个体，从而可以利用截面和时间上两个维度的变动性识别政策的因果影响，也可称为2X2DID。如下图所示：

在平行趋势假设下（也称不变偏差假设），干预组增量扣除控制组增量（所谓双重差分即差分两次）即得干预组平均因果效应(ATT)。因果效应估计通常通过回归实现，估计下列模型：

其中，表示时间，取1表示第2期，即政策实施期，取0表示政策实施之前；为分组变量，取1表示干预组，受到政策影响的群体，取0表示控制组，未受政策影响的群体。

对于2X2的DID可以直接用上述方程估计因果效应，但很多DID的应用中往往使用多组和多期数据，比如Qian(2008)关于“消失的女性”的分析中，就使用了多期的数据（多期cohort，1970-1986），但政策干预时间是固定的（1978年经济作物收购价格调整和联产承包责任制改革）。也有很多DID的实证分析，使用的不但是多期数据，并且政策干预在不同时间发生，比如关于中国高铁开通影响的研究，很多城市先后开通高铁，即先后进入干预组，也有些城市一直未通高铁，可以看作控制组(never treated)，这种情形一般称为交错DID模型(Staggered DID)。据统计，2014/2015年五期刊（AER/QJE/RES/JHE/JDE）期发表93篇双重差分的文章，其中49%涉及到多期数据(Goodman-Bacon, 2019)。下列图形可以更清楚地反映交错DID所研究的情形：

图中阴影部分表示政策实施的时点和受到影响的个体。比如1、2个体期均未受到干预，是never treated，个体3在第2期受到干预，而个体是在第期才受到干预。

这种情况下，双重差分的扩展形式是双向固定效应模型(Two-Way Fixed Effects Regression， TWFE)：

其中如果个体在期受到干预，否则取。上图中阴影部分对应的取，非阴影部分取。

但是，人们对TWFE估计结果所表示的含义知之甚少。最近出现了多篇文章讨论上述模型估计的含义，发现上述模型的估计并不能简单地解释为政策效应，尤其在异质性的情况下，它是每个群组每一时期效果的加权平均。

Goodman-Bacon(2019)

Goodman-Bacon (2019)（后面简记为GB(2019)）对此进行了证明，他发现TWFE估计量是对每个群体每一时期因果效应（2X2DID）的加权平均，而有些2X2的DID估计量是干预组和never treated个体作为控制组得到的，而有些却是用在两个不同时间接受干预的个体构造的，或者是先干预的作为干预组，后干预的作为控制组，或者相反，先干预的作为控制组，而后干预的作为干预组。

为了更直观的说明，我们把交错DID用下图表示，在数据中，基本上可以把个体分成三组：从没受到干预的，是纯控制组，用U表示；早期干预组，用表示，期开始受到干预；后期干预组，用表示，期开始受到干预。若有一直处于干预状态的always treated，由于这种个体没有干预前时期，无法估计其时间趋势，无法用于DID框架，需将其样本删除。

图中PRE(k)表示是干预前时期，此时所有个体都没有受到干预；MID(k,l)中间时期，只有早期干预组从期开始受到干预；后期组个体也开始受到干预。

GB(2019)证明，上述三种情形可以用下面4个2X2DID估计量表示。

、图分别以早期干预组和后期干预组作为干制组，从没受干预的作为控制组得到2X2DID估计量，图用是后期干预组被干预之前的数据，以后期干预组作为控制组（即以组作为控制组），早期干预组作为控制组，得到2X2DID估计量，图利用早期干预组干预后的数据（期后），以早期干预组作为控制组，而后期干预组l作为干预组，得到的2X2DID估计量。注意图中的控制组都未受到政策干预，而图中的控制组事实上是受到干预的。GB(2019)证明TWFE估计量实际上是上图4个2X2DID估计量的加权平均。即：

其中

为相应的2X2DID估计量，对应的权重分别为

其中表示每一组群体的样本数，比如表示早期干预组的样本数（截面个体数），，表示组个体被干预期在总期数中的占比。

因而，TWFE估计量，在交错DID(Staggered DID)的情形下，实际上是上述三类（,可以看作一类，是不同时点开始的干预组和从未干预组构造的DID）2X2DID估计量的加权平均。而这三类估计量估计的因果效应实际上分别是：

(14a)对应于A图，因而如果k组和U组满足平行趋势假设，(14a)中第2项将为零，从而图A中双重差分估计量表示组受到政策影响，即，B图类似。

(14b)对应于C图，如果两组（早期干预组和后期干预组）也满足平行趋势假设，则C图中以早期干预组作为干预组，而以后期干预组干预前信息作为控制组，得到的DID估计量，也可以解释中是早期干预组（期之前）的政策效应。

(14c)对应于D图，比较复杂，与ABC图不同，D图中以早期干预组作为控制组，它事实上是已经受到政策影响的群组，后期干预组作为干预组。即使假设两组满足平行趋势，即(14c)中的第2项为零。图D中的DID估计量也不能解释为组的政策效应。由(14c)可以看到，该估计量还反应了早期干预组在不同期的政策效应的影响，即k组个体在后期干预期和中间期的政策效应若有差异，或者说k组个体的因果效应具有时变性，不同期政策影响不同，那么D图的DID估计量还反映了组不同期的因果效应差别。除非假设因果效应不具有时变性，从而(14c)第3项也为零。D图DID估计量才可以解释为组的政策效应。

因而，只有假设所有组两两之间均满足平行趋势假设，并且假设每组的因果效应都不存在时变性，TWFE估计量才可以解释为政策的平均因果效应(ATT)，否则，TWFE估计量实际上可以分解为三项：

第一项VWATT是各组平均因果效应()的方差加权平均。第二项VWCT是各组平行趋势的方差加权。第三项是各组不同期因果效应差别的加权平均。

如果政策效应具有时变性，现实中往往具有时变性，，即使满足各组两两平行趋势，TWFE估计量也无法解释为总体平均因果效应。

GB(2019)没有给出合适的估计量，但作者提供了一种分解方法,可以将TWFE估计量分解成各部分的加权平均，并提供了相应的Stata命令bacondecomp，以判断TWFE估计量是否能够表示为总体平均因果效应ATT。

Callaway and Sant' Anna(2020)

Callaway and Sant’Anna(2020)(下面简称CS(2020))也考察了多期时变的交错DID情形下因果效应参数的识别和估计问题。作者主要讨论了在这种情况下研究者关心的因果效应参数应该如何定义。他们将相关因果效应参数定义为组期的ATE的函数。这里分组是根据个体所受干预的时期进行定义的，即群组表示这些个体是在期开始受到干预的，作者将这些因果效应参数称为“群组时间平均因果效应”（group-time average treatment effects）。作者指出，估计出群组时间平均因果效应，就可以根据研究的需要，通过合适的加总平均，得到相应的因果效应参数。

群组时间平均因果效应定义为：

表示期个体在状态的潜在结果。表示个体是在期受到干预的，为群组个体。因而，就表示群组个体在期的平均因果效应。另外，定义广义倾向指数

其中表示个体为从未受到干预的个体，所以倾向指数反映的是个体为群或控制组，及特征为的情况下，被干预的可能性。

作者证明在平行趋势假设下，可以识别为

或

直观理解就是由群组和从未干预组两组的样本作比较，在平行趋势假设下，得到的双重差分估计量即是。第1个公式对应于通常的DID估计量，第2个公式对应于逆概率加权的DID估计量，作者实际上还提供将两者结合起来的双重稳健估计量。

一旦把每个群组每期的平均因果效应估计出来，就可以根据研究需要，进行合适的加总，得到相关的因果效应参数，并且这些参数都允许因果效应在群组之间和时间上不同，即两个维度上的异质性都是允许的。

作者在文中提供了很多相关的加总参数：

时间上的加重平均效应，可以用于估计某群体g在政策实施之后的平均因果效应
也可进行不同群再进行加权平均，得到总体的平均因果效应

根据受到政策影响的时期进行加总，得到受干预e期的平均因果效应。这一结果类似于用事前研究法时试图去估计的平均因果效应。
也可以将所有可能的e值进行平均，得到加总的平均因果影响

根据日历时间进行加总，得到t期的平均因果效应。

作者提供了R程序did宏包实现他们的估计，感兴趣的读者可以自行查看did宏包的用法，作者在https://github.com/bcallaway11/did提供了宏包的说明及使用案例。

Sun and Abraham (2020)

Sun and Abraham(2020)(下方简记SA(2020))与CS(2020)论文相关，但主要集中于事件研究法，关注含有超前或滞后干预变量的双向固定效应模型：

其中，为个人开始受到干预影响的起始期，表示是距离干预开始期期时取1，因而，为负值表示干预实施前l期，为正值表示干预实施后期，为零表示开始期。

与GB(2019)类似，SA(2020)证明即使满足平行趋势假设和同质性因果效应假设下（这里同质性是指不同群体被干预相同e期时的因果效应相同），上述TWFE估计量也是有偏差的，不能解释为被干预l期的因果效应，并且根据干预期前的估计系数是否为零进行平行趋势检验也是有问题的。原因在于如果在因果效应具有时变性的情况下，满足平行趋势假设和同期同持性因果效应假设下，TWFE估计量可以分解为两部分，一部是是真正的因果效应，另一部分为排除期（上式为中期之前，期之后，和-1期，即作为基准类的时期）因果效应。即

只有排除期的因果效应为零时，TWFE估计量才可以解释为被干预l期时的平均因果效应（当然前提是平行趋势和同期同质性假设成立）。

她们提出了一种估计方法，她们称之为交互加权估计量（Interaction-weighted estimator），并证明该估计量是组被干预期平均因果效应的无偏和一致的估计量。实现模型为

De Chaisemartin and D’ Haultfeuille(2020)

De Chaisemartin and D’ Haultfeuille(2020)（简记为DeD(2020)）刚刚在AER第9期发表的论文，也讨论了TWFE估计量的问题，与GB(2019)相似，他们也讨论了在异质性因果效应框架下，TWFE估计量是的加权平均，并且有些组权重会是负数，他们提出了关于权重的检验方法，并提出了一种因果效应参数及其估计量，该因果效应参数是每组群体开始干预期（或相反，退出干预期时）的加权平均（switching cells）。用CS(2020)的符号表示，可以写成

表示群组在期的干预效应，而组是由期开始受到干预的，因而就表示群组开始干预时那一期的平均因果效应。因而，DeD(2020)提出的估计量就是政策干预影响1期时的平均因果效应，是CS(2020)讨论的加总估计量的一种。但是DeD(2020)所讨论的情形不仅仅限于交错DID(Staggered DID)，还适用于更一般的情形，即政策实施后，还有可能有些群体或个体由干预状态退出又回到控制组的情形。DID_M实际上考察的是个体改变状态时的平均因果效应，状态可以是由控制状态转变为干预状态，也可以是相反。作者还提供了估计估计量的两个Stata软件包：fuzzydid和did_multiplegt。

山东大学陈强老师公众号最近对DeD(2020)的方法和实现进行了详细介绍，在此不再赘述。

小结

简单小结一下。DID是政策评估中一种重要的应用方法，近年来受到越来越多学者的热爱和使用，并且越来越多的学者使用多期多组数据，并使用双向固定效应方法或事件研究法估计政策干预的影响，越来越多的学者发现，在异质性因果效应框架下，TWFE估计量是有偏的估计量。近年来，相关的文献非常多。我们简单介绍了三篇相关文章，GB(2019)清晰地将TWFE估计量分解为三项，其中第一项往往是我们关心的因果效应，而第二项和第三项，分别代际了不同组的平行趋势和因果效应时期上的差异所带来的影响。CS(2020)、SA(2020)和DeD(2020)也给出了类似的讨论。SA(2020)专门讨论了事件研究法情况下的偏差问题，以及在异质性因果效应框架下，通常用于平行趋势假设检验是错误的。

解决办法方面：DeD(2020)提供了DID_M估计量，估计个体改变状态时的平均因果效应。它适用于一般的情况，可以是Staggered DID，也可以干预状态不断变化的情形。CS(2020)提供了更一般的解决方法，他们集中于估计每个群体每期的因果效应，并提供了三种估计量可以一致的估计，然后根据研究者的需要可以对进行合适的加总，回答不同的因果效应问题，似乎适用情形更广一些。但他们方法仅适用于Staggered DID。SA(2020)在事件研究的框架下，提供了交互加权估计量，可以估计出每组被干预期的平均因果效应。
软件方面：DeD(2020)提供了DID_M估计量的两个Stata估计程序：fuzzydid, did_multiplegt,CS(2020)提供ATT(g,t)和相关加总参数的R软件宏包did，具体用法参见：https://github.com/bcallaway11/did。 SA(2020)的交互加权估计量，可以直接通过模型设定来实现，即引入分组变量和被干预时期的虚拟变量的交互项来进行估计。

这些新的文献，使我们明白了大家通常使用的双向固定效应方法，在双重差分策略的实施中，到底在估计什么因果效应参数？说明我们原来以为TWFE估计的是加总的平均因果效应，这些新的文献说明，TWFE估计并不是我们原来以为的因果效应，这当然是一个很大的进步。估计，以后再用多期数据进行DID设计时，利用通常的双向固定效应模型或事件研究法都不行了，可能需要采用这些新的方法来克服异质性因果效应所造成的偏差问题。

关于计量方法，现在做的越来越精细，但方法的作用到底有多大，这个也很难说，一般而言，当计量经济学方法变得越来越复杂时，它的应用价值可能会越来越低。对于经济学实证研究者而言，还是要着眼于所研究的经济问题，通过调查研究和深入分析，得到的一些先验知识，也可能比使用复杂的计量模型得到的结果可信。最近姚洋、陆铭等学者呼吁要更着眼于经济问题，以及最近《管理世界》、《经济研究》对数学滥用讨论，说的也是这个道理吧。

最后，顺便说一下，国庆节本人首次和经管之家合作开设《基于设计的计量经济学》课程，欢迎感兴趣的老师和同学参加。复制链接：http://www./view/1703.html 了解课程信息。也可联系经管之家陈老师了解详情：

（点击联系陈老师）

参考文献：

GB(2019) Goodman-Bacon, Andrew, 2019, Difference-in-difference with variation in treatment timing

CS(2020) Callaway, Brantly, and Pedro H. C. Sant’Anna,2020, Difference-in-Difference with Multiple Time Periods

SA(2020) Sun, Liyang and Sarah Abraham, 2020, Estimating Dynamic Treatment Effects in Event Studies with HeterogeneousTreatment Effects

DeD(2020) De Chaisemartin, Clement and Xavier D’Haultfeuille,2020, Two-Way Fixed Effects Estimators with Heterogeneous Treatment Effects, AER, 110(9): 2964-2996.