【原】前沿: 通过预处理平衡改进shock-IV研究设计的具体实施步骤和检查清单

计量经济圈 2022-08-02 发布于浙江

展开全文

邮箱：econometrics666@126.com

所有计量经济圈方法论丛的code文件, 微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

①134篇各种方法的code, 代码和程序文章合集, 必须收藏！②今年最诚意的主流计量方法与Stata操作的视频教程, 一定要收藏学习！③《经济研究》期刊上所有文章按照"计量方法"进行分类汇总，有选择性地学习计量方法，④120篇DID双重差分方法的文章合集, 包括代码,程序及解读, 建议收藏！⑤Stata数据管理,绘图,检验,实证方法操作,结果输出的187篇文章！

正文

关于下方文字内容，作者：徐锦, 厦门大学王亚南经济研究院，通信邮箱：jinxu0209@hnu.edu.cn

1.内生性问题: 微观和宏观经济学研究中的关键因果识别问题，2.前沿: 在基于冲击的IV设计中预处理平衡不满足真不行！

Vladimir Atanasov and Bernard Black，2021，The Trouble with Instruments: The Need for Pretreatment Balance in Shock-Based Instrumental Variable Designs，Management Science，67:2, 1270-1302
Credible causal inference in accounting and finance research often comes from natural experiments. These experiments can be exploited using several shock-based research designs, including difference in differences (DID), shock-based instrumental variable (shock-IV), and regression discontinuity. We study here shock-IV designs using panel data. We identify all shock-IV papers in two broad data sets and reexamine three of the apparently strongest papers—Desai and Dharmapala [Desai M, Dharmapala D (2009) Corporate tax avoidance and firm value. Rev. Econom. Statist. 91:537–546.], Duchin et al. [Duchin R, Matsusaka J, Ozbas O (2010) When are outside directors effective? J. Financial Econom. 95:195–214.], and Iliev [Iliev P (2010) The effect of SOX Section 404: Costs, earnings quality, and stock prices. J. Finance 65:1163–1196.]. After we enforce covariate balance and common support for treated and control firms, the instruments in all three papers are unusable—they are no longer significant in the first stage. All three papers also show nonparallel pretreatment trends on outcomes or core covariates. The problems with these papers generalize to our full sample and to other papers exploiting the same shocks as Duchin et al. A core conclusion of our reexamination is that pretreatment balance (common support, covariate balance, and parallel pretreatment trends) is necessary for credible shock-IV designs. We provide a good-practice checklist for shock-IV design with panel data, much of which also applies to DID designs.

10份TOP期刊中shock-based IV的详细总结！

公司治理和会计领域对因果推断愈发增长的强调引起了大家对IV、shock和shock-IVs的讨论。Larcker and Rusticus (2010)解释了为什么non-shock-IVs在公司治理和会计领域逐渐衰落；Jiang (2017)证明了许多工具变量存在系数放大的问题。本文证明了一些看似合理的工具变量实际上并不能支撑相关的因果推断，因为他们没有对预处理平衡进行应有的控制。同时，有效工具变量的存在十分少，因为大多数工具变量都不能通过前文列出的检查清单中的项目检查。

作为研究人员，也许我们能做的最好的事情就是改进我们的因果推理方法，同时对新方法保持怀疑。例如，大多数早期的DID论文没有对标准误进行聚类分析。Bertrand等人（2004）解释了这一问题的原因，Petersen（2009）表明，聚类的替代方法不适用于面板数据。早期论文中使用无聚集误差的面板数据得出的许多结果，其统计意义可能是虚假的。新的方法不可避免地存在脆弱性。对于结果是否可以复制的担忧更加加深了怀疑的必要性（Chang and Li，2015年）。但对于DMO、Iliev和D&D的核心结果的复现，我们没有遇到上述问题。

我们希望我们的复现被视为改进因果分析方法所做的努力。进行shock-IV设计的学者应确保冲击要满足作为一个良好冲击应该具备包括预处理平衡在内的若干条件。

通过预处理平衡改进 Shock-IV 研究设计的具体实施步骤：

在本节中，我们列出了研究人员应采取的步骤，将其整理成了一份检查清单。通过解释选定的项目，并评估我们选中的论文在检查清单项目中的表现，以便改进和评估shock-IV设计中的预处理平衡。许多项目同样也适用于DID研究设计。

1.1 以预处理平衡为重点的 Shock-IV 检查表

工具变量有效性对于经典的工具变量只有两个要求：工具变量强度和不可测的排斥性约束。因果-工具变量理论将排斥性约束划分为分离外生性[separate exogeneity]和“唯一通过条件”[only-through conditions]两类。我们的复查强调了保证这些条件的必要性。它还强调了预处理平衡中应像随机分配一样将企业分配到实验组和对照组的必要性。没有一张研究清单可以涵盖所有情况，但我们的分析表明，以下shock-IV研究的检查清单旨在确保研究设计满足良好冲击的条件，尤其要检查是否保证了研究设计的预处理平衡。

1.1.1.评估并确保外生性

无论是直接还是以协变量为条件，阐述为什么冲击会产生看似随机的实验组分配。

1.1.2.检查共同支撑

对潜在的预处理协变量和预处理结果进行共同支撑的检查。共同支撑可以通过样本修剪达成，但严重的共同支撑的缺失会导致研究无法继续进行。

1.1.3.检查协变量平衡

检查潜在相关的预处理协变量和预处理结果的冲击前平衡，并在协变量平衡表中报告结果。对于具有交互项的工具变量设计，需要在交互的两部分上分别保持平衡。使用平衡方法通常可以改善中度的不平衡，但严重失衡可能会导致研究无法继续进行。

1.1.4.使用大量的协变量来估计共同支撑，提高预处理平衡性

如果冲击真的是严格外生的，那么使用广泛的、潜在相关的协变量不会对估计产生很大影响。如果冲击不是严格外生的，广泛的协变量和“唯一通过条件”可以限制违反外生性的来源。一些协变量可能会降低IV强度，但这并不能作为忽略它们的理由。

1.1.5.评估并谨慎分配实验组

文章至少存在以协变量为条件的近似随机分配。理想的IV将产生类似的实验组和对照组，而不受协变量的影响。

1.1.6.评估预处理平行趋势

使用DID方法评估预处理期间是否存在平行趋势。在数据允许的情况下，我们应通过使用图像方法（例如leads-and-lags graph），选择跨度较长的时间范围，对预处理期进行平行趋势检验。如果研究设计使用交互的工具变量，应检查交互的两个组成部分的平行趋势。对于轻微的非平行现象，可以寻找减少非平行趋势程度的其他协变量。严重的非平行性会导致研究无法继续进行。

1.1.7.评估并保证“唯一通过条件”

确保预处理平衡有助于保护该条件

1.1.8.在样本修剪和样本平衡后确保工具变量强度

许多shock-IVs在修整和平衡后会减弱。在这些步骤之后呈现第一阶段IV结果。工具变量较弱的情况往往需要重新选择其他的工具变量。

1.1.9. 提供 OLS、Shock-IV 和 DID 估计

对于同一样本，尽量提供 OLS，DID 和 IV 估计 (两个阶段)。评估 IV 系数大小在经济上是否合理。

1.1.10.评估系数放大情况

如果IV系数远大于OLS系数，需要保证IV系数的经济合理性，同时要考虑到预期OLS偏差的预期符号，为什么更大的IV系数是合理的。

1.1.11.图像展示结果

冲击时期的前后图表展示只是基础操作，往往还可以做后续的图表分析。

1.1.12.安慰剂检验

具体细节将根据设计而异，但安慰剂试验通常是可行的。我们可以改变冲击的时间，测试冲击是否在时间上向后预测；如果冲击依赖于一个阈值，改变阈值；最后测试安慰剂的结果。

1.2 确保外生性

所有的shock-IV设计都假设冲击是外生性的，并且假定是近似随机分配的。外生性不能直接检测出，它需要研究人员结合相关的理论知识通过逻辑推导出：冲击对样本中的特定公司来说是外生的。上述三篇文章中，D& D和Iliev很好地证明了外生性，但DMO很艰难地证明了外生性。在审计委员会冲击前，公司选择是否设立非完全独立的审计委员会。这种设计缺陷不是完全不可行的，但它在确保预处理平衡的方面存在诸多问题。

外生性也有证伪的作用。真正的外生冲击应产生随机分配，从而产生共同支撑和协变量平衡以及平行预处理趋势。缺乏共同支撑可以通过修剪来解决；如果修剪后的样本存在不严重的不平衡，可以通过平衡方法解决。如果在这些步骤之后，出现了非平行的预处理趋势，则通常没有可靠的解决方案。

1.3 评估并保障共同支撑

本文的一个主题是，在所有shock-IV设计中，确保合理跨度的共同支撑。然而，我们样本中没有一篇论文评估共同支撑。

合理跨度的共同支撑的概念没有精确的定义，但可以通过示例加以说明。对于DMO，我们调整到，推理如下。样本中有许多实验组的公司，但只有三家对照组公司的；我们希望实验效果不取决于少数对照组公司的特殊选择。对于的公司，则可以排除实验组样本的六家公司。

对于DMO，我们评估并确保对核心协变量的共同支撑。一般来说，文章要评估倾向评分的共同支撑，而不是坚持对进入倾向评分的每个协变量实施严格的共同支撑。倾向分数相似的两家公司被认为足够相似，可以公平的进行比较，从而评估共同支撑并寻求在同一组协变量上取得平衡。

1.4 评估和改善协变量平衡

将样本修剪到共同支撑通常会改善平衡，但这远远不够。本文的第二个核心主题是强调了评估预处理协变量和结果的平衡以及使用平衡方法解决重大不平衡的重要性。最近的一些DID论文使用了匹配或其他的平衡策略，但这种做法尚未采用到IV研究中。我们样本中的26份面板数据文件中有5份提供了协变量平衡表。其中，Tsoutsoura（2015）保持平衡。Balakrishnan等人（2014年）使用匹配来改善平衡，这是我们样本中唯一一篇这样做的论文。Iliev（2010）截至2002年保持平衡，但截至2004年增长不平衡。其余两篇论文（DMO，Armstrong等人，2014年）缺乏平衡，但没有解决他们发现的不平衡问题。

讨论可用的平衡方法以及如何在其中进行选择超出了我们的范围。然而，我们注意到，许多平衡方法与两阶段估计不兼容，并且它们的两阶段估计属性未知。人们可以使用更广泛的方法进行单阶段估计，包括评估在修剪和平衡后第一阶段是否仍然可用。

1.5 哪些预处理协变量不应平衡？

当冲击不能在预处理协变量和结果（修剪后）上提供良好的平衡时，我们主张在更全面的潜在相关预处理协变量上进行平衡，这似乎可以预测实验分配。但我们应该注意：我们不应该平衡哪些协变量？

首先，我们建议平衡对预测实验或结果具有意义的相关协变量。理论可以为哪些变量是相关的协变量提供指导。除了后面讨论的特定例外情况外，在额外的协变量上进行平衡通常没有什么害处。如果一个人用2n个协变量而不是n个协变量来平衡，那么前n个协变量的平衡通常会稍微变差，但缺点也仅限于此。人们希望通过在更全面的可观察协变量上进行平衡，在未观察协变量上的平衡也会得到改善，而正是未观察协变量产生了潜在的OVB。

不应平衡的一个协变量可能是“碰撞器”的变量——由IV引起但不会引起IV的变量。碰撞器变量的概念还暗示了不要以实验的中间结果为条件。

其次，如果企业能够预测实验并在实验发生之前改变协变量，则该协变量是一个中间结果，对其进行平衡可能会引起偏差。使用面板数据的一种应对措施是：在冲击之前进一步平衡。可以使用可疑协变量的超前和滞后图来评估预测的证据。

最后，我们应谨慎面对平衡概率接近零（或一）的“罕见”二元协变量，因为概率接近零（或一）不能很好地预测实验。这些协变量很难匹配。匹配算法在所有协变量之间寻求改进的平衡，并且可能试图在罕见的协变量上实现平衡，但代价是在更重要的协变量上实现更差的平衡。

1.6 预处理协变量的平衡与时变协变量的回归

在预处理协变量（固定和时变）上进行平衡是安全的，但使用时变协变量的回归要少得多。假设我们可以将时变协变量分为受影响的协变量（可能受实验影响）和未受影响的协变量。未受影响的协变量可以提高精度，不会引起偏差。受影响的协变量可能会导致偏差。然而，我们通常不清楚哪些协变量属于哪一组。

进一步讨论，在回归分析中包含时变协变量可以降低非平行趋势的可能性和程度。如果这样，就必须通过控制受影响的协变量来减少非平行趋势的偏差和诱导偏差。这需要通过理论和鲁棒性检验来判断是否包含可疑协变量的影响。可疑协变量的超前和滞后图有助于评估其是否似乎受到实验的影响。

1.7 评估平行趋势

检查平行趋势是shock-IV设计的必要部分。评估安慰剂冲击可能很有价值，但它在相当长的预处理期内通常会包含在领先和滞后图中。此外，预处理期间的安慰剂冲击不能替代良好的图表。图表中可见的趋势可能与一个或几个安慰剂冲击等无关紧要的结果共存。在我们的样本中，26篇六组冲击IV论文中有4篇评估预处理趋势是否平行，但没有一篇提供真正的超前和滞后图。我们在在线附录的图App-1中提供了此类图的示例。

研究人员有时通过将线性时间趋势添加到回归规范中来解决非平行趋势，同时控制公司和年份的固定效应。只有当所有的非平行性趋势是线性的，并且线性趋势在实验后没有冲击的情况下会延续，线性趋势才会解决非平行趋势的问题。然而，未知原因的趋势可能会在冲击后停止，甚至逆转。平衡实验组和对照组有时可以减少非平行预处理趋势；我们还可以寻找并添加吸收非平行性的新的协变量。

1.8 确保唯一通过条件

所有IV设计均假设IV仅通过工具变量影响结果。与外生性一样，这一假设无法直接衡量，研究者必须通过逻辑和寻求排除其他渠道的设计对该条件进行证明。D&D和Iliev这方面做得很好。外部冲击不足以确保满足唯一通过条件，但是，确保一组广泛的协变量平衡对此有所帮助（DMO和D&D这样做）。更稳健的方法是根据关键协变量或待处理倾向将样本划分为块（或主要分层法），估计块内的实验效果，然后在块间求和。我们在本文中说明了Iliev的这种方法。

1.9 工具变量强度

如我们的三次复查所示，强行实施共同支撑和协变量平衡通常会降低工具强度。目前我们无法解决难以找到满足随机分配且可用性强的冲击的问题。人们应该评估并报告IV在修剪和平衡后是否仍然具有可用性。

第一阶段t统计量（或两个或多个IV的F统计量）的显著是必要的，但这个条件并不能充分说明工具变量具有强度。我们仍需要评估工具变量的统计能力。在考虑单阶段的显著性时，我们同时也应考虑总体的显著情况。研究表明，当第一阶段和第二阶段均不显著，这会导致整体的研究结果也不显著。

1.10 比较OLS和IV系数以及IV系数放大

预处理平衡不能够保证研究设计合理地满足唯一通过条件，我们还要计算（IV系数/OLS系数）的比率。高比率是对可能违反唯一通过条件的警告；比率越高，警告越强烈。有时，如果IV系数在经济含义上不可信，即使是略高于1的比率也可能是一个警告信号。我们希望看到四个回归方程：在z上回归x（2SLS第一阶段），在x上回归y（OLS），在z上回归y（倾向实验），以及2SLS估计和差异化讨论。

预处理平衡可以减少IV/OLS高比率的出现。我们预计，在许多情况下，缺乏预处理平衡会导致高IV/OLS比率。如果作者确保预处理平衡，并且他们仍然具有可信的强IV，系数放大的问题可能会减少。然而，对于我们复查的论文，我们无法证实这一想法，因为当我们施加预处理平衡时，它们于第一阶段就不显著了。

1.11 冲击时差和工具变量的使用

shock-IV设计的风险往往发生在测量IV前发生冲击的情况。在我们的样本中，23篇论文中有6篇存在这样的时间差。如果存在时间差，研究人员需要评估冲击时和冲击后的协变量平衡，以及时间差是否可能引起冲击时不存在的OVB。目前，没有一篇论文进行这样的检验。

关于工具变量，参看1.内生性问题操作指南, 广为流传的22篇文章，2.看完顶级期刊文章后, 整理了内生性处理小册子，3.如何寻找工具变量？得工具者得实证计量，4.内生性处理的秘密武器－工具变量估，5.工具变量在社会科学因果推断中的应用，6.为你的"工具变量"合理性进行辩护, 此文献可以作为范例，7.没有工具变量、断点和随机冲击，也可以推断归因，8.工具变量与因果推断, 明尼苏达Bellemare关于IV的分析，9.工具变量IV与内生性处理的精细解读，10.我的"工具变量"走丢了，寻找工具变量思路手册，11.面板数据里处理多重高维固定效应的神器, 还可用工具变量处理内生性，12.豪斯曼, 拉姆齐检验，过度拟合，弱工具和过度识别，模型选择和重抽样问题，13.工具变量先锋 Sargan，供参考，14.AEA期刊的IV靠不靠谱？15.计量大焖锅: iv, clorenz, rank, scalar, bys, xtile, newey, nlcom，16.GMM是IV、2SLS、GLS、ML的统领，待我慢慢道来，17.IV和GMM相关估计步骤，内生性、异方差性等检验方法，18.因果推断IV方法经典文献，究竟是制度还是人力资本促进了经济的发展？19.内生变量的交互项如何寻工具变量, 交互项共线咋办，20.面板数据、工具变量选择和HAUSMAN检验的若干问题，21.IV和Matching老矣, “弹性联合似然法”成新趋势，22.IV回归系数比OLS大很多咋回事, 怎么办呢? ，23.不用IV, 基于异方差识别方法解决内生性, 赐一篇文献，24.找不到IV, RD和DID该怎么办? 这有一种备选方法，25.内生转换模型vs内生处理模型vs样本选择模型vs工具变量2SLS，26.内生性, 工具变量与 GMM估计, 程序code附，27.GMM和工具变量在面板数据中的运用，28.关于工具变量的材料包, 标题,模型,内生变量,工具变量，29.必须使用所有外生变量作为工具变量吗？30.工具变量精辟解释, 保证你一辈子都忘不了，31.毛咕噜论文中一些有趣的工具变量！33.前沿: 删失数据分位数工具变量(CQIV)估计, 做删失数据异质性效应分析，34.不需要找工具变量, 新方式构建工具变量, 导师再也不用担心内生性问题了！35.关于顶级外刊工具变量的使用最全策略, 不收藏反复读就不要谈IV估计！36.如何通过因果图选择合适的工具变量？一份关于IV的简短百科全书，37.前沿: nature刊掀起DAG热, 不掌握就遭淘汰无疑！因果关系研究的图形工具!38.最清晰的内生性问题详解及软件操作方案！实证研究必备工具！39.中国女学者与其日本同行在JPE上发文了！利用独特数据, 地理断点RDD和IV研究中国环境议题！40.双胞胎样本解决遗漏变量和测量误差, LIV解决选择偏差，41.内生性处理的秘密武器－工具变量估计，42.工具变量IV必读文章20篇, 因果识别就靠他了，43.看完顶级期刊文章后, 整理了内生性处理小册子，44.“内生性” 到底是什么鬼? New Yorker告诉你，45.Heckman两步法的内生性问题(IV-Heckman)，46.最全估计方法，解决遗漏变量偏差，内生性，混淆变量和相关问题，47.非线性面板模型中内生性解决方案，48.内生性处理方法与进展，49.内生性问题和倾向得分匹配，50.你的内生性解决方式out, ERM独领风骚，51.面板数据是怎样处理内生性的，52.计量分析中的内生性问题综述，53.一份改变实证研究的内生性处理思维导图，54.Top期刊里不同来源内生性处理方法，55.面板数据中heckman方法和程序(xtheckman)，56.控制函数法CF, 处理内生性的广义方法，57.二值选择模型内生性检验方法，58.2SRI还是2SPS, 内生性问题的二阶段CF法实现，59.非线性模型及离散内生变量处理利器, 应用计量经济学中的控制函数法！60.最全利用工具变量控制内生性的步骤和代码—在经管研究中的应用，61.如何选择合适的工具变量, 基于既有文献的总结和解释！62.中介效应最新进展: 中介效应中的工具变量法使用方法及其代码！63.弱工具变量的稳健性检验, 附上code和相关说明！64.工具变量对因果效应的识别和外推, 大牛的顶级评述！65.刚2022年, Acemoglu就在QJE上发文了！OLS+IV走遍天下都不怕！66.如何在AER上用OLS发经济史研究, 这篇道出了验证IV合理性的标准范式! 必读，67.怎样找到一个巧妙的工具变量, IV在公共政策评估中的应用，68.Bartik工具变量是什么? 份额移动法IV应用越来越多，69.阿西莫格鲁又一篇使用IV做因果推断的经典文献, 拿起小板凳一睹为快！70.AER教你两种论证IV合理性的实证策略, 以及如何对IV做安慰剂检验，71.我们应该在多大程度上相信工具变量估计, 基于63份顶刊复制结果的操作建议

关于DID，参看：1.120篇DID双重差分方法的文章合集, 包括代码,程序及解读, 建议收藏！2.诚实双重差分法DID, 面板事件研究法和Bacon分解的经典应用文！3.前沿: 多期或渐进或交叠DID, 如何进行平行趋势检验呢？4.多期DID或渐进DID或交叠DID, 最新Stata执行命令整理如下供大家学习，5.DID前沿: 5种方法估计事件研究的因果效应, 并使用绘制系数和置信区间, 详细代码和数据，6.事件研究法开展政策评估和因果识别, 分享8篇提供数据和代码的文章，7.推荐用渐进(多期)DID和事件研究法开展政策评估的论文及其实现数据和代码！8.机器学习已经与政策评估方法, 例如事件研究法结合起来识别政策因果效应了！9.前沿, 模糊双重差分法FDID方法介绍和示例, 附code和数据！

下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。

2.5年，计量经济圈近1000篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

计量经济圈组织了一个计量社群，有如下特征：热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此，建议积极进取和有强烈研习激情的中青年学者到社群交流探讨，始终坚信优秀是通过感染优秀而互相成就彼此的。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：计量经济圈 > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

计量经济圈

关注对话

TA的最新馆藏

计量学起来! 你喜欢的伍德里奇教授很可能就是美国经济学会副主席了
必备神器: 各专业领域代表性大语言模型GPT与数据资源！
前沿: 国贸世经必看, 60年计量方法和数据的经验教训及最新RTAs进展
TOP刊最新: 引力模型中的交叠双重差分法, 以后必须用新方法抛弃就方法
天才陶哲轩“啥是好的数学?” 经济学界呼应“啥是好的经济学？”
前沿: 2024, ESG的终结, ESG的落幕, The End of ESG

喜欢该文的人也喜欢更多

热门阅读换一换