修正四大内生性问题的二十一种方法

计量经济圈 2023-09-07 发布于浙江

展开全文

2017年发表在《管理学季刊》上的《管理学研究中的内生性问题及修正方法》将内生性问题的来源分为五类：遗漏变量偏差、选择偏差、双向因果、动态面板、测量误差。文章给出了6种内生性问题修正方法。

2021年发表在《Journal of Management》上的《Endogeneity: A Review and Agenda for the Methodology-Practice Divide Affecting Micro and Macro Research》基于Wooldridge(2010)的观点，将内生性的来源分为四类：遗漏变量、同时性（双向因果）、测量误差和选择偏差。文章给出了21种内生性问题修正方法。

21类内生性问题修正方法又分为六个部分：

第一部分提出的修正方法适用于所有内生性问题；

第二部分提出的修正方法是针对因遗漏变量引起的内生性问题；

第三部分提出的修正方法是针对因同时性引起的内生性问题；

第四部分提出的修正方法是针对因测量误差引起的内生性问题；

第五部分提出的修正方法是针对因选择偏差中的样本选择偏差引起的内生性问题；

第六部分提出的修正方法是针对因选择偏差中自选择偏差引起的内生性问题。

一、通过实验设计来避免/最小化内生性问题

1.实验室实验（Laboratory Experiment）

概述：将实验对象随机分为实验组和对照组，对实验组进行操纵。
条件与局限：必须能够操纵预测变量并随机分组。这可能不可行，也可能存在道德风险。研究结果可能缺乏外部有效性和普遍性。
参考文献：Fromkin & Streufert, 1976; Griffin & Kacmar, 1991; Shadish, Cook, & Campbell, 2002

2.现场实验（Field Experiment）

概述：在自然环境中完成，以增加参与者的外部效度。研究人员操纵实验组的预测变量。
条件与局限：缺乏随机分配会产生其他替代解释。
参考文献：Podsakoff & Podsakoff, 2019

3.自然实验（Natural Experiment）

概述：一种由自然发生的情况产生实验组和对照组，预测变量一般不会被研究人员操纵。
条件与局限：实验组和对照组可能在系统性方面有所不同。
参考文献：Campbell & Stanley, 2015; Chatterji, Findley, Jensen, Meier, & Nielson, 2016; Grant & Wall, 2009; Greenberg & Tomlinson, 2004; Harrison & List, 2004

4.准实验（Quasi-experiments）

概述：通过分析干预或意外外生事件前后的数据来确定因果关系的各种方法。
条件与局限：许多设计方法与下面描述的分析方法重合。
参考文献：Shadish, Cook, & Campbell, 2002

二、遗漏变量（Omitted Variable）

5.控制变量（Control Variables）

概述：纳入研究人员一开始不太关注的外生变量或混杂变量，以解决遗漏变量偏差。如果遗漏变量无法直接测量，可以使用代理变量。
条件与局限：研究人员不太可能关注所有相关的混杂变量。一些遗漏变量可能不可用或不可观测。任意纳入控制变量也会产生偏差。
参考文献：Becker, 2005; Bernerth & Aguinis, 2016; Breaugh, 2008; Frost, 1979; McCallum, 1972; Pei, Pischke, & Schwandt, 2019; Spector & Brannick, 2011

6.敏感性分析（Sensitivity Analysis）

概述：通过分析控制变量的加入如何影响估计系数，估计因可能违反外生性假设所产生的偏差大小。
条件与局限：敏感性分析只有在控制变量满足上述要求时才有意义。
参考文献：Frank, 2000; Oster, 2019; Pan & Frank, 2003; Peel, 2014; Xu, Frank, Maroulis, & Rosenberg, 2019

7.固定效应（Fixed Effects）

概述：包括个体或群体效应，以解释未观察到的异质性。
条件与局限：异质性必须随时间在群体内保持不变。无法估计不随时间变化的变量的影响。
参考文献：Antonakis, Bastardoz, & Rönkkö, 2019; Bliese, Schepker, Essman, & Ployart, 2020; Shaver, 2019

8.工具变量（Instrumental Variables）

概述：两步方程或联立方程技术，通过用预测值代替内生变量或包括计算控制变量来解决偏差。
条件与局限：工具变量必须引起内生变量的变化，只能通过内生变量间接影响结果。弱工具变量可能比没有工具变量更糟糕。
参考文献：Semadeni, Withers, & Certo, 2014

8.1 工具变量设定检验（Instrumental Specification Tests）

概述：工具变量的一些假设是可以检验的。如果工具变量有效，则可以检验外生性。
条件与局限：对限制条件和严格外生性的检验都建立在至少有一个有效工具变量的假设之上。
参考文献：Baum, Schaffer, & Stillman, 2003; Basmann, 1960; Hansen, 1982; Hausman, 1978; Sargan, 1958; Stock, Wright, & Yogo, 2002

8.2 工具变量估计（Instrumental Variable Estimators）

概述：工具变量模型可以通过各种方式进行估计，包括两阶段最小二乘法(2SLS)、三阶段最小二乘法(3SLS)、最大似然估计法(ML)和广义矩估计法(GMM)。
条件与局限：各种估计技术的效率和对各种假设的稳健性各不相同。这些估算方法都不能减少对有效和合理的工具的需求。
参考文献：Angrist & Imbens, 1995 (2SLS); Antonakis, Bendahan, Jacquart, & Lalive, 2010 (2SLS); Blundell & Bond, 2000 (GMM); Hansen, 1982 (GMM); Newey & West, 1987 (GMM); Wooldridge, 1997 (2SLS)

8.3 滞后变量作为工具变量（Lagged Variables as Instruments）

概述：利用内生变量的滞后值作为工具变量。
条件与局限：滞后变量必须能预测内生变量，但不能与因变量相关。
参考文献：Reed, 2015

8.5 模型隐含工具变量（Model-Implied Instrumental Variables）

概述：潜变量模型的有限信息估计变量，依赖于现有的观察变量来创建工具变量。
条件与局限：还需要额外的假设。
参考文献：Bollen, 2019; Bollen & Bauer, 2004; Gates, Fisher, & Bollen, 2019

8.6 奇异之术（Exotic Techniques）

概述：内生性可以用变量的分布形式和残差的假设来解决。
条件与局限：识别假设可能比传统工具所需的假设更难满足。
参考文献：Bollen, 2012; Papies, Ebbes, & Van Heerde, 2017; Sande & Ghosh, 2018

三、同时性偏差（Simultaneity）

9.工具变量（Instrumental Variables）

概述：上述方法也可以处理同时性。
条件与局限：在同时性存在的情况下，工具变量可能很难找到。
参考文献：如上所示。

10.内生变量滞后（Lagging the Endogenous Variable）

概述：使用滞后的内生变量。
条件与局限：如果预测变量或因变量是序列相关的，可能无法解决内生性问题。
参考文献：Fair, 1970; Bellemare, Masaki, & Pepinsky, 2017

11.动态面板模型（Dynamic Panel Techniques）

概述：估计一阶差分的模型。使用滞后的一阶差分作为工具变量。有时被称为GMM或Arellano-Bond估计。
条件与局限：假设内生性是由不随时间变化异质性引起的。一阶差分方程的残差不能序列相关。
参考文献：Arellano & Bond, 1991; Ballinger, 2004; Bergh, 1993; Blundell & Bond, 1998

12.采用外生事件（Using Exogenous Events）

概述：用干预或外生事件来确定因果关系方向的准实验。
条件与局限：关键的识别假设是该事件无法预料。
参考文献：Angrist & Krueger, 1999; Angrist & Pischke, 2010

四、测量误差（Measurement Error）

13.模型测量误差（Model Measurement Error）

概述：使用潜变量法(SEM)来解释测量误差。
条件与局限：在大多数情况下，测量误差的方差必须是已知的和正态分布的。
参考文献：Bound, Brown, Mathiowetz, 2001; Durbin, 1954; Fornell & Larcker, 1981; Griliches & Hausman, 1986; Hausman, 1977

14.工具估计（Instrumental Estimation）

概述：用一个有测量误差的变量作为另一个有测量误差的变量的工具。有时称为指标变量法。
条件与局限：两个变量的系统误差必须是互不相关的。
参考文献：Griliches, 1977

15.处理共同方法偏差（Addressing CMV）

概述：设计和统计技术旨在减少共同方法偏差，这是测量误差引起的内生性的来源。
条件与局限：偏差的方向和强度取决于数据收集策略、分析模型的类型、CMV对观察变量的对称效应以及模型中变量的数量。
参考文献：Evans, 1985; Lindell & Whitney, 2001; Podsakoff, MacKenzie, Lee, & Podsakoff, 2003; Podsakoff, MacKenzie, & Podsakoff, 2012; Siemsen, Roth, & Oliveira, 2010

五、样本选择偏差（Selection into Sample）

16.Heckman两阶段模型（Heckman Selection Correction）

概述：第一阶段使用probit模型来预测样本被选中的概率。将第一阶段得到的逆米尔斯比率当做控制变量纳入第二阶段模型。
条件与局限：第一阶段可以纳入工具变量，但工具变量不是必须的。只能解决由样本的非代表性引起的偏差，而不适用于其他形式的内生性。
参考文献：Certo, Busenbark, Woo, & Semadeni, 2016; Clougherty, Duso, & Muck, 2016

六、自选择偏差（Selection of Treatment）

17.遗漏变量偏差（Selection as Omitted Variable Bias）

概述：无。
条件与局限：如果内生变量是连续的，并且是由主观或情境“选择”的，那么用于处理遗漏变量的方法是适用的。
参考文献：Bascle, 2008

18.Heckman处理估计（Heckman Treatment Estimate）

概述：使用第一阶段概率模型来预测“处理”。在第二阶段模型中，利用该方程的逆米尔斯比率作为控制变量来估计处理效应。
条件与局限：这个模型的一些变体是可用的，但都需要一个工具变量或其他识别假设。
参考文献：Bascle, 2008; Hamilton & Nickerson, 2003; Wolfolds & Siegel, 2019

19.双重差分法（Difference in Differences）

概述：当某些组随着时间的推移接受处理而另一些组没有接受处理时，应用于组均值集的面板数据方法。
条件与局限：只有当处理是外生的或处理和未处理随着时间的推移有平行趋势时，才能缓解内生性问题。
参考文献：Athey & Imbens, 2006; Bertrand, Duflo, & Mullainathan, 2004

20.断点回归（Regression Discontinuity）

概述：如果回归线在处理和控制之间的截断处显示出不连续性(斜率或截距的变化)，则可以推断出因果效果。
条件与局限：处理的选择必须由连续变量(如测试分数)中的临界值或阈值来确定。
参考文献：Hahn, Todd, & Van der Klaauw, 2001; Imbens & Lemieux, 2008; Lee & Lemieux, 2010; Thistlethwaite & Campbell, 1960

21.合成控制法（Synthetic Control Groups）

概述：通过匹配、粗化精确匹配（coarsened exact matching）或倾向得分匹配（propensity score matching）创建控制组。
条件与局限：只有当选择、可观察、处理可忽略的假设适用时，才能避免内生性。
参考文献：Caliendo & Kopeinig, 2008; Dehejia & Wahba, 2002; Li, 2013; Rosenbaum & Rubin, 1983;Stuart, 2010