【原】好控制变量or差控制变量

计量经济圈 2021-08-01

展开全文

很多学者问如何引用计量经济圈刊发的文章，例如：1.洪永淼教授履新后首发文“概率论与统计学在经济学中的应用”! 前沿和经典方法应有尽有！2.SVAR模型的起源、识别、估计与应用, 系统讲述等。

不知这样如何？各位学者也可以提意见，这样能更好地引用这些文章。

洪永淼. 概率论与统计学在经济学中的应用[N/OL]. 计量经济圈，(2020/12/30)[2021/07/31]. https://mp.weixin.qq.com/s/ZfRzPlTJielgBXY_c0nmmA

正文

关于下方文字内容，作者：许诗蕾，华中科技大学经济学院（南开大学经济学院），通信邮箱：xushilei3740@126.com

作者之前的文章：1.太难了! 用天气做工具变量IV都被审稿人质疑! IV竟如此脆弱那有什么IV选取建议呢? 2.你所有回归结论可能都是错的, 只因外审说你少做了这个事情....., 太重要了!

Cinelli, Carlos and Forney, Andrew and Pearl, Judea, A Crash Course in Good and Bad Controls (April, 2021). Available at SSRN: https://ftp.cs./pub/stat_ser/r493.pdf
Many students of statistics and econometrics express frustration with the way a problem known as “bad control” is treated in the traditional literature. The issue arises when the addition of a variable to a regression equation produces an unintended discrepancy between the regression coefficient and the effect that the coefficient is expected to represent. Avoiding such discrepancies presents a challenge to all analysts in the data intensive sciences. This note describes graphical tools for understanding, visualizing, and resolving the problem through a series of illustrative examples. We have found that the cases presented here can serve as a powerful instructional device to supplement more extended and formal discussions of the problem. By making this “crash course” accessible to instructors and practitioners, we hope to avail these tools to a broader community of scientists concerned with the causal interpretation of regression models.

在统计学和计量经济学研究中，许多学生或多或少会遭遇传统文献中所谓差控制变量的挑战，并感到沮丧。当在回归方程中增加一个变量，得到的回归系数和预期之间产生差异时，问题就出现了。而避免这类差异，对于数据密集型科学领域研究者而言是一个挑战。本文通过图模型和一系列例子，以可视化的方式，帮助理解和解决问题。我们发现，本文所提出的例子可以作为强大的数学工具，以补充和服务于更广泛和正式的问题讨论。通过让更多的研究者接触到这门“速成班”，我们希望本文中的工具能够帮助到更多关注回国模型因果解释的学者群体。

目录

1. 引言

目前在统计学和计量经济学文献中，差控制变量尚未引起系统性关注。多数流行教科书中讨论了遗漏相关变量的问题，但未就如何判断变量是否相关做出回应，也未解释某些变量进入回归会引发甚至增加现有的偏误的问题。多数研究者认知仍停留在“加入越多的控制变量，回归模型结果会越合意”上。少部分谈及差控制变量的文献对于此问题的讨论也较浅显（e.g. Angrist and Pischke, 2009, 2014; Wooldridge, 2020; Imbens and Rubin, 2015; Gelman et al., 2020）。Angrist and Pischke （2009, p. 64）对差控制变量的讨论较为经典：

Some Variables are bad controls and should not be included in a regression model, even when their inclusion might be expected to change the short regression coefficients. Bad controls are variables that are themselves outcome variables in the notional experiment at hand. That is, bad controls might just as well as dependent variables too. Good controls are variables that we can think of having been fixed at the time the regressor of interest was determined.

此处，好控制变量定义为不受处理的影响，相应地，差控制变量则会受到处理的影响。类似的讨论也出现在Rosenbaum（2002）和Rubin（2009）中，以确定倾向性评分分析中包含的变量。部分学者，如Wooldridge（2010）、Gelman et al.（2020），曾指出部分发生在处理前的变量可能存在放大偏误的问题，但未深入探讨。尽管在讨论较少的情况下，这些观点的提出确为一种进步，但观点中提及的条件对于判断一个变量是否为好控制变量而言，既不必需也不充分。

图模型（graphical model）的最新研究提出了区分好控制变量和差控制变量的简易准则。这些准则不仅包含了确定模型应纳入哪些变量以识别因果效应的必要条件充分条件，如Pearl（1995）和Shpitser et al.（2012）中的后门准则（back-door criterion）和调整准则（adjustment criterion）；还有助于在面对各组有效控制变量集时决定何组将产生更精确的估计（Hahn，2004；White and Lu，2011；Henckel et al.，2019；Rotnitzky and Smucler，2019；Witte el al.，2020）。

本文假设读者具备因果推断的基础知识，了解有向无环图（directed acyclic graphs，DAGs）和后门路径（back-door path）。需要指出，在下文的模型中，本文主要关注处理变量X对于结果变量Y的平均因果效应（average causal effect，ACE）。在DAGs中，实心黑点表示观测性变量，空心白圆表示非观测性变量，红点表示变量Z。变量Z为待进入回归模型的变量：若其被纳入模型后可减小偏误，则其为好控制变量；若其被纳入模型后增加偏误，则其为差控制变量；若偏误未增加或减小，则其为中性（neutral）控制变量。在最后，本文简要说明了变量Z如何影响ACE估计精度。

模型1、2和3——好控制变量

模型1中，Z表示X和Y的共同原因（common cause）。当控制Z时，

的后门路径被阻断，可得无偏误的ACE估计。不同于模型1中Z为典型的混杂因素（confounder），模型2、3中的Z虽并非X和Y的共同原因，但控制Z可阻断由非观测性混杂因素U引起的后门路径，从而可得无偏误的ACE估计。

模型4、5和6——好控制变量

需要注意，（X和Y的）中介变量和X的共同原因也会产生估计偏误。因此，在图2的模型中，本文展示了此类情况。但类似于模型1、2和3，当控制Z，便可阻断的后门路径，进而可得无偏误的ACE估计。

模型7——差控制变量（M-偏误）

模型7中，Z与处理变量、结果变量相关，同时亦是处理前变量。在传统计量经济学课本中Z被认为是好控制变量（Angrist and Pischke，2009，2014；Imbens and Rubin，2015）。然而，依据后门准则，Z打开了后门路径，进而造成了估计偏误。由于结构形状，这一偏误得名“M偏误”（M-bias），并引发了相关争议。相关讨论可见Pearl（2009a，p.1986）、Shrier（2009）、Pearl（2009c，b）、Sjolander（2009）、Rubin（2009）、Ding and Miratrix（2015）和Pearl（2015）。

模型8——中性控制变量（或助于估计精度）

模型8中，Z并非混杂因素，也没有阻断后门路径。同样地，控制Z并不会打开的后门路径。因此就渐近偏误而言，Z为中性控制变量。但控制Z会减少结果变量Y的变动，进而提高ACE的估计精度（Hahn，2004；White and Lu，2011；Henckel et al.，2019；Rotnitzky and Smucler，2019）。

模型9——中性控制变量（或降低估计精度）

类似于模型8，模型9中的Z亦为中性控制变量。控制Z会减少处理变量X的变动，进而降低ACE估计精度（Henckel et al.，2019，推论3.4）。根据经验法则，X的母变量对因果识别不必要时，会降低估计精度；而Y的母变量不影响因果识别时，会提高估计精度。

模型10——差控制变量（偏差放大，bias amplification）

模型10中，盲目控制Z，并不会消除X和Y之间的混杂因素，在线性模型中，反会放大现有偏误。Bhattacharya and Vogt（2007）、Wooldridge（2009）、Pearl（2010，2011，2013）、Middleton et al.（2016）和Steiner and Kim（2016）对偏差放大的现象均有提及。

模型11和12——差控制变量

倘若我们关注ACE，那么必不可控制因果关系链上的变量。在模型11中，Z为因果链上的中介变量。若控制Z，将阻断我们关注的因果效应（总体效应），进而造成估计偏误，即过度控制偏误（overcontrol bias）。在模型12中，尽管Z并非中介变量，但控制Z近似于控制中介变量M，进而造成估计偏误。模型11和12均违背了后门准则（Pearl，2009a），后门准则要求不能控制因果关系链上处理变量X的后代变量。

倘若关注X对Y的被控制的直接效应（controlled direct effect，CDE），即当控制Z为常量时，X对Y的效应，那么控制图7（a）中的Z是可行的。但当考虑图8中的模型11变形，此时U为Z和Y的混杂因素。首先，混杂因素U并不会影响X对Y的效应，因此只要不控制Z，模型11的ACE估计仍是无偏误的。倘若控制Z，便会打开这条交汇路径，造成CDE估计偏误。

模型13——中性控制变量（或利于估计精度）

模型13中，Z为中介变量M的原因，也是结果变量Y的原因。因此类似于模型8，控制Z并不会影响估计偏误，同时可能提高ACE的估计精度。相关讨论可见Pearl（2013）。

模型14和15——中性控制变量

不同于传统计量经济学的观点，并非所有处理后变量都是差控制变量。模型14和15中，控制Z并不会打开的任何混杂路径。因此，Z为中性控制变量。但控制Z会减少处理变量X的变动，降低ACE的估计精度。另外，模型15中，假设我们只用W=1的样本（样本选择偏差的一种情况）。在这种情况下，控制Z反而阻断了W造成的交汇路径，有助于得到W=1情况下，X对Y的因果效应。

模型16和17——差控制变量

模型16和17中，控制Z将造成样本选择偏差（selection bias）。模型16中，控制Z会打开交汇路径，进而造成ACE估计偏误。模型17中，控制Z不仅打开了路径，同时打开了由Y潜在母变量造成的交汇路径，进而造成ACE估计偏误。

模型18——差控制变量

模型18中，当控制结果变量Y，会造成ACE估计偏误，Z也就成为了差控制变量。这是由于Z为交汇变量——结果变量Y——的后代变量，Pearl（2009a，Sec. 11.3）称之为“虚拟交汇变量”（virtual collider）。Pearl（2013）中将模型18中特殊的样本选择偏差称为“案例控制偏差”（case-control bias）。但值得注意的是，当X和Y之间不存在因果效应时，即使控制Z，X和Y之间依旧分布独立，因此调整Z能够有效检验X对Y的因果效应是否为0.

2. 实证研究中的差控制变量

本文简要展示了实证研究中差控制变量的三个例子

出生体重悖论（Hernandez-Diaz et al., 2006）

相较于非抽烟者的后代，抽烟者的后代常有更高死亡率。然而，在出生体重较轻的婴儿中，这一研究结论正好相反。这引发了流行病学领域的争论——母亲吸烟是否对出生体重轻的婴儿有益？模型16对于这一争议提出了合理的解释。此处，X为母亲吸烟，Y为婴儿死亡率，Z为出生体重，而U表示可能影响出生体重的非观测性风险因素（例如，出生缺陷和营养不良）。若控制出生体重，可能导致母亲抽烟和婴儿死亡率间的虚假联系。营养不良等其他因素也可能造成非抽烟母体的婴儿出生体重轻，而这些因素也可能造成较高死亡率。

社会网络分析中的同质性偏误（Elwert and Winship, 2014）

社会网络的因果分析一项重要任务在于估计社会传染（social contagion）的因果效应，即人际效应（interpersonal effects）。然而，社会网络分析中的社会联系可能为处理前交汇变量，得到如模型7中的M偏误结构。假设，我们关注个体1的公民参与（X）是否会在随后一段时间内影响个体2的公民参与（Y）。Z为个体是否为好友，U1和U2分别表示个体1和个体2的性格（如利他主义）。此模型中，社会联系Z为交汇变量，计算朋友间（Z=1）Y和X的关联会造成公民参与中人际效应的估计偏误。

The Antebellum Puzzle（Schneider, 2020）

经济史上有一个有趣的谜题：在19世纪的英国和美国，虽然经济状况和儿童营养都有所改善，但成年男性的平均升高却呈现下降趋势。一个可能的解释是出现了模型17和18中的样本选择偏差，即研究者使用的数据为应征入伍的个体或狱中囚犯，有效控制了交汇变量。对于应征入伍的样本，考虑模型18，X为儿童时期的营养状况，Y为成年身高，Z表示个体是否应征入伍。的因果路径因此分析对象限制于应征入伍的样本，即控制了Z，产生了样本选择偏差。而对于狱中囚犯的样本而言，考虑模型17，Z表示个体是否被捕入狱。而实际上，儿童时期的营养状况和成年后身高均可通过社会经济机会途径影响犯罪，进而造成样本选择偏差。

相关例子不胜枚举。感兴趣的读者找到许多有趣的例子。例如，Griffith et al.（2020）、Banack and Kaufman（2013）、Breen（2018）、Gaskell and Sleigh（2020）和Bello et al.（2018）。

3. 多重控制变量

当考虑多重控制变量时，前文中所阐述的观点依旧是成立的。好控制变量Z始终需要满足以下三个条件：

（1）其必须阻断处理变量到结果变量之间的所有非因果路径；

（2）其不影响处理变量到结果变量的任何中介路径；

（3）其不会打开处理变量到结果变量的任何虚拟路径。

就效率而言，我们更倾向于选择“接近”结果变量的变量。最后，值得注意的是，当模型结构较复杂时，我们可以诉诸于电脑程序，如R包（pcalg，dagitty和causaleffect），SAS程序（CAUSALGRAPH）及相关网页应用。

4. 总结

本文通过图模型阐述了区分好控制变量和差控制变量的简易准则，帮助确认哪些变量可进入回归模型。所举的部分例子对传统统计学和计量经济学的观点提出了挑战：模型7~10提示实证研究者需要警惕一些“建议”，如控制所有处理前变量；模型14和15提示实证研究者——并不是所有处理后变量都是差控制变量，此类变量可能有助于识别因果。

关于回归中变量的问题