Selection Ratio：帮你解决头疼的遗漏变量偏误

liyu_sun 2020-09-08

展开全文

作者： 郭楚玉 (武汉大学)

0. 理论背景
1. Selection ratio 的基本原理
2. Selection ratio 计算步骤
3. Stata 实操
4. 拓展阅读
5. 参考文献

编者按：本文部分内容来自于江艇老师在「连享会-2020暑期论文班」上的讲义，特此致谢！

温馨提示： 文中链接在微信中无法生效。请点击底部「阅读原文」。

0. 理论背景

核心解释变量的内生性问题似乎是实证经济学家在追寻因果关系道路上避不开的拦路石。因为经济学研究中使用的数据绝大部分都不是通过实验条件生成的随机试验结果，选择性偏误 (selection bias) 是经济学家们经常过招的头号顽固敌人。选择性偏误泛指任何处理组和控制组之间的系统性区别 (systematic difference)。举个例子：在研究私立学校 vs.公立学校的教育回报率问题上。对全样本直接做工资对是否上私立学校的回归，相当于直接比较私立学校学生和公立学校学生，这两组学生的组间平均工资的差异。然而，这个差值并不是准确的私立学校的教育回报率。因为私立学校学生和公立学校学生之间除了所上学校不同之外(我们关注的差别)，还有很多系统性差别。比如私立学校学生，总体上平均总成绩更好，其父母收入更高，能力更综合优秀等。这些变量都是选择性变量，造成了两组人之间明显的选择性区别。

很多同学可能都知道此时应该把这些造成选择性偏误的变量控制起来！但是现实中因为数据集的限制，可能有些重要的可观测变量与核心解释变量非常相关，但我们没有数据。或者当你在回归的过程中，不断加入新的控制变量时，核心变量的系数随着新控制变量的加入而不断的减小或波动，此时你很可能会担忧，在没有数据限制下，还有更多的额外控制变量可供我们选择加入的话，我所探究和关心的因果关系是否还存在呢？此外，我们能控制的都是可观测变量 (selection on observed variables)，那不可观测变量的选择性 (selection on unobserved varaibles) 如何排除呢？

Selection ratio 指标可以帮助我们来判别不可观测变量选择性偏误的强度！这背后的原理是系数估计稳定性理论。系数估计稳定性理论讲的是在控制了关键控制变量之后，新加入的控制变量与核心解释变量的残余相关性比较小，从而使得系数估计比较稳定。倘若研究中还存在遗漏的(不可观测的、没办法控制的)选择性变量的话，我们有理由相信，这些遗漏的选择性变量和核心解释变量之间的残余相关性也会比较小。所以即使不控制也不会影响我的系数估计。这样的推断有一个逻辑上的跳跃，这其实是一种间接检验的思想。即，系数估计稳定性理论的本质是用可观测变量的选择性去推断不可观测变量的选择性。即控制了关键控制变量以后，额外的可观测控制变量还能纠正系数估计的程度，去推断遗漏变量还能抵消掉的因果效果的程度。

1. Selection ratio 的基本原理

Selectio ratio 最初是由 Altonji, Elder & Taber (2005) 三人提出的。他们在这篇文章中构造了这个不可观测变量的选择性偏误强度的测量指标。具体构造过程如下：

为核心解释变量，包含了除之外所有会影响的变量。(1)式的第二行，将分成可观测的部分和不可观测的。第三行，将与的相关性包含在中，使得。此时，既包含了与的直接效应，也包含了与之间的相关性。

标准化后基于不可观测变量的选择性：

标准化后基于可观测变量的选择性：

(2)和(3)式的分子部分都表达了不可观测变量或可观测变量会引起处理组和控制组间的不平衡的思想。因为是不可知的，所以无法求出的具体数值。基于前面理论背景的介绍，我们可以在假设下，求 OLS 估计的偏误。具体推导过程如下：

先用 D 对 X 回归：

将 D 代入(1)式中

因为与不相关，省略(5)式的第二项不影响的 OLS 估计。

(6)式第二行的变换是根据(4)式用替换 ,因与不相关，所以与的相关性是由于与的相关性造成的。(6)式第四行中的第二项，就是不可观测变量所造成的选择性偏误。若要将得到的因果效应() 完全归因于不可观测变量的选择性，即，则

定义为 selection ratio。将(2)、(3)式代入得

若，将（7）式代入变换：

Note: 该结果自动适用于为连续变量的情形。

最终求得 Selection ratio 的表达式：

此时如果知道右式中各部分的数值，即可算出。越大，需要越大，才能完成抵消对的因果效应。一般认为，，核心系数的估计越不可能是由于不可观测变量的选择性造成的。

2. Selection ratio 计算步骤

根据上面推导的原理，我们可以总结出计算 Selection ratio 的具体步骤：

(1) 对和回归，得到
(2) 对回归，得到拟合值，以及残差对平方
(3) 对回归，得到系数估计
(4) 对回归，得到残差的方差

Note: 在原假设下，我们可以一致的估计。

3. Stata 实操

下面使用 Stata 自带的 nlsw88.dta 数据来示范如何计算 selection ratio 。我们使用该数据集来研究一个经典经济学问题：教育的回报率。wage 为因变量，表示个人每小时工资；school 为核心解释变量，表示被调查者的受教育程度；可观测控制变量使用了13个，包括总参加工作时间，工作任期，每周工作小时数，是否本科毕业，职业，行业，种族，婚姻状态，居住地等。因受教育程度本身有很强的内生性，学界很多篇经典的文章都是在解决教育内生性的问题。因为这个 nlsw88.dta 数据集里控制变量很常见且有限，且无法控制(如能力之类的)重要的不可观测变量。我们可以预判遗漏变量偏误很可能会抵消教育的因果效应，很可能小于 1。

sysuse nlsw88.dta,clear (NLSW, 1988 extract) . global xvars 'exp exp2 tenure hours collgrad industry occupation race married never_married south smsa c_city' * 计算selection ratio . * step 1 . reg wage school $xvars Source | SS df MS Number of obs = 2,207 -------------+---------------------------------- F(14, 2192) = 41.59 Model | 15469.3786 14 1104.95562 Prob > F = 0.0000 Residual | 58237.3086 2,192 26.5681152 R-squared = 0.2099 -------------+---------------------------------- Adj R-squared = 0.2048 Total | 73706.6872 2,206 33.4119162 Root MSE = 5.1544 ------------------------------------------------------------------------------- wage | Coef. Std. Err. t P>|t| [95% Conf. Interval] --------------+---------------------------------------------------------------- school | 0.422 0.077 5.48 0.000 0.271 0.573 exp | 0.261 0.105 2.48 0.013 0.054 0.468 exp2 | -0.004 0.004 -0.84 0.400 -0.012 0.005 tenure | 0.058 0.025 2.33 0.020 0.009 0.107 hours | 0.044 0.011 4.04 0.000 0.023 0.066 collgrad | 1.694 0.445 3.80 0.000 0.821 2.568 industry | -0.096 0.039 -2.45 0.014 -0.172 -0.019 occupation | -0.274 0.034 -8.06 0.000 -0.341 -0.208 race | -0.417 0.250 -1.66 0.096 -0.908 0.074 married | -0.313 0.265 -1.18 0.237 -0.833 0.206 never_married | -0.290 0.412 -0.70 0.481 -1.098 0.518 south | -0.848 0.236 -3.60 0.000 -1.310 -0.386 smsa | 1.461 0.273 5.36 0.000 0.926 1.995 c_city | -0.158 0.277 -0.57 0.569 -0.702 0.386 _cons | -0.567 1.199 -0.47 0.637 -2.918 1.785 ------------------------------------------------------------------------------- . scalar coef_ols=_b[school] * step 2 . reg wage $xvars Source | SS df MS Number of obs = 2,207 -------------+---------------------------------- F(13, 2193) = 41.92 Model | 14670.4889 13 1128.49915 Prob > F = 0.0000 Residual | 59036.1983 2,193 26.9202911 R-squared = 0.1990 -------------+---------------------------------- Adj R-squared = 0.1943 Total | 73706.6872 2,206 33.4119162 Root MSE = 5.1885 ------------------------------------------------------------------------------- wage | Coef. Std. Err. t P>|t| [95% Conf. Interval] --------------+---------------------------------------------------------------- exp | 0.323 0.105 3.06 0.002 0.116 0.530 exp2 | -0.005 0.004 -1.20 0.229 -0.014 0.003 tenure | 0.058 0.025 2.31 0.021 0.009 0.108 hours | 0.045 0.011 4.10 0.000 0.024 0.067 collgrad | 3.588 0.283 12.68 0.000 3.033 4.144 industry | -0.063 0.039 -1.62 0.106 -0.139 0.013 occupation | -0.292 0.034 -8.54 0.000 -0.359 -0.225 race | -0.580 0.250 -2.32 0.020 -1.071 -0.090 married | -0.326 0.267 -1.22 0.222 -0.849 0.197 never_married | -0.303 0.415 -0.73 0.465 -1.116 0.510 south | -0.964 0.236 -4.08 0.000 -1.427 -0.501 smsa | 1.584 0.274 5.79 0.000 1.048 2.121 c_city | -0.172 0.279 -0.62 0.537 -0.720 0.375 _cons | 3.975 0.873 4.55 0.000 2.263 5.687 ------------------------------------------------------------------------------- . predict xgamma if e(sample) (option xb assumed; fitted values) . scalar VE=e(rmse)^2 * step 3 . qui reg school xgamma . scalar coef1=_b[xgamma] * step 4 . qui reg school $xvars . predict treatres if e(sample), res . qui sum treatres . scalar VE1=r(Var) . scalar bias=coef1*VE/VE1 . scalar sratio=coef_ols/bias . di sratio .05456602

最后结果显示，selection ratio = 0.05 (小于1)。我们有理由相信是有偏的，并不是教育真实的回报率。

4. 拓展阅读

Selection ratio 这一检测方法已经被广泛的运用于顶刊文章中。Nunn & Wantchekon (2011, AER) 在研究奴隶贸易与当今非洲人们间的不信任的关系时，根据不同的模型设定，运用 selection ratio 的方法得出不可观测变量的影响必须是可观测变量影响的 3 到 11 倍大，才能将奴隶贸易对信任的因果关系完全抵消掉。因此，作者认为核心变量的系数估计不太可能完全是由于不可观测变量的选择性造成的。Adit & Franck (2015， Econometrica) 研究了施荣暴动(swing riots)导致了辉格党 (Whig Party）在 1831 年选举中获胜。计算出来的 selection ratio 为 2.5，即不可观测变量的影响必须是可能观测变量影响的 2.5 倍，才能将 OLS 估计值完全归因于选测性偏误。更多使用 selection ratio 的文献可参考 Betrand， Kamenica & Pan （2015) ， Rothstein (2010) ， Bellows & Miguel (2009) ， Chetty， Friedman & Rockoff (2011）。