工具变量法（二）: 弱工具变量

张春强2022 2016-12-31

展开全文

世上没有完美的计量方法，因为所有的计量方法与模型均依赖于一定的前提假设。因此，在估计完计量模型后，通常需要对模型的前提假设进行检验，称为 “诊断性检验”（diagnostic checking）或 “模型检验”（model checking）。

工具变量法也不例外。工具变量法的成立依赖于有效的工具变量（valid instruments），即所使用的工具变量须满足相关性（与内生解释变量相关）与外生性（与扰动项不相关）。

工具变量的相关性（Instrument Relevance）

在大样本下，2SLS为一致估计。但对于大多数实践中的有限样本（finite sample），2SLS估计量依然存在偏差（bias），并不以真实参数为其分布的中心，即

而且，如果工具变量与内生变量的相关性较弱，则 2SLS 的偏差会变得更为严重。直观来看，2SLS 的基本思想是通过外生的工具变量，从内生变量中分离出一部分外生变动（exogenous variations），以获得一致估计。

如果工具变量与内生变量的相关性很弱，则通过工具变量分离出的内生变量之外生变动仅包含很少的信息。因此，利用这些少量信息进行的工具变量法估计就不准确，即使样本容量很大也很难收敛到真实的参数值。这种工具变量称为 “弱工具变量”（weak instruments）。

弱工具变量的后果

弱工具变量的后果类似于样本容量过小，会导致 2SLS 的小样本性质变得很差，而 2SLS 的大样本分布也可能离正态分布相去甚远，致使基于大样本理论的统计推断失效。

下面通过蒙特卡洛模拟（Monte Carlo simulation）来直观地考察弱工具变量的后果。考虑最简单的一元回归模型，假设其数据生成过程（data generating process）为：

其中，为内生变量，与扰动项相关；而的真实系数为 2。假设样本容量为10,000，并使用工具变量进行 2SLS 回归。进一步，假设工具变量与扰动项均服从标准正态分布，且相互独立。

作为对比，首先考虑工具变量较强的情形。假设内生变量的生成过程为：

其中，为除与之外，影响的其他因素。假设也服从标准正态分布，且独立于与。显然，内生变量与工具变量及扰动项都相关。由于工具变量在内生变量的生成过程中起了重要作用，故为强工具变量（可计算与的相关系数来验证，从略）。

下面，在 Stata 中实现蒙特卡洛模拟，进行 1000 次随机抽样，得到 1000 个2SLS 估计值，然而直观地看 2SLS 估计量的大样本分布，可输入如下程序（建议写为 do 文件）。

* 如果已有名为 “sim_2sls” 的程序，则去掉；反之，不执行下一行语句

capture program drop sim_2sls

* 定义称为 “sim_2sls” 的程序

program sim_2sls, rclass

* 删除内存中的所有数据

drop _all

* 设定样本容量为10,000

set obs 10000

* 生成服从标准正态的扰动项 u

gen u = rnormal()

* 生成服从标准正态的工具变量 z，且与扰动项 u 不相关

gen z = rnormal()

* 生成服从标准正态的随机变量 v

gen v = rnormal()

* 生成内生变量 x，与工具变量 z 及扰动项 u 都相关

gen x = 0.5*z + 0.2*u + 0.1*v

* 生成被解释变量 y，其中 x 的真实系数为 2

gen y = 1 + 2*x + u

* 以 z 为工具变量，将 y 对 x 进行 2SLS 估计

ivregress 2sls y (x = z)

* 记 x 的估计系数为 b

return scalar b=_b[x]

* 程序 “sim_2SLS” 结束

end

* 运行程序 “sim_2SLS” 1000 遍，得到 1000 个 2SLS 估计值 b

simulate beta = r(b), seed(10101) reps(1000): sim_2sls

* 画这 1000 个 2SLS 估计值 b 的核密度图（相当于光滑的直方图）

kdensity beta, xline(2) normal normopts(lp(dash))

运行以上程序，可得下图：

从上图可知，在强工具变量的情况下，2SLS 估计量以真实参数值 2 为中心，近似于对称的正态分布（上图虚线），故可使用其渐近正态分布进行大样本统计推断。

下面考察弱工具变量的情形，将内生变量的生成过程改为：

从上式可知，内生变量与工具变量的相关性大大减弱。重新运行以上程序，但将其中的命令 “ gen x = 0.5*z + 0.2*u + 0.1*v ” 改为

gen x = 0.01*z + 0.2*u + 0.1*v

可得 2SLS 估计量的大样本分布如下图。

从上图可知，尽管样本容量已为 10,000（堪称大样本），但 2SLS 估计量依然有偏差（并未以真实参数 2 为中心），而且是左偏的非对称分布，与正态分布（上图虚线）有明显差别。因此，无法使用通常的渐近正态分布进行大样本统计推断。

弱工具变量的检验

在2SLS的第一阶段回归中，将内生变量对所有外生变量（含工具变量与外生解释变量）进行回归，故已包含工具变量强弱的信息。如果所有工具变量在第一阶段回归中联合显著，则意味着工具变量与内生变量较为相关，故工具变量较强；反之，则可能存在弱工具变量。

举例来说，假设回归方程为

其中，为内生变量，而为外生变量。方程外的工具变量为与，则第一阶段回归为

对原假设进行联合检验，可得 F 统计量。显然，F 统计量越小，则越可能存在弱工具变量。但 F 统计量究竟多大才不用担心弱工具变量？

正如人的胖瘦为连续变化，工具变量的强弱也是连续变化，故需要人为制定一个标准来界定弱工具变量。目前通行的标准为，如果 2SLS 估计量的偏差仅为 OLS 估计量偏差的10%或更小，则为强工具变量；反之，则为弱工具变量。

可以证明，2SLS 与 OLS 估计量的偏差近似地满足以下关系（参见 Stock and Watson，2012，第506页）：

其中，为 2SLS 估计量的偏差，为 OLS 估计量的偏差，而 F 为上文第一阶段回归的 F 统计量。由于技术性原因，此 F 统计量使用普通标准误，而非（异方差）稳健标准误。

显然，如果 F 统计量趋向无穷大，则 2SLS 估计量的偏差将消失；但现实样本中的 F 统计量一般并不大。容易看出，如果 F 统计量等于10，则可大致保证 2SLS 偏差仅为 OLS 偏差的10%。因此，检验弱工具变量的一个经验规则（rule of thumb）就是第一阶段回归的 F 统计量应大于或等于10。

解决弱工具变量的方法

如果发现存在弱工具变量，则可能的解决方法包括：

(1) 寻找更强的工具变量。

(2) 使用对弱工具变量更不敏感的 “有限信息最大似然估计法” (Limited Information Maximum Likelihood Estimation，简记 LIML)。在大样本下，LIML 与 2SLS 渐近等价，但在弱工具变量的情况下，LIML 的小样本性质一般优于 2SLS。

(3) 如果有较多工具变量，可舍弃弱工具变量，因为多余的弱工具变量反而会降低第一阶段回归的 F 统计量。

2SLS 的 Stata 命令

2SLS 的 Stata 命令为

ivregress 2sls depvar [varlist1] (varlist2 = instlist)

其中，“depvar” 为被解释变量，“varlist1” 为外生解释变量，“varlist2” 为内生解释变量，而 “instlist” 为工具变量。比如，针对上文的例子，相应的Stata命令为

ivregress 2sls y w (x = z1 z2), r first

其中，选择项 “r” 表示使用异方差稳健的标准误（默认使用普通标准误），选择项 “first” 表示显示第一阶段回归的结果。

完成 2SLS 估计之后，检验弱工具变量的Stata命令为

estat firststage

该命令将显示与弱工具变量有关的第一个阶段回归统计量及临界值。

类似地，LIML 的 Stata 命令为

ivregress liml depvar [varlist 1] (varlist2 = instlist)

经典案例：出生季度是否为弱工具变量

劳动经济学的一个核心问题是研究教育投资的回报率，比如估计如下方程：

其中，被解释变量为工资对数（lnwage），关键解释变量为教育年限（educ），而向量 z 为其它控制变量（比如种族、婚否、是否住大城市、地域虚拟变量、出生年份虚拟变量、年龄、年龄平方等）。扰动项包括影响工资的其它因素，比如不可观测的个体能力，而个体能力可能与教育年限相关，导致 OLS 不一致。

为此，Angrist and Krueger (1991) 使用1960、1970与1980年已部分公开的美国人口普查数据（Public Use Census Data），并开创性地将出生季度（quarter of birth）作为教育年限的工具变量。

由于美国多数州的法律强制要求青少年在满16岁生日之前必须在校上学（compulsory schooling laws），而又要求儿童在入学那年的1月1日须满6周岁，这导致年初出生的儿童在入学时年龄比年末出生的儿童更大。因此，相比年末出生的学生，年初出生的学生在其受教育过程中，更早就达到了法定退学年龄（legal dropout age），这使得第1季度出生者所受教育平均而言低于第4季度出生者，参见下图。

因此，出生季度与教育年限相关，满足相关性；另一方面，出生季度不太可能通过其他渠道影响工资，故满足外生性。

为此，以第4季度为参照系，可使用第1季度、第2季度与第3季度的出生季度虚拟变量作为工具变量。考虑到季度效应在不同年份可能不同（参见上图），Angrist and Krueger (1991) 实际上使用 “出生年度虚拟变量”（year-of-birth dummies）与 “出生季度虚拟变量”（quarter-of-birth dummies）的交互项作为工具变量。

Angrist and Krueger (1991) 所使用的数据集 NEW7080.dta 与相关 do 文件可从以下网址下载（或点击页面底部的 “阅读原文”）：

http://economics./faculty/angrist/data1/data/angkru1991

作为示例，下面复制该文表 V 第 7 列 OLS 与第 8 列 2SLS 的回归结果（使用1980年的部分人口普查数据）。

. use NEW7080.dta, clear

运行作者提供的 do 文件 “QOB Table V.do”，将变量重新命名，并生成出生年度虚拟变量、出生季度虚拟变量，及其交互项（过程从略）。

先进行表 V 第 7 列的 OLS 回归：

. reg LWKLYWGE EDUC RACE MARRIED SMSA NEWENG MIDATL ENOCENT WNOCENT SOATL ESOCENT WSOCENT MT YR20-YR28 AGEQ AGEQSQ

其中，LWKLYWGE为每周工资对数（log weekly wage），EDUC为教育年限，而其余变量为控制变量。

从以上结果可知，教育投资回报率为 6.3%（且在 1% 水平上显著），即每多受一年教育，则工资增加 6.3%。样本容量高达 329,509。但 OLS 估计可能存在偏差，下面进行 2SLS 估计。

ivregress 2sls LWKLYWGE YR20-YR28 RACE MARRIED SMSA NEWENG MIDATL ENOCENT WNOCENT SOATL ESOCENT WSOCENT MT AGEQ AGEQSQ (EDUC = QTR120-QTR129 QTR220-QTR229 QTR320-QTR329 ), first

其中，工具变量 “QTR120-QTR129 QTR220-QTR229 QTR320-QTR329” 为出生年度虚拟变量与出生季度虚拟变量的交互项；比如，QTR120为第1季度出生虚拟变量与1920年出生虚拟变量的交互项，以此类推。

选择项 “first” 表示显示第一阶段回归的结果：

从以上结果可知，绝大多数工具变量均不显著，而第一阶段回归的仅有 0.0581，似乎存在弱工具变量。

从第二阶段回归的结果可知，2SLS 估计的教育投资回报率为 6.0%（与 OLS 估计值 6.3% 十分接近），且在 5% 水平上显著。下面检验是否存在弱工具变量。

. estat first

上表显示，第一阶段回归的 F 统计量仅为 1.61，远小于 10，也远小于表格下部所列的 10% 2SLS相对偏差（2SLS relative bias）的临界值 11.34，故存在弱工具变量。

为进一步考察工具变量的强弱，下面将内生变量 EDUC 对所有工具变量进行回归，但不加入其他控制变量：

reg EDUC QTR120-QTR129 QTR220-QTR229 QTR320-QTR329

从上表可知，虽然许多工具变量很显著（主要由于样本容量很大，故标准误很小），但整个回归方程的却仅有 0.0027！

下面进行对于弱工具变量更不敏感的 LIML 估计。

ivregress liml LWKLYWGE YR20-YR28 RACE MARRIED SMSA NEWENG MIDATL ENOCENT WNOCENT SOATL ESOCENT WSOCENT MT AGEQ AGEQSQ (EDUC = QTR120-QTR129 QTR220-QTR229 QTR320-QTR329 )

上表显示，LIML 估计的教育投资回报率为 5.5%（但不再显著），依然接近于2SLS 估计值。部分地基于 LIML 与 2SLS 估计值的接近，Angrist and Pischke (2009, 第215页) 坚持认为出生季度的工具变量不弱，而且反对将 “ F > 10 ” 作为检验弱工具变量的金科玉律。

Bound, Jaeger and Baker (1995) 则发现，即使以随机产生的出生季度（并非真实的出生季度）作为工具变量，使用 2SLS 也能得到相似的教育投资回报率与统计显著性! 这再次证明在弱工具变量的情况下，所得 2SLS 结果是不可信的。

增强工具变量的方法之一是去掉多余的弱工具变量。为此，只使用出生季度虚拟变量为工具变量（不再使用交互项作为工具变量），并仅保留出生年份虚拟变量作为控制变量，再次进行 2SLS 回归（参见 Angrist and Pischke, 2009, 第214页，Table 4.6.4，第1列）：

. ivregress 2sls LWKLYWGE YR20-YR28 (EDUC = QTR1 QTR2 QTR3)

其中，“QTR1 QTR2 QTR3” 分别表示第 1、第 2 与第 3 季度的出生季度虚拟变量，而 “YR20-YR28” 则分别表示在 1920-1928 年出生的年度虚拟变量。

. estat first

上表显示，第一阶段回归的 F 统计量上升到 32.27，已不存在弱工具变量问题。然而，2SLS 估计的教育投资回报率不合理地升至 10.5%（在 1% 水平上显著），故此结果依然不可信。

可能的原因是，由于控制变量太少（遗漏的控制变量被纳入扰动项），故工具变量更可能与扰动项相关，使得工具变量不满足外生性。事实上，有些学者也怀疑出生季度虚拟变量的外生性（比如，Bound, Jaeger and Baker, 1995）。当工具变量有轻微的内生性时，2SLS 估计量将不再一致。更糟糕的是，如果此时出现弱工具变量的并发症，则会进一步放大 2SLS 的不一致性，无异于雪上加霜，即使样本容量超过 30 万也恐怕无济于事。

预祝新年快乐，计量突飞猛进！

参考文献

Angrist, Joshua D. and Alan B. Krueger, 'Does Compulsory School Attendance Affect Schooling and Earnings?' Quarterly Journal of Economics, 1991, 106(4), 979-1014.

Angrist, Joshua D. and Jorn-Steffen Pischke, Mostly Harmless Econometrics: An Empiricist's Companion, Princeton University Press, 2009.

Bound, John, David A. Jaeger, and Regina M. Baker, 'Problems with Instrumental Variables Estimation When the Correlation Between the

Instruments and the Endogeneous Explanatory Variable is Weak,' Journal of the American Statistical Association, 1995, 90(430), 443-450.

Stock, James, and Mark Watson, Introduction to Econometrics (3rd edition, Global Edition), Pearson Education Limited, 2012.

陈强，《高级计量经济学及Stata应用》，第2版，高等教育出版社，2014年。

陈强，《计量经济学及Stata应用》，高等教育出版社，2015年。