分享

工具变量法(一): 2SLS

 张春强2022 2016-12-15

Give me a lever long enough and a place to stand, and I will move the world.-- Archimedes

实证研究的常见问题之一为 “内生性”(endogeneity),即解释变量与扰动项相关。研究者通常要花很大精力来解决内生性问题,而工具变量法则是解决内生性的常用利器。

内生性及其后果

考虑最简单的一元线性回归模型:


其中,为被解释变量,为解释变量,为待估计的未知参数,下标 表示个体 (比如,第个企业),为随机扰动项(包含除 外影响 的所有其他因素),而 为样本容量。

内生性意味着解释变量 与扰动项 相关,即


如果存在内生性,则称解释变量 为 “内生变量”(endogenous variable);反之,则称 为 “外生变量”(exogenous variable)。内生性的严重后果是使得 OLS估计量不一致(inconsistent),即无论样本容量 多大,OLS 估计量 也不会收敛至真实的参数值

工具变量的思想

工具变量的思想其实很简单。虽然内生变量 是 “坏” 的变量(与扰动项相关),但仍可能有 “好” 的部分(与扰动项不相关的部分),正如坏人通常也有好的一面。如果能将内生变量 分解为内生部分与外生部分之和,则可能使用其外生部分得到一致估计。

而要实现这种分离,通常需要借助另一变量,比如 ,称为 “工具变量”(Instrumental Variable,简记 IV),因为它起着工具性的作用。

显然,并非任何变量都可以作为工具变量。首先,变量 要能够帮助内生变量 分离出一个外生部分,则变量 自身必须是 “干净”的,即满足 “外生性”( 与扰动项不相关):

其次,变量 还须与 有一定关系,即满足 “相关性”( 相关):

寻找内生变量的外生部分

假设找到内生变量 的有效工具变量 ,则可将进行 OLS 回归,从而分离出 的外生部分:


此回归称为 “第一阶段回归”(first stage regression)。由工具变量的相关性( 相关)可知,;否则,无法实现此分离。记此回归的拟合值(fitted value)为


其相应的残差(residual)为

显然,第一阶段回归将内生变量分解为两部分:


其中,第一阶段回归的拟合值 为工具变量的线性函数,故为外生部分(因为 外生);而其余的残差 为内生部分。

二阶段最小二乘法

既然第一阶段回归的拟合值 外生,故只要将 替代原模型中的内生变量 ,即可用 OLS 得到一致估计:


称此回归为 “第二阶段回归”(second stage regression)。不难证明,在此回归中, 与扰动项 不相关。

首先,由于 为工具变量 的线性函数,故 不相关。

其次,根据 OLS 的正交性(陈强,2015,p.62),OLS 回归的拟合值与残差正交(orthogonal),故 (第一阶段回归的拟合值)与 (第一阶段回归的残差)不相关。因此,OLS 为一致估计。

由于此工具变量法通过两个 OLS 回归来实现,故称为 “二阶段最小二乘法”(Two Stage Least Squares,简记 2SLS)。

多个工具变量

如果有多个工具变量,比如 ,也不难处理,只要将这两个工具变量同时放入第一阶段回归即可:


而第二阶段回归依然不变。

加入控制变量

在多元回归中,一般还有其他的外生变量或控制变量,比如


其中, 为内生变量,而 为外生变量。此时,应将外生变量 也放入第一阶段回归中。原因有二。

首先,可作为自身的工具变量,因为 满足相关性(自身完全相关)与外生性(为外生变量)。

其次,如果不将外生变量 放入第一阶段回归,则无法保证第一阶段回归的残差 正交,使得第二阶段回归的扰动项 可能与 相关( 在第二阶段回归方程中),导致第二阶段回归不一致。

多个内生变量

如果只有 1 个内生变量,则仅需 1 个工具变量即可进行 2SLS 估计。类似地,如果有 2 个内生变量,则至少需要 2 个工具变量才能进行 2SLS 估计。理由如下。

假设有 2 个内生变量 ,但只有 1 个工具变量。此时,存在两个第一阶段回归方程:



所得的拟合值分别为



显然,由于 均为工具变量的线性函数,故二者之间存在严格的线性关系。因此,将 同时放入第二阶段回归方程,将导致 “严格多重共线性”(strict multicollinearity),使得无法进行 OLS 估计。

识别条件(Identification)

由上可知,如果工具变量个数少于内生变量个数,则无法进行 2SLS 估计,称为 “不可识别”(unidentified),因为无法得到对模型参数的一致估计。

如果工具变量个数正好等于内生变量个数,则称为 “恰好识别”(just identified 或 exactly identified)。

如果工具变量个数大于内生变量个数,则称为 “过度识别”(overidentified)。在恰好识别或过度识别的情况下,均可进行 2SLS 估计;而在不可识别的情况下,则无法进行。

2SLS的大样本性质

可以证明(陈强,2015,第10章),2SLS 估计量为一致估计(consistency),且随着样本容量 增大,其渐近分布为正态分布(asymptotic normality)。

而且,如果扰动项为球形扰动项(满足同方差、无自相关),则 2SLS 为最有效率的工具变量法。如果担心扰动项存在异方差,则依然可使用稳健标准误(robust standard errors)进行统计推断。

当然,2SLS 的这些优秀性质都依赖于工具变量的有效性。那么,应如何检验工具变量的相关性与外生性呢?且看下回。

参考文献

陈强,《高级计量经济学及Stata应用》,第2版,高等教育出版社,2014年。

陈强,《计量经济学及Stata应用》,高等教育出版社,2015年。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多