分享

选择模型真用对了吗? 扒一扒75篇顶级外刊的真相, 并献上最权威的使用策略!

 计量经济圈 2020-07-11
所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

正文

关于下方文字内容,作者吴青叶,澳大利亚国立大学商学与经济学院通信邮箱qingye.wu@anu.edu.au

作者之前的文章:Mita, 2020小诺奖RDD女王最具影响力的成名作, 附数据和计量程序

Lennox, C., Francis, J., & Wang, Z. (2012). Selection Models in Accounting Research. The Accounting Review, 87(2), 589-616. Retrieved July 11, 2020, from www.jstor.org/stable/23245616

This study explains the challenges associated with the Heckman (1979) procedure to control for selection bias, assesses the quality of its application in accounting research, and offers guidance for better implementation of selection models. A survey of 75 recent accounting articles in leading journals reveals that many researchers implement the technique in a mechanical way with relatively little appreciation of important econometric issues and problems surrounding its use. Using empirical examples motivated by prior research, we illustrate that selection models are fragile and can yield quite literally any possible outcome in response to fairly minor changes in model specification. We conclude with guidance on how researchers can better implement selection models that will provide more convincing evidence on potential selection bias, including the need to justify model specifications and careful sensitivity analyses with respect to robustness and multicollinearity.

一、简介
文章主要评估会计文献中选择模型的实施情况,并且为会计方向的研究学者在使用选择模型解决问题提供相关的建议。鉴于选择模型的使用日益增多且刊物编辑的关于控制内生性和选择性偏差的评论较为频繁,文章罗列的指导建议尤其重要。文章发现从2000年到2009年间,在The Accounting Review,Journal of Accounting and Economics,Journal of Accounting Research, Contemporary Accounting Research and Review of Accounting Studies 上发表的1016篇实证文章中有75篇使用了选择模型,并且仅在2008年到2009年的一年间,有11%的实证文章选用了选择模型。
Maddala(1991)指出当观测值非随机地分布到实验组和对照组时,会出现选择性偏差,从而导致在使用最小二乘法估计系数时造成系数的偏差。Little(1985)提出一项较为可信的实施方法,要求研究人员在第一阶段的选择模型中识别出第二阶段可删减的外生自变量。但是,排除约束的重要性在会计研究领域递减,75篇文章中的14篇没有进行任何的排除,其中7篇没有对第一阶段的模型进行阐述,从而无法判断是否进行了排除约束。
作者阐明如果没有进行排除约束,那么选择模型的结果是不可靠的。他们认为,想要提高模型的表现,则需要仔细的进行敏感性分析和鲁棒性检验。
二、选择模型
通常来说,选择模型有两种不同的应用。第一种,处理效应模型——内生指示变量(D)作为自变量。例如,研究人员可能会对管理盈余预测是否会影响资金成本感兴趣。在这种情况下,内生指示变量(D)表示公司是否发布收入预测,因变量则为资金成本。第二种,样本选择模型——当对观测值的子样本进行回归。例如,研究人员可能会对管理预测准确性的决定因素感兴趣。在这种情况下,因变量为预测准确性,且仅对已发布收入预测的公司进行回归。

综上,公式(1)中的OLS模型和公式(3)中的选择模型的区别在于后者引入MILLS作为自变量。那么选择偏差主要有两个来源:(1)MILLS是非线性的;(2)变量Z从公式(3)中排除。在这里,变量Z也被称为排除约束,通常认为Z对Y没有直接的影响,而任何Y与Z之间的相关关系都是通过MILLS进行传导的。
在计量经济学中,对排除约束的选择至关重要,因为它可以控制变量D的内生性使选择模型得以实现。首先,变量Z一定是外生变量,不然第一阶段的系数都存在偏差。其次, 公式(2)中Z的系数需显著。最后,从公式(3)中排除变量Z必须有效。如果变量Z从以Y为因变量的模型中不恰当的省略,那么就会引致经典的遗漏变量问题。
在许多应用中,找到一个好的变量Z是难点。因为,即便没有实施排除约束,MILLS在技术上是可以识别的,因为它的参数是非线性的。但是,Little(1985)指出计量经济学家不建议使用非线性来识别选择偏差有两点原因:第一,如果没有变量Z,选择偏差的识别仅仅来自未经测试的函数形式假设。为了说明这一点,如果Y实际上是非线性函数,但研究人员错误地假设为线性关系,那么MILLS将会有不恰当的函数形式。第二,在没有排出约束的情况下,选择模型将更容易产生多重共线性问题。多重共线性将导致两个结果:首先,估计系数的标准差膨胀,使得系数估计会不显著。第二,模型的表示不恰当。而模型误设的风险很高,会影响统计判断的敏感度。
三、会计研究中的选择模型
作者从五份会计刊物中遴选出2000年到2009年间75篇使用选择模型的文章。表1展示其文章的主题,其中16篇是研究审计方向,16篇是信息披露方面,13篇是盈余管理,11篇是公司治理,2篇关于税收,1篇管理会计,剩余的16篇是其他会计金融主题。

表2中的Panel A展现出在2006年到2009年间使用选择模型的比例显著增加,其中50篇文章是在2006年到2009年间发表,而2000年到2005年间仅25篇使用选择模型。Panel B展现了,其中的52篇文章用了处理效应模型,剩余的23篇则用了样本选择模型,对非随机的子样本进行估计。有32篇文章使用选择模型进行主要分析,剩余的43篇则使用选择模型作为辅助分析。Panel C则表示54篇文章中遵循了使用排除约束的步骤,八份研究中没有变量Z,6篇文章既报告了有排除约束的选择模型也展现了没有排除约束的选择模型。另外有7篇文章,作者没有直接表示第一阶段的模型表达,所以不能确定其进行了排除约束。总的来说,19%到28%的文章中并没有进行排除约束,有60篇文章有此步骤,但是仅有三篇文章报告了他们的结果是鲁棒性的。

对于选择模型而言,重要的是研究人员对于排除约束的选择,即其在第一阶段模型中是自变量而在第二阶段模型中被排除。从这个角度看,许多会计的文章中并没有点明在第二阶段排除了变量Z。有些研究从经济意义方面提出排除约束的可行性,但是并没有解释他们选择的排除约束是有效的。最后,使用选择模型时可能会产生多重共线性问题,但是仅有三篇文章对多重共线性进行检验。
作者认为许多会计研究使用选择模型时并没有对其计量经济学背景有足够的了解。这个结论和Larcker&Rusticus(2010)的关于IV的调查十分相似,但是使用的评价机制有很大的差别。和常规的IV模型相比,选择模型在解决内生性问题方面是不同的。具体来说,选择模型使用MILLS变量来控制误差项的相关性,但是在IV模型中没有等同项。所以,与LR提出的评价机制相比,本文的评价机制主要有两方面的差异:首先,MILLS 是非线性的,表明了即便没有排除约束,在技术上也可以进行估计。但是对IV模型而言,至少存在一个排除约束。第二个差别是研究人员可以根据MILLS变量的系数的显著性判断是否存在选择偏差。
四、实证分析案例
作者发现在已发表的会计文章中并没有特别指出排除约束甚至有些文章并没有进行这一过程,所以作者藉由实证分析结果表明没有排除约束的选择模型是不能提供可靠且鲁棒性的结果。作者选用了2000年到2009年间Compustat,Audit Analytics,CRSP 和I/B/E/S的数据进行实证分析。
审计方面的研究通常使用选择模型来控制公司选择N大还是非N大的内生性。作者对用来估计审计选择的自变量进行了归类,6篇文章用对数化的总资产来表示公司规模,3篇文章用对数化的营业额来表示公司规模,1篇文章用对数化的市值来表示公司规模。研究对于如何表示公司盈利能力的指标也有所不同。三篇文章用指示变量表示损失,两篇用连续变量测量盈利能力,另外三篇同时使用损失指示变量和连续盈利能力变量。作者的实证分析案列并不是为了说明会计研究应该使用相同的衡量公司规模和盈利能力的指标。相反,作者的观点是对这些变量施加不同的排除约束会对结果产生巨大影响。
这十篇文章在排除约束的使用上也有所不同。两篇没有设置任何的排除约束,因为在第一阶段模型中的所有自变量都被用作第二阶段模型的回归变量。尽管计量经济学文献反对这种做法,但是这些研究通过逆米尔斯比率的非线性估计了选择偏差的影响。其他的八篇虽然加入了排除约束,但没有一篇对排除约束为何有效提供明确的解释或者经济意义。作者的目的并非为了批判这些审计研究,而是为了说明当研究人员没有排除约束或者使用任意排除约束可能会出现的问题。为了说明前者,作者在第二阶段模型中包含了第一阶段模型中的所有自变量。为了说明后者,作者从第二阶段模型中排除了公司规模或公司盈利能量变量,因为之前的研究通常对这两个变量施加排除约束。

五、对近期发表的研究的复现
作者认为第四部分的实证分析,不是直接复现已发表论文的结果,持怀疑态度的人可能会有这样的观点,发表在顶级期刊上的研究不太可能包含如此明显的问题,因为他们必须经过有经验的编辑的审查。基于此,作者复现了一项已发表的研究,并检验其结论是否可靠,并进一步说明这样的结论是否仅限于审计文献,他是否适用于更普遍的情况。
作者选用了Jackson et al.(2009) 的文章(后续使用JLC代替)。JLC研究了公司这就方法对资本投资决策的影响。他们预测并报告称,采取加速折旧方法的公司有较高水平的资本投资。由于公司对折旧政策的选择是内生的,JLC首先估计了一个解释该决策的模型,然后他们构建了逆米尔斯比率,并将其作为一个自变量包括在资本支出的第二阶段模型中。第一阶段模型中的大部分自变量都被排除在第二阶段资本支出模型之外。与表2中的许多研究一样,JLC并没有解释他们的排除约束是有效的,也没有正式的报告多重共线性和敏感性分析的稳健性检验。

六、模型使用的建议
作者提供了四个使用选择模型的实用建议。首先,在没有排除约束的情况下,估计选择模型是不可取的,即第一阶段的一些自变量应该在第二阶段模型中排除。因为在没有排除约束的情况下,逆米尔斯比率的结果完全依赖于它的非线性。而且,由于多重共线性问题可能会产生,作者建议即便已经施加排除约束,研究人员也应该进行多重共线性的诊断测试。
第二点,有些会计研究并没有说明它们在第一阶段模型中使用了哪些自变量。这种信息缺乏使得读者并不能识别它们是否进行排除约束或者评估它们的统计推断。所以,作者的第二个建议是,需要明确报告中第一阶段的选择模型和清楚的展示它们所选择的Z变量。
第三点,研究中应该说明为什么第一阶段模型中的Z变量可以被有效地在第二阶段模型中被排除。会计研究者习惯于解释为什么在一个模型中可以包含这些自变量,但他们往往无法解释为什么第一阶段选择模型中的一个或多个变量可以有效地被排除在第二阶段结果模型之外。仅仅依靠过去的研究证明第一阶段和第二阶段模型中包含的自变量是不够的。
第四点,由于选择模型的结果通常不稳定,所以为了统计推断的稳健性,必须进行敏感性分析的报告。但是,在实证会计研究中,敏感性分析报告并不常见。
关于交互项、中介效应或机制分析,各位学者可以参看如下文章:1.计量回归中的交互项到底什么鬼? 捎一本书给你2.计量经济学中"交互项"相关的5个问题和回应3.实证机制分析那些事,机制分析什么鬼?4.政策评估中"中介效应"因果分析, 增添了文献和Notes5.内生变量的交互项如何寻工具变量, 交互项共线咋办6.因果中介效应分析出现在顶刊, 是时候使用新方法了7.中介和调节效应自助法检验,针对非正态截面数据8.面板数据中介效应的计算程序, 打开面板这扇门9.中介和调节效应操作指南, 经典书籍和PPT珍藏版10.中介效应分析的四种方式, 原则方法和应用综述11.中介效应分析的方法和模型, 一篇听说必须看的文献12.多重中介效应的估计与检验, Stata MP15可下载13.具有调节变量的中介效应分析, moderated mediation14.具有调节变量的中介效应程序和数据, 独家解读相关结果15.有限混合模型FMM,异质性分组分析的新筹码
16.省份/行业固定效应与年份固定效应的交乘项固定效应17.面板数据中去中心化的交互项回归什么情况18.面板交互固定效应是什么, 白聚山教授推动了最前沿的研究19.广义合成控制法gsynth, 基于交互固定效应的因果推断20.一个完整的实证程序, 以logit或ologit为例21.跨数据比较回归系数技巧22.U型, 倒U型, 还是线性关系, 你平常的做法不靠谱23.DID中行业/区域与时间趋势的交互项, 共同趋势检验, 动态政策效应检验24.机制分析做到极致的JPE趣文, 身高与收入25.机制分析, 中介渠道, 调节效应必读系列合集26.自变量和中介变量是内生的情况咋办?放在因果中介的框架27.调节变量, 中介变量和控制变量啥区别与联系?28.多个中介变量如何检验中介效应?29.中介变量需要放到回归中去吗?何时放何时不放?30.机制分析, 中介渠道, 调节效应必读系列合集31.三张图秒懂, 混淆, 中介, 调节, 对撞, 暴露, 结果和协变量的复杂关系32.中介效应检验流程, 示意图公布, 不再畏惧中介分析
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 官员方言  | 微观数据 | 内部数据
计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID
数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验
计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多