这一点非常关键！在实证设计时，该如何确定A对B影响的分析模型？

i7cs89svo89l80 2022-10-23 发布于安徽

展开全文

在实证研究中，我们常常需要确定被解释变量与解释变量之间关系分析的实证模型，这一点非常重要，因为你在谋篇布局，涉及到后文所有实证篇幅该如何进行了实证操作，如采用何种模型、运用什么命令、根据主效应模型选择处理内生性问题的方法以及拓展性分析的展开等等。

因此，在实证论文的“研究设计”部分确定好自己实证分析中的模型工具非常重要，它是牵一发动全身的作用。一单用错模型，全文的实证分析结果全部需要调整。

那么，对于一篇实证文章，我们该如何确定分析模型呢？相信大家在看经管实证文献的时候，就有发现很多文章旗帜鲜明地在被解释变量的变量设计和度量方式说明时，已经给出了说明。对于如何确定实证模型类型，很显然这个问题跟被解释变量的统计分布情况密切相关。

从统计学变量分布情况来看，变量类型一般可以分为连续性变量和离散型变量。其中：（1）连续型变量，是我们最为常见的统计分布，譬如企业盈利能力，总资产收益率ROA、净资产收益率ROE等；企业创新，如研发投入强度、专利拥有量的自然对数；企业投资，如投资效率、投资水平、金融资产配置等。（2）离散型变量，也是实证研究中非常常见的统计发布，譬如虚拟变量（哑变量，0－1）、计数数据（随机性的非负整数）、排序数据（典型的是李克特程度变量，1、2、3、4、5等类似程度分布）。（3）还有一种比较特殊的数据分布，虽然是连续型变量，但是数据分布呈现偏右或偏左（归左或归右），这也是需要特定模型予以严谨地开展回归分析。

为此，在实证分析过程中，将会根据被解释变量的不同分布情况进行模型的选择。

一是，当被解释变量为连续型变量时，在模型设计时通常会应用OLS模型最小二乘法进行因果关系的分析和探讨。这是我们实证分析中最为常见的一类模型，也是最为容易的模型。而且，此时解释变量的回归系数的经济含义，就是需要边际效应，即解释变量变动一个标准差，此时被解释变量会变动多大百分比的幅度。最后，在后续的内生性检验中，对于工具变量法，我们可以采用二阶段最小二乘法予以分析（2SLS）。

二是，当被解释变量为二值选择变量（即虚拟变量，0－1）时，在模型设计时将会采用二值选择模型来探讨因素之间的因果关系，如Probit和logit模型。这也是我们研究过程中非常常见的方法模型。根据笔者个人经验，对于这类二值选择模型，调查数据中应用得更为常见，但是对于实际的上市公司而言，二值选择模型不常见，因为对于上市公司而言，更多的变量是连续变量或离散型计数数据变量。但是，需要注意的是，probit模型是被解释变量为连续变量时进行Heckman二阶段模型第一阶段的必备方法，通过第一阶段获取逆米尔斯比率。此外，对于二值选择模型的回归系数，不能作为边际效应，需要通过margins, dydx等命令来计算各种边际效应。最后，对于二值选择模型，其内生性问题的检验有其独特的工具变量法方法，如ivprobit、ivlogit模型。当然，也可以通过Heckman二阶段模型进行样本选择性偏差估计。

三是，当被解释变量为计数数据（随机性分布的非负整数）时，在模型设计中最好的方法应该是泊松分布模型（Poisson）来分析因素之间的因果关系。实际上，在我们实证研究过程中，这种非负整数的随机分布情况不多见，但也不少见，如我们常常遇到的“企业专利数量”或者“知识产权拥有量”，对于企业而言，显然企业拥有的专利数量是随机性分布的非负整数。当然在后续实证分析中，我们可以应用多种方法相互佐证，当被解释变量为计数数据时，也可以采用OLS回归予以稳健性检验。而且，如果计数数据为归左或归右分布的，在后续的稳健性检验中也可以采用Tobit模型进行稳健性检验，此时我们在一篇实证文章中运用泊松模型、OLS模型和Tobit模型。对于内生性问题所采用的工具变量法，我们可以根据这三种方法对应的工具变量法进行分析。

四是，当被解释变量为排序变量（类似1、2、3、4、5这种程度型分布）时，在模型设计时最好的方法是排序模型，即oprobit（ordered probit）、ologit（ordered logit）。根据笔者的研究经验，这种排序模型更常见于调研数据中，主要是对某事物进行主观评价，比如非常不满意、不满意、一般、满意、非常满意等五类程度型选项。同样的，如果从实证分析角度来看，当然在后续实证分析中，我们可以应用多种方法相互佐证，也可以采用OLS回归、泊松模型予以稳健性检验。对于内生性问题所采用的工具变量法，我们可以运用最为常见的工具变量法（2SLS）进行分析。

五是，当被解释变量为连续变量或者计数数据变量，且此时有归左或归右的分布特点时，在模型设计时最佳的方案是选择tobit模型。这种归并数据的一个重要特征是，虽有全部的观测数据，但对于某些观测数据，被解释变量y被压缩在一个点上，如专利拥有量或者企业研发投入强度的很多样本值为0，这类观测值占据了相当的比例。当然，tobit对样本分布有很强的依赖性，不够稳健。如果被解释变量为归并数据且为连续变量时，此时建议作者采用OLS模型，然后在后续稳健性部分中应用tobit模型；如果被解释变量为归并数据且为计数数据变量时，此时建议作者采用poisson模型，然后在后续稳健性部分中应用tobit模型。对于被解释变量为归并数据时的内生性问题的工具变量法，通常采用tobit模型对应的工具变量法IVtobit模型。

到此，本文基本上介绍了实证分析中最常见的几种模型，掌握他们有助于我们去更好地把握模式设计的基本思路。