赵西亮：基本有用的计量经济学

MUSE（编者注：即《基本有用的计量经济学（Mostly Useful Science of Econometrics）》）的书稿终于完成，写书就像一次旅行。非常感谢北京大学出版社杨丽明编辑两年前的邮件邀请，没有杨编辑的“旅行”邀请，很难相信我能有毅力完成近30万字的写作任务。一直以来，对计量经济学的使用价值存在困扰，很多计量经济学教材中提到，计量经济学模型本身不能回答因果关系的问题，因果关系必须要用经济理论来进行支持。对于这种说法，一直存在一种或然的不解。现在想来，这是一种偷懒的解释。所谓理论，都是假说，它们未必揭示了经济变量之间的因果关系。对于这种假说，未有充分证据证明之前，总是感觉不踏实。

2008年左右开始，开始学习Heckman的因果模型，在计量经济学手册中，近1000页的文字，还是没有完全搞明白因果问题。说实在的，Heckman的结构因果模型太复杂了，超出了我的理解能力。后来读到在哈佛读博的丁鹏博士在统计之都上写的统计推断简介，才领略到另一个领域的因果模型。忽然豁然开朗了。Angrsit and Pischke (2009) 的书籍非常好，但是它是建立在潜在结果和随机化实验基础上的，但是AP却没有对这一基础进行解释，从而使入门者开始不得要领。因而，我决定将统计学领域的因果推断理论和计量经济学中的识别策略结合起来。

计量经济学的应用价值越来越清楚了，我们也可以不用根据经济理论去识别因果效应，并且容易实现而确定，心里感觉更踏实了。反过来，这种方法还可以用于检验经济理论是否符合现实。现在，我们明白了，回归并不是简单的将变量不断的放到回归模型中去，我们放入其他解释变量的目的，使希望加入这些变量作为控制，可以使我们关心的变量有因果效应的解释，或者说，加入这些控制变量，使回归模型类似一个分层随机化实验。因而，控制变量的引入不是随便放的，研究中往往应该集中于一个解释变量，而其他的是控制变量，从而使回归类似于随机化实验。关于XX影响因素的研究这类题目，实际上不是因果效应的分析，同时分析多个原因对结果的影响，很难说清楚每个原因的影响结果。回归作为工具，与其他策略一样，无所谓好坏，就看使用者如何使用，在好的设计下，回归可以发挥巨大的威力！尤其是在大数据的时代，大数据的优点不是样本容量大（即使有总体也无法回答因果问题），而是提供的变量越来越多，这意味着CIA条件成立的可能性越来越大。因而，在大数据的情况下，回归可能是最好的工具，因为有更多的变量可以作为控制变量，从而使回归很容易模拟随机化实验。

下面附本书前言，为笔者个人的理解，可能有错误的地方。欢迎拍砖！

目前，国内计量经济学的训练（无论是本科生还是研究生）主要集中于统计推断~(Statistical Inference)，即如何利用样本信息获得总体信息的估计以及如何进行假设检验以判断估计结果的统计显著性。在经济学实证中，我们拿到的往往是总体的一个样本，利用样本信息进行的估计是否能够反映总体，是实证研究中一个非常重要的问题。但是，统计推断本身往往很少能够给出因果关系的信息。随着信息技术的发展，数据获取的成本越来越低，我们开始进入一个大数据的时代，这意味着我们可以获得的数据样本容量越来越大，甚至可以获得总体信息。这样统计推断的作用可能就越来越小，比如如果拿到了总体数据，那么传统意义上的统计推断就没有用武之地了。但是，就算我们有总体数据，也不能回答因果关系的问题。比如，假设我们有中国人口普查的数据，想考察教育如何影响个人收入，仍然是没有办法获得因果效应的知识的。因而因果效应无关样本大小，对于因果效应的探讨是更加底层的问题，是任何科学获得知识的关键。因而，要获得变量之间因果效应的知识，必须要进行因果推断~(Causal Inference)。

目前，经济学的经验研究正在经历一场研究范式的转变~(paradigm shift)，从统计推断向因果推断转变。越来越多的实证研究开始探讨如何才能科学的识别经济变量之间的因果影响，而非集中于估计量的统计显著性问题，统计推断问题往往是相对次要的问题~(second order problem)，而因果推断才是获取知识的首要问题。这种研究范式的转变被Angrist and Pischke (2010)~称为经济学经验研究的“可信性革命”，其关键特征是引入潜在结果框架清晰定义因果，利用随机化实验的思想作为因果效应识别的基础，因而新研究范式有时也被称为“以实验设计为基础的计量经济学”或计量经济学的“实验学派”(Angrist and Pischke, 2017)。尽管其他计量经济学家并不一定完全认同“可信性革命”的说法，但是，“实验学派”的计量经济学确实使经济学经验研究获得很多“基本有用的经验知识”(Rust, 2016)。最近二十多年来，“实验学派”计量经济学方法在经济学经验分析中的影响越来越大，研究范式的“技术进步”也不断在其他学科中“技术扩散”~(Bowen,2016)，但是在经济学教学中，本科生和研究生所使用的《计量经济学》教材仍然沿用了老的研究范式，在经济学经验研究文献中广泛采用的因果推断方法仍然没有进入《计量经济学》教科书。

Angrist andPischke (2017)~指出，传统计量经济学教材中的很多指导是过时的，比如有关异方差、序列相关等问题的讨论，这些问题都不会影响因果效应的识别，而这些问题的解决只需要利用~White (1980) 的异方差一致性标准误差或~Newey and West (1987)~的序列相关及异方差一致性标准误差进行修正。Angrist andPischke(2017)~提议新的研究范式更加有趣、相关性更强、识别结果更加令人满意，为什么不能让我们的学生也获得这些技能呢？

本书顺应了~Angrist and Pischke (2017)~的号召，将经济学经验研究新范式介绍给我们的学生。本书分成两个大的部分：理论基础和识别策略。理论基础部分，首先介绍潜在结果框架。潜在结果概念的引入，便于清晰定义因果效应，从而避免~Lord~悖论。然后，介绍随机化实验。随机化实验是所有识别策略的基础，本书介绍的所有识别策略在一定的识别条件下都可以看作是一种随机化实验。另外，我们还介绍了因果图。因果图是与潜在结果框架完全等价的因果模型~Pearl(2009)，但是更加直观。

第二部分主要介绍了经济学经验研究中常见的几种识别策略。首先是线性回归，主要关注在什么样的识别条件下，线性回归系数可以解释为因果效应参数。我们强调在线性回归中，我们关心的解释变量和其他控制变量的地位是不同的，其他控制变量的引入是为了识别我们关心的解释变量的因果效应，为强调这一点，我们将关心的解释变量称为原因变量或干预变量。然后，我们讨论了匹配方法的识别条件。线性回归和匹配方法有着密切的联系，具有相同的识别条件。我们强调回归和匹配的识别条件都是~CIA，都不能解决内生性问题。接着是工具变量法。工具变量法是经济学中一种相对比较成熟的方法，但是利用潜在结果语言和引入异质性之后，工具变量法有了新的内涵，工具变量所能识别的因果效应参数是依从者的因果效应，并且在异质性框架下，不同的工具变量识别不同的因果效应参数。在有多期数据的情况下，可以利用多期数据的特点，消除不随时间变化的混杂因素的影响，从而使双重差分法模拟增量上的随机化实验。另外，我们还讨论了可以允许时变混杂因素的合成控制法和回归合成法。最后，我们讨论了最接近完全随机化实验的一种识别策略－－断点回归设计~(RDD)，它利用断点附近左右个体具有高度相似性的特点来识别因果效应。另外，对最新发展的弯折回归设计~(RKD)~也进行了简要介绍。

本书主要根据我为厦门大学经济学院研究生和高年级本科生开设的《应用微观计量经济学》课程讲义修改而成。本书的主要特色是利用潜在结果语言和因果图讲解各种识别策略，另外辅以具体案例讲解各种识别策略在~Stata~软件中的实现。适合从事经济学经验研究的学者和研究生使用，也适合于从事社会学、政治学、流行病学等相关学科的学者作为因果推断方面的参考书。限于作者水平有限，时间紧迫，定有很多错漏之处，欢迎读者批评指正。

学者名片

赵西亮，厦门大学经济学院和王亚南经济研究院经济学副教授、博士生导师，主要从事中国经济、应用计量经济学方面的研究工作。

2005年7月毕业于清华大学经济管理学院数量经济学专业，获经济学博士学位。2009年9月至2010年6月在美国康奈尔大学经济系从事访问研究工作，2010年6月至2010年12月在加拿大西安大略大学经济系从事博士后研究工作。

主持社会科学基金一般项目1项、中央高校专项经费项目一项（已结题）和留学回国人员科研起动基金一项（已结题）。参与国家自然科学基金青年项目一项（已结题）、自然科学基金面上项目一项。

在《经济学》（季刊）、《数量经济技术经济研究》、World Economy等国内外重要期刊发表论文十余篇。China Economic Review、 Asian Development Review、《经济学》（季刊）、《管理世界》、《南方经济》、《财贸研究》、《中国经济问题》等期刊审稿人。