【原】安神最新因果推断大作, 经济学中的实证策略: 阐明从因果关系的路径！

计量经济圈 2022-08-05 发布于浙江

展开全文

稿件：econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

关于安神，参看：1.诺奖得主安神的两本经典计量教科书的数据和代码分享！2.J.Angrist就因果推断长篇评论+音频版，3.Angrist因果推断课程，经典期刊读物汇集，4.经济研究中的自然实验者, Natural Experimenter，5.USA经管商博士最狂热崇拜的计量书籍震撼出炉，6.计量经济学的“公信力革命”, 1983-2010，7.哪本因果推断书籍最好？我们给你整理好了这个书单！8.你应该阅读哪本因果推断书籍: 一份进阶流程图和简短书评列表，9.Sims与安神的论战从未停止,JOE卷入第三次大论战，10.我是安神, 我为因果推断计量代言，11.安神+克拉克奖得主的RDD论文, 断点回归设计，12.诺奖得主Angrist的因果推断课程文献读物单子再次更新了, 还提供了其他三门课程，13.《基本无害的计量经济学》作者是如何找到一个研究主题和想法的呢? 不要指望你的导师！14.好的经济学研究怎么开展,LSE的教授详细指导文书，15.两诺奖得主谈计量经济学发展进化, 机器学习的影响, 如何合作推动新想法！诺奖得主Angrist的因果推断课程文献读物单子再次更新了, 还提供了其他三门课程

正文

关于下方文字内容，作者：杨青清，中国人民大学劳动人事学院，通信邮箱：mikiyqq@163.com

作者之前的文章：①父母为什么要买学区房? Top经济学家告诉你背后原因！②中国博导要求掌握的RDD方法实证运用范文(配code), 不然就不要用RDD做实证研究！③火了! 携程网梁建章Top5上的文章在COVID-19期间火遍欧美学术界! ④前沿: 出生时一丁点污染暴露, 负面影响会伴随你终生且不可逆！⑤ AER上事件研究+DID做得真出神入化, 国内很多大牛都借此学习到该方法的精髓！

Joshua Angrist, 2022, Empirical Strategies in Economics: Illuminating the Path from Cause to Effect, NBER working paper.
The view that empirical strategies in economics should be transparent and credible now goes almost without saying. The local average treatment effects (LATE) framework for causal inference helped make this so. The LATE theorem tells us for whom particular instrumental variables (IV) and regression discontinuity estimates are valid. This lecture uses several empirical examples, mostly involving charter and exam schools, to highlight the value of LATE. A surprising exclusion restriction, an assumption central to the LATE interpretation of IV estimates, is shown to explain why enrollment at Chicago exam schools reduces student achievement. I also make two broader points: IV exclusion restrictions formalize commitment to clear and consistent explanations of reduced-form causal effects; compelling applications demonstrate the power of simple empirical strategies to generate new causal knowledge.

经济学中的实证策略：阐明从因果关系的路径

Abstract

经济学中的实证策略应该是透明且可信的这一观点现在几乎是不言而喻了。用于因果推断的局部平均处理效应 （local  average  treatment  effects, LATE） 框架帮助实现了这一点。LATE 定理告诉我们，特定工具变量 (IV) 和断点回归的估计值是有效的。本次讲座使用几个实证的例子，主要涉及特许学校和考试学校，以强调LATE的价值。一个惊人的排他性约束，一个对IV估计值的LATE解释核心的假设，被证明可以解释为什么芝加哥考试学校的入学情况会降低学生的成绩。作者还提出了两个更广泛的观点：IV的排他性限制正式承诺对简化形式的因果效应进行清晰一致的解释；引人注目的应用展示了简单的实证策略产生新的因果知识的力量。

 1.Introduction

Joshua Angrist与Alan Krueger在Handbook of Labor Economics的一个章节中，使用了“实证策略”（empirical strategy）这一概念来描述对自然实验的计量分析。Angrist在普林斯顿大学的两位博士论文导师Orley Ashenfelter和David Card则是将实证策略引入计量经济学主流的领导者。Ashenfelter和Card试图找到一个可以准确反映政府培训项目因果效应的实证策略，正是他们的这一追求，启发了Angrist和普林斯顿大学的其他人去探索项目评估中的计量经济学。

项目或政策评估的实证策略是一种包括数据收集、识别和估计的研究计划。Krueger 和Angrist把“识别（identification）”作为研究设计的简称。Angrist、David Card和Guido Imbens共同获得的奖项承认了研究设计在现代经济学中发挥的突出作用。随机对照试验（Randomized Clinical Trial, RCT）则是其中最简单有力的研究设计。

Angrist首先提出了一个关于诺贝尔奖处理效应的实证策略。具体而言，假设有一批符合获奖资格的申请者，他们自己并不申请这一奖项，而是由同行学者提名。申请者必须被提名才能获奖，因此Angrist设想的这一研究只关注被提名的申请者。这个样本选择规则只是第一步。评委使用出版物、引文、提名声明和顾问推荐信等标准对申请者进行评估。由于有数以百计的申请者和许多用于评分的信息，分数可以看作是连续变量。得分最高的人（任何一年每个领域最多三个）被授予奖项。在确定了申请人和他们的分数之后，下一步是确定相关的临界点（分数线）。诺贝尔奖分数线是获奖者中的最低分数。许多有希望获得诺贝尔奖的人刚刚低于分数线。如果只看接近诺贝尔奖的人和获奖者，高于和低于分数线的人之间的分数差异开始显得很偶然，几乎是随机分配的。毕竟，接近诺贝尔奖的人也是最杰出的学者之一。

Angrist选择使用断点回归（RD）设计作为实证策略，并将那些刚刚低于临界值的群体作为超过临界值群体的自然控制组。由于今年临近诺贝尔奖分数线的申请者可能在明年成为获奖者，因此可以利用被分配到某种处理的概率的非连续性来构建处理效应的工具变量。[“Fuzzy RD is IV.”]

Angrist参与的第一个RD应用是Angrist和Lavy（1999），这篇文章利用了以色列小学确定班级规模的规则。如果班级规模超过40个人，则该班级将可能被分成两个小规模的班级， Maimonides Rule research design便是根据这一规则而来。

Figure 1显示了以色列1991年4年级的班级规模与当时入学人数之间的关系，可以发现，实际班级规模与Maimonides Rule规定的班级规模相重叠，但并不完全重叠，也正是这一特点使得我们可以使用Maimonides Rule来进行模糊断点设计。问题的关键在于，在40的每一个整数倍，即相关的临界点，班级规模明显下降，这与Maimonides Rule相符。而事实证明，班级规模的下降又会带来四年级（和五年级）考试成绩的跳跃。由此，Maimonides Rule模糊断点研究设计如下：

Angrist and Lavy（1999）使用局部平均处理效应（Local Average Treatment Effect，LATE）框架来解释基于公式（2）和（3）的IV估计值。大约在同一时间，Hahn et al.（2001）正式提出非参数模糊断点回归的LATE解释。这一新方法在IV和RD中的应用，目前已经非常广泛了。

在本次讲座中，Angrist用实例来说明IV和RD实证策略在发现新因果知识方面的力量。大多数例子都是关于在各种学校就读的成绩效应。学校效应的问题突出了LATE框架的关键特征，包括对分布处理效应（distribution treatment effects）的拓展。这一拓展显示了城市特许学校的入学率是如何缩小白人与黑人之间的成绩差距。最后一个例子支持了一个令人惊讶的排他性约束：从表现优异的城市特许学校分流，解释了为什么芝加哥selective enrollment high schools的入学情况会降低学生的成绩。讲座的最后，Angrist对实证经济学的发展也做了一些评论。

2.Exam Time！

无论是比较诺贝尔奖获得者和接近诺贝尔奖的人，还是比较拥有40和41名四年级学生的学校，两者的相同点在于，分配变量（running variable）均具有连续分布，且在临界点附近的分配比率（assignment rates）接近0.5。在RD的实证研究中，这种临界点周围的窗口被称为带宽（bandwidth）。重要的是，不管每个人进入诺贝尔奖竞争的资格如何，他们的极限胜率都是0.5。这一事实可以从纽约的一所非常优质的择生学校（screened schools）的申请者数据中看到。在纽约，大约40%的初中和高中根据考试分数、年级和其他严格的标准来选择申请者。换句话说，择生校的招生制度与Angrist设想的诺贝尔奖评选方案很相似。

Figure 2展示了在纽约著名的Townsend Harris高中，基准成绩（六年级的数学成绩）在前25%和后25%的申请者在合格率（qualification rate）方面的差异，即录取分数高于入学最低分的可能性。可以发现，在Townsend Harris高中，分数高的申请者比分数低的申请者更可能获得入学资格。然而，当将带宽缩小至0.5IK时，两组的合格率趋于一致。

l The Elite Illusion

Angrist认为其研究的最有争议的问题之一是进入公立考试学校（exam school）的问题。考试学校的支持者将这些学校视为公共教育的民主化，而反对者认为考试学校非但没有扩大公平，反而对黑人和西班牙裔学生存在内在偏见。例如，纽约Stuyvesant高中在2019年招收的895名九年级新生中，仅有7名黑人学生。

在这样的背景下，Angrist与其在蓝图实验室（Blueprint Lab）工作的合作者对波士顿、芝加哥和纽约的考试学校入学情况的因果效应进行研究，并提出“精英幻觉（Elite Illusion）”这一概念。他们认为，尽管考试学校的学生拥有很高的考试分数以及其他良好的表现，但这并不是考试学校所产生的因果效应，甚至考试学校可能会对学生未来的表现存在负向影响。考试学校学生的良好表现反映的是选择偏误，而非因果效应。

Figure 3 的Panel A解释了为什么考试学校对家长如此有吸引力。该图展示了一个申请者九年级同学的八年级考试成绩。从图中可以发现，当申请者通过了合格分数线（qualifying cutoff）后，同伴的数学成绩迅速上升，这就意味着，考试学校的九年级教室里都是在学习上相对超常的同学，也只有这些同学才能进入。另外，尽管有超常同伴，获得考试学校的一个席位似乎并不能提高学习。Panel B 展示的是申请者的ACT（American College Test）分数，可以发现，在合格分数线临界处的考试学校申请者，在ACT考试中的表现急剧下降。在解释这一问题前，我们先了解一些IV的理论。

3. A Little LATE

LATE框架为涉及IV和RD的实证策略的结果提供了一个新的理解。这里举两个工具变量的例子。第一个工具变量是20世纪70年代随机分配的征兵抽签号码（Angrist, 1990），第二个则是出生季度（Angrist和Krueger，1991）。

Guido 和 Angrist对IV的第一个新理解是，它解决了部分服从（partial compliance）RCT中的选择性偏误问题。即使在随机临床试验中，一些被分配到治疗的人也可能选择退出。Angrist和Imbens (1991) 证明，在部分依从随机试验中，尽管在治疗组中接受治疗的人可能是一个具有高度选择性的群体，但只要对照组没有机会接受治疗，治疗对被治疗者的平均因果效应就可以确定。

3.1 LATE for Charter School

在这一部分，Angrist通过一个占据他近20年的研究问题来解释LATE框架：就读于特许学校（Charter school）对学习的因果效应。

特许经营权（公立学校的经营权）通常在有限的期限内授予，如果表现良好，则可以续签。特许学校可以自由安排其课程和学校环境。许多特许学校通过延长上课时间以及在周末和暑假继续上学来延长教学时间。特许学校与传统公立学校之间最具争议性的区别是，在前者工作的教师和工作人员很少属于工会组织。相比之下，大多数大城市公立学校的教师都是根据教师工会的合同工作的，该合同对工资和工作条件进行了详细的规定。

这里需要简单介绍一下属于Knowledge is Power Program （KIPP）的学校。KIPP学校是使用“无借口”公共教育方法的象征，这是一种被广泛复制的城市特许模式，其特点是上学时间长、学年延长、有选择地雇用教师、为教师提供广泛的数据驱动的反馈、学生行为规范以及注重传统的阅读和数学技能。在KIPP网络所服务的学生群体中，有95%的黑人和西班牙裔学生，并且超过80%的KIPP学生因为足够贫困而有资格参加联邦政府的补贴午餐计划。

美国关于教育改革的辩论往往集中在成绩差距（achievement gap）上，即种族和民族间的巨大考试成绩差异。KIPP由于重点关注少数族裔学生而经常成为这场辩论的中心。支持者的观点是，KIPP的非白人学生的考试成绩明显高于附近学校的非白人学生；而怀疑KIPP的人认为，KIPP的成功反映了KIPP吸引那些孩子更有可能成功的家庭。

与诺贝尔奖类似，KIPP的席位并非随机分配，至少不完全是。例如在马萨诸塞州的特许学校，如果申请者多于席位，则会通过抽签的方式来提供席位。具体而言，特许学校按照随机排序的申请者名单来提供席位。但是，参加KIPP的机会是随机分配的。

十年前，Angrist与其合作者收集了关于KIPP Lynn 中学的招生抽签数据，为其发表的特许学校相关研究奠定了基础。当时，马萨诸塞州的KIPP Lynn 中学是新英格兰地区的第一所此类学校。一些KIPP申请者绕过了抽签的程序——那些以前有兄弟姐妹入学的人保证被录取，而少数申请者则被明确排除在外 (例如那些年龄太大而不能上初中的人）。在2005-2008年举行的四次KIPP抽签中，共有371名五、六年级的申请者参与随机分配，其中有253人获得了入学资格。然而，有相当数量的申请者在9月时未能入学。一些人搬走了，而另一些人最终选择了传统的公立学校。最终，有199人（约占79%）在下一学年就读于KIPP。另外，有5名申请者（约占4.2%）尽管没有得到KIPP的录取通知，但还是进入了KIPP。由此，一份offer 对KIPP入学率的影响是199/253-5/118≈0.74。在使用offers作为KIPP入学率工具变量的IV分析中，0.74便是第一阶段的结果。

这里的分析着眼于KIPP入学情况对申请后考试成绩的影响（KIPP attendance effects）。具体而言，对于申请时是四年级的学生，所使用的是他们五年级末的成绩；而对于申请时是五年级的学生，则是使用他们六年级末的成绩。在对学生成绩进行标准化后可以发现，在参加KIPP入学抽签的人中，获得offer的申请者的标准化数学分数为-0.003，而那些未被录取学生的平均数学分数为-0.358。这意味着，KIPP Lynn的offer平均提高了0.355的数学成绩。

接下来，通过IV方法将KIPP offer effects转为KIPP attendance effects。在该情况下，工具变量为一个虚拟变量，对于收到KIPP offer的申请者而言等于1，否则为0，这里用来表示。而我们所关注的因果效应用来表示，即为KIPP 入学情况的虚拟变量。

一般来说，要使Zi成为一个有效的工具，有三点要求：

（1）Zi应该对我们关注的变量有因果效应，在这里是指KIPP入学情况Di。如上所述，这一因果效应被称为“第一阶段”。

（2）Zi必须是随机分配的，或者“像随机分配的一样好”，即与我们可能想要控制的遗漏变量无关，比如KIPP申请者的家庭背景或入学动机等变量。这就是“独立性假设”。

（3）最后，IV逻辑需要一个排他性约束。排他性约束要求工具变量Zi通过单一渠道影响结果的。这里是指抽签胜者和败者之间0.355的分数差异完全归因于Zi 对的影响（即上文提到的0.74）。

IV实证策略的特点是，从工具变量到学生成绩的连锁反应。这个因果链中的第一个环节（第一阶段）将随机分配的offers与KIPP的入学情况联系起来，而第二个环节——我们所关注的环节——则将KIPP入学情况与成绩联系起来。根据独立性假设和排他性限制，这两个环节的乘积产生了offers对考试成绩的影响：

工具变量（offers）对结果变量（考试分数）的影响在IV故事中起着核心作用，因此有一个特殊的名字：简化形式（reduced form），在式（5）中用δ表示。将简化形式（0.355）除以第一阶段，则KIPP attendance effect为

这里需要注意的是，能计算出IV估计值是一回事，而知道它的含义是另一回事。儿童从KIPP中的收益程度是不同的。对于一些人而言，可能是一个积极进取并拥有支持性家庭环境的群体，选择KIPP Lynn还是Lynn公立学校并不重要；而对于其他人而言，KIPP的入学情况可能非常重要。LATE则是这些不同个体因果效应的平均值。特别是，LATE是KIPP入学情况完全由KIPP抽签决定的儿童群体的平均因果效应。

Table 1涵盖了每个申请者所有可能的情况，它记录了Zi=1和Zi=0时的潜在选择。其中，遵从者（compliers）将IV与RCTs联系起来。许多随机试验只对接受的机会（opportunity）进行随机化，而遵守处理方案的决定（decision）仍然是自愿和非随机的。RCT的遵从者是那些在提供治疗时接受治疗的人，而在其他情况下不接受治疗。LATE正是指KIPP入学情况对遵从者的影响。由于数据中既有违抗者（defiers），也有遵从者，那么即使每个人都从入学KIPP中受益，一份KIPP offer的平均影响也可能为0。幸运的是，在特许抽签以及许多其他的IV设定中，违约行为是不可能的。因此，我们假设这种行为很少甚至不存在。这就是Imbens和Angrist（1994）提出的单调性假设（monotonicity assumption）：假设工具变量只向一个方向推动受影响的申请者。

【小结】LATE 定理说，对于任何具有非零第一阶段的、随机分配的工具变量，并且同时满足单调性和排他性约束，简化形式与第一阶段的比率是处理（treatments）对遵从者的平均因果效应。

l No Excuses for Not Closing the Achievement Gap

LATE框架，即该定理背后的假设，确定了遵从者潜在结果的全部分布。为了看到这一点，首先假设处理变量Di在一个分层随机试验中是随机分配的，其分层由Xi编码。条件随机分配意味着:

因此，分层内处理组和对照组的差异会产生平均因果效应：

与RCT不同，在LATE框架中， Di本身并不是被随机分配的。然而，对于遵从者来说，Di是独立于潜在结果的，因此与随机分配一样好。这表明我们可以了解所有我们可能想了解的关于遵从者潜在结果的分布。尽管在任何数据集中遵从者都没有被特别标记，但是即便如此，我们还是可以通过几个简单的公式得出数据中遵从者的潜在结果分布（Abadie，2002，2003）。

虽然这背后的理论必然是技术性的，但是在实践中很容易理解 LATE 分布分析的价值，例如黑人与白人之间的成绩差距，这也是KIPP研究的动机之一。Figure 4的Panel A展示的是波士顿特许中学四类申请者的四年级分数分布。由于初中一般是从五、六年级开始的，因此Panel A中的两张图相似度较高，黑人申请者成绩分布均在白人申请者的左侧。但是到了八年级，如Panel B所示，成绩分布有了明显的变化。就读于特许学校的黑人学生与白人学生八年级的成绩分布已经趋于一致，而另一组的分布与基线没什么变化，白人仍然明显领先于黑人。

Where Do Babies Come From?

关于生育问题对父母劳动供给的因果影响，Angrist使用两种工具变量来进行研究。需要注意的是，LATE 框架意味着这两种工具变量虽然适用于相同的因果关系，但不需要确定相同的平均因果效应。遵从者是特定于工具变量的，不同类型的遵从者受同一干预或处理的影响是不同的。

随着20世纪已婚妇女劳动参与率的上升，生育率也在下降。生育率的下降可以解释女性劳动力供给的增加，但在这种情况下，遗漏变量偏差很明显：劳动力粘性（labor force attachment）弱或收入潜力低的母亲可能比劳动力粘性强或收入潜力高的母亲更有可能生育孩子。同时女性就业率的提高也可能导致生育率下降，这使得我们所观察到的家庭规模和就业之间的联系难以解释。Angrist and Evans（1998）使用影响第三个孩子出生的工具变量来解决这些遗漏变量和内生性问题。

第一个工具变量是在至少有两个孩子的母亲的样本中，第二胎是双胞胎的出现情况；第二个工具变量则是看第一胎和第二胎的孩子是否是同一性别。美国父母对男孩或女孩没有什么偏好（无论第一胎是男是女，生第二胎的概率都差不多）。但他们确实在寻求一种多样化的兄弟姐妹性别组合，即当第一和第二胎都是男孩或都是女孩时，第三胎的可能性就会跃升。

Table 2展示的是家庭规模对劳动供给影响的IV估计结果，该结果是基于1980和1990美国人口普查的相关数据所得到的。双胞胎工具变量的有效性在于，多胞胎本质上是随机的，与潜在结果或人口特征无关，并且多胞胎仅通过提高生育率来影响劳动力供给。类似地，同性别工具变量的有效性在于，兄弟姐妹的性别构成基本上是随机的，且只通过增加生育率来影响劳动供给。从表中可以发现，OLS估计结果在幅度上是大于IV估计值的，这可能是因为选择性偏差的缘故而被夸大了。另外，使用双胞胎IV的估计结果在影响幅度上略小于使用同性别IV 的估计结果，这反映了双胞胎与同性别遵从者群体之间的差异。由于所有第二胎为双胞胎的母亲都至少有三个孩子，因此不存在twins never-takers。根据LATE逻辑，双胞胎工具变量明确了第三胎对所有选择只生两个孩子的女性的平均影响。对于所有, 则有

换言之，双胞胎工具变量所反映的是第三胎对选择拥有小家庭女性的影响。相比之下，同性别工具变量针对的是可以通过前两胎的性别混合来促使其增加生育的女性。由于选择较小家庭的女性更可能受过大学教育，因此这两种工具变量所对应的遵从者之间的差异在经济意义上是非常重要的。大学教育和由此带来的更高工资鼓励受过教育的母亲使用有偿托儿服务，这反过来又促进了第三胎后的劳动力参与。而同性别工具变量所对应的遵从者获得大学学位的可能性仅为二胎母亲的三分之二左右，因此他们不太可能通过有偿的方式来应对第三胎。由此，生育对于提供家庭照护的女性所带来的工作减少后果要高于使用有偿照护的女性。

通过上述例子我们可以了解到，即使两个实验可以识别出相同的潜在因果关系，如何使用LATE来协调两个自然实验的不同结果。

4. Constructing Causal Stories

在这一章节，Angrist谈及到“the puzzle of negative Chicago exam school effects”。

许多被芝加哥考试学校拒绝的申请者就读于特许学校，考试学校的offer降低了特许学校入学的可能性。具体而言，考试学校的offer将申请者从Noble Network of charter schools中的高中转移出来。Noble是芝加哥最知名的特许学校之一，其教学方法与KIPP非常相似，它招收了全市40%的九年级特许学生。与KIPP一样，Noble也采取抽签的方式进行招生。在抽签中被提供Noble席位的申请者自然比没有获得席位的申请者花更多时间在那里学习，所以他们的ACT分数也更高。如Figure 5 的A图所示，A图的x轴是抽签对在Noble注册年限的影响，即第一阶段。这里未使用入学的虚拟变量，是因为在ACT考试前学生在Noble度过的时间因人而异。另外，不同于KIPP分析，该图显示了两组第一阶段结果，一组是居住在芝加哥最低收入社区之一的Noble申请者（Tier 1），另一组是居住在高收入地区的Noble申请者（Tier 3）。根据以下公式，便可以得到Tier 1组的IV估计值为0.18/0.50=0.35, Tier 3组的IV估计值为0.26/0.77=0.33。

对于这两组的Noble申请者来说，这些第一阶段和简化形式的估计结果意味着每年入学Noble所带来的影响约为三分之一的标准差。重要的是，通过这两点画出的线穿过原点（尽管原点在图中未涵盖），这意味着，reduced-form effects与first-stage effects成正比，该直线的斜率为0.34。这也证实了一个排他性限制，即在一个申请者群体中，若Noble offers与入学Noble无关，那么这些offer应该对考试成绩不存在reduced-form effects。另外，C图右上方的蓝点显示了12个额外组别的相关情况，拟合后的直线斜率为0.36，接近A图中的直线斜率。

    在一个constant-effects的框架内，除非其中一个工具变量无效，否则 Noble 入学效应的替代 IV 估计值应该是相似的。然而，正如我们所看到的，即使在所有工具变量都有效的情况下，使用不同工具变量的LATEs也会有所不同。但是，即使在LATE框架中，reduced-form effects也是由相应的first-stage effects的大小来衡量的。这些限制即使在没有constant causal effect的情况下也是成立的。 

那么, Figure 5中A图的Noble IV估计值与考试学校入学效应有什么关系？答案就在B图。如图中灰线所示，对于通过合格线的申请者，其注册年限存在一个跳跃。是否合格对任何考试学校的入学年限的影响约为0.61。同时，在同样申请Noble的申请者样本中，Noble入学年限在合格临界点上下降约0.37年。这就是考试学校的offer对Noble入学情况的分流效应（diversion effect）。 从C图中也可以看到，图中的红点在x轴上均在0的左边，这正是考试学校offer的分流效应所带来的。这个故事的因果关系假设是，从特许学校分流出来是芝加哥考试学校offers影响成绩的主要机制。在考试学校offers对就读于特许学校几乎没有影响的申请者群体中，这些offers应该不会使ACT分数发生变化。

5. Empirical Economics Gets Serious

在Angrist and Pischke（2010）中，Angrist与Steve Pischke 提出了“credibility revolution”一词。他们认为，经济学转向适用于具体因果问题的透明实证策略。向问题驱动的实证工作（而非模型驱动）的转变推动了一波持续至今的计量经济学创新浪潮。问题驱动的方法论议程大多建立在Rosenbaum and Rubin（1983）的倾向得分定理（propensity score theorem）上。这个定理改变了应用计量经济学，将我们的注意力集中在确定treatment assignment的过程上，而非models for outcomes。Dehejia and Wahba（1999）率先证明了这种方法的价值，而Hahn（1998）和Hirano et al.（2003）提出了关于得分的新理论问题。最近，Belloni et al.（2014）使用机器学习对得分进行建模，同时对结果进行建模。这项工作可以看作是将Robins（2000）的双重稳健性概念扩展到更广泛的实证策略类别。

同时，独特的RD方法论正在蓬勃发展。在一系列贡献中，计量经济学家继续解决非参数 RD 带宽选择的棘手细节，如 Imbens and Kalyanaraman（2012）和 Calonico et al.（2017）。非参数RD还需要一定程度的连续性，然而，Koles´ar and Rothe（2018）表明我们可以使用离散的运行变量。De Chaisemartin and Behaghel（2020）解决了当临界点是由行为决定时，RD设计中出现的估计问题。

 IV在现代实证工作中发挥了巨大的作用，Andrews et al.（2019）对这方面的进展进行了总结。在Angrist和Koles´ar（2021）中，Michal Koles´ar和Angrist认为，至少在涉及到恰好识别的IV时，对偏差的担忧被夸大了。另外，在因果效应的实证工作中还有很多问题有待解决，例如关于聚类数据的推断、RD并非万无一失等等。

在文章的最后，Angrist说道，

“Empirical work today aspires to tell convincing causal stories. Not that every effort succeeds, far from it. But, as any economics job market candidate will tell you, empirical work carefully executed and clearly explained is taken seriously indeed. I hope that today’s Ph.D. students will join me in seeing this as a measure of our enterprise’s success”.

顶级公开课程：1.免费4门课程, 因果推断1和2, IV, 份额移动IV和高级DID, 附数据,代码,讲义和阅读清单，2.哈佛“数据科学导论”课程对所有人免费开放！包括机器学习和回归分析等各种方法！3.加拿大经济学会主席的"机器学习"课程可以学习了! 共计20份Slides直指ML前沿！4.耶鲁开设“应用实证方法”P.hd课程, 强逻辑, 好文献, 重实操, 真前沿, 送slides和笔记！5.诺奖得主Angrist的因果推断课程文献读物单子再次更新了, 还提供了其他三门课程，6.全面且前沿的因果推断课程, 提供视频, 课件, 书籍和经典文献，7.美国博士用4年整理了写论文的各章实用资料, 包括课程, 软件, 研究, 投稿和工作等，8.MIT经济系50门开放课程对中国学者开放, 包括计量经济学等各类经济学课程！9.MIT斯隆商学院研究生课程对国内免费开放, 在家就能学习世界一流商学院的课程！