【原】APSR, 揭开因果关系的黑盒子:从实验研究和观察研究中了解因果机制

计量经济圈 2021-09-14

展开全文

所有计量经济圈方法论丛的do文件, 微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

下面这篇文章写得很认真，为王奕泽学者的严谨精神点赞！

关于下方文字内容，作者：王奕泽，法国埃塞克高等商学院，通信邮箱：wangyize97@163.com

IMAI, K., KEELE, L., TINGLEY, D., & YAMAMOTO, T. (2011). Unpacking the Black Box of Causality: Learning about Causal Mechanisms from Experimental and Observational Studies. American Political Science Review, 105(4), 765-789. doi:10.1017/S0003055411000414
Identifying causal mechanisms is a fundamental goal of social science. Researchers seek to study not only whether one variable affects another but also how such a causal relationship arises. Yet commonly used statistical methods for identifying causal mechanisms rely upon untestable assumptions and are often inappropriate even under those assumptions. Randomizing treatment and intermediate variables is also insufficient. Despite these difficulties, the study of causal mechanisms is too important to abandon. We make three contributions to improve research on causal mechanisms. First, we present a minimum set of assumptions required under standard designs of experimental and observational studies and develop a general algorithm for estimating causal mediation effects. Second, we provide a method for assessing the sensitivity of conclusions to potential violations of a key assumption. Third, we offer alternative research designs for identifying causal mechanisms under weaker assumptions. The proposed approach is illustrated using media framing experiments and incumbency advantage studies.

一、摘要

确定因果机制是社会科学的一个基本目标。研究人员不仅要研究一个变量是否会影响另一个变量，还要研究这种因果关系是如何产生的。然而，用于确定因果机制的常用统计方法依赖于不可检验的假设，并且即使在这些假设下，也往往是不适当的。随机化处理和中间变量也是不足够的。尽管有这些困难，因果机制的研究太过于重要，所以绝不能放弃。我们为完善因果机制的研究做出了三点贡献。首先，我们提出了在实验和观察研究的标准设计下所需的最小假设集，并开发了一个估计因果中介效应的通用算法。其次，我们提供了一种方法来评估结论对潜在的违反关键假设的敏感性。第三，我们提供了在较弱假设下识别因果机制的替代研究设计。所提出的方法是通过媒体框架构建实验（media framing experiments”,所谓的“framing”构建就是指的媒体如何展示信息，也就是讲故事。媒体如何讲新闻故事，会影响公众的舆论，不同的讲法、细节提示会让大众产生不同的观点和情绪）和在职优势（incumbency advantage，是指正在任职的人参加选举时更容易胜出）研究来说明的。

二、引言

1.研究背景

实证研究中目前存在一个问题，那就是许多实证研究过于关注一个变量是否影响其他变量，但是无法解释这种影响是如何产生的，使得这种因果关系的探寻成了“黑箱”。对于许多研究来说，只估计因果效应是不够的，还必须探寻产生因果效应背后的原因，即因果机制。

2.本文主要贡献

本文在因果机制研究方面主要做了三个贡献：

（1）本文提出了实验和观察研究的标准设计下所需的一组最小假设。

（2）本文开发了一种评估结论对潜在违反关键假设的敏感性的方法。

（3）本文提供了一种替代研究设计，可以在不太严格的假设下识别因果机制。

三、两个探寻因果机制的例子

此章中讲了两个实证的例子，这两个例子中研究人员努力探寻因果机制，而不是仅仅估计因果效应。

1. 情绪在媒体框架构建应中的作用

政治科学长期以来一直在研究媒体是否会影响公众对政府政策（例如反对或支持某项政策）和政治候选人（例如对候选人领导潜力的评估）的支持度。因为媒体可以以特定的方式来构建事件（也就是说一个故事可以有不同的讲法），我们预计公众阅读和听到的新闻故事会影响公众舆论。特别是涉及特定人群的政治事件的构建已被发现在某些问题领域特别有效，例如移民。

Brader、Valentino 和 Suhay (2008)研究了以种族为主要话题的媒体提示对于公众对移民态度的影响。他们不是简单的询问媒体的提示是否影响公众意见，而是探求这种影响的运作机制。作者发现基于群体的媒体提示的影响是通过改变个体焦虑水平而产生的。他们采用标准实验设计，其中受试者接受随机分配的媒体提示，该提示以关于白人（群体内）或拉丁裔（群体外）移民的故事为主。其次是焦虑和移民态度的测量。他们的分析表明，来自外群体移民的威胁提示会增加焦虑，进而加剧对移民的反对，并更有可能针对该话题采取政治行动。在这项重要研究之后，该领域文献研究的重点已经从简单地估计基于群体的诉求对公众态度的影响转变为确定传递这种影响的各种机制（例如，Gadarian 2010）。

\2. 在职效应的分解

“在职效应”是指在职者拥有选举优势，使得他们更容易在选举中获胜。Gelman和King(1990)的研究发现“在职效应”一直是存在的（结果positive），并且在过去几十年里还在增长。Cox和Katz(1996)通过探寻为什么在职者具有选举优势的可能的因果机制把该研究引向了新方向。他们认为一个重要的机制是在职者阻止高水平的竞争者参与到竞选中来的能力。他们试图把在职优势分解为“劝退/质量效应”和其他因果机制（如资源优势）。他们发现，随着时间的推移，在职优势的大部分增长可以归因于“劝退/质量效应”的增长，现任者劝退了高质量的竞争者，于是面对的竞争者的质量降低，这使他们在选举中获得优势。之后有人使用不同的实证方法来验证“劝退/质量效应”的存在，也有人考虑了其他的因果机制，如选举支出、亲自投票、电视等因素的影响。

四、因果机制研究因果机制的正式框架

本文中，作者将因果机制定义为一个过程，其中一个变量通过中间变量对另一个变量产生因果影响。作者证明在因果效应中可以把总因果效应分解为直接和间接效应。潜在结果框架为理解和研究因果机制提供了一种正式的语言。

1. 潜在结果框架

（1）该框架优点：在回归模型中，因果异质性问题被模糊为误差项的一部分，而该框架中会使得未观察到的因果异质性问题更明确，便于更好地理解和研究因果机制。

（2）潜在结果的构建：设Ti为处理指标，当i在处理组中时取值为1，否则取值为0。为了简单起见，本文中专注于二元处理，但是这种方法可以轻松拓展到非二元处理。用Yit来表示当i处于处理状态t时可能产生的结果。每个受试者i有两个潜在的值，但是在观察中只有一个状态与其对应，所以如果用Yi来表示观察结果，有Yi=Yi(Ti)。

例如，在Brader、Valentino 和 Suhay (2008)的研究中，受试者被提供负面的移民故事就是Ti=1，受试者被提供与移民无关的控制组的新闻故事就是Ti=0。

在这种设置之下，处理的因果效应可以定义为两个潜在结果之间的差异：一种是在处理条件下实现的潜在结果，一种是在控制条件下实现的潜在结果，所以处理的因果效应为Yi(1)-Yi(0)。因为对于每个实验单位来说只有一种潜在结果是可以观察到的，所以无法观察到单位水平的处理效果。因此，研究人员通常专注于观察对一个群体的平均处理效果(Average Treatment Effect，简称ATE)的估计。如果处理是随机的，那么每个单元被处理的概率是相同的，所受的处理是独立的。可以用标准数学符号表示为。

而在观察性研究中，处理条件不是随机的，因此研究人员通常用回归、匹配和其他技术对处理组和对照组之间观察到的处理前协变量Xi的差异进行统计调整。这种方法假设不存在影响处理和结果变量的遗漏变量。

在潜在结果框架下，ATE可以确定为处理组和对照组之间结果平均值的平均差异。对于实验性研究，均值差估计量对于ATE是无偏的。对于观察性研究，相当于估计一组预处理协变量值的ATE，然后在预处理协变量的分布上对其进行平均。因此，在Brader、Valentino 和 Suhay (2008)的实验中，两种类型的新闻故事被随机分配给受试者，通过计算两组观察到的结果的平均差异，就可以无偏地估计负面移民故事对受试者意见的平均因果效应ATE。而在观察性研究中，可能需要稍微复杂的计算，但是在某些假设下，回归系数可以解释为对ATE的无偏估计。

2. 将因果机制定义为间接和直接效应

作者在本节中使用潜在结果框架正式定义因果机制。作业将因果机制定义为一个过程，在这个过程中，处理变量T通过一个中间变量或中介变量M以因果关系影响另一个变量Y。在Brader、Valentino 和 Suhay (2008)的研究中，受访者的焦虑（M）传递了媒体框架构建（T）对移民态度（Y）的因果效应。在Cox和Katz(1996)的研究中，挑战者的质量代表了中介变量（M），在职状态（T）通过它对选举结果（Y）产生因果影响。

处理的因果效应可以分为间接效应（代表假设的中介因果机制）和直接效应（代表所有其他机制）。如图1(a)中所示，间接效应是由处理T到中介M再到结果Y，而直接效应是处理T直接到结果Y。

图1.代表各种因果机制的图表

3. 标准设计下的非参数识别

在定义完因果机制之后，作者现在考虑在标准设计下识别ACME和ADE所必需的假设。通过标准设计可以看出，处理分配要么是随机的（如在实验性研究中），要么假设为随机给定预处理协变量（如在观察性研究中）。这里的关键是，直接效果和间接效果都包含一个在这种设计下无法实现的潜在结果。事实上在这种设计中，ATE被识别，但是ACME和ADE没有被识别。因此，确定因果机制需要额外的假设。

作者将这个额外的识别假设给出如下形式。设Xi是观察到的单元i预处理混杂因素的向量，例如媒体框架构建实验中的性别和种族，以及在职优势研究中的过去的选举结果。那么假设可以写成如下形式：

假设1 顺序可忽略性

假设1称为顺序可忽略性，因为两个可忽略性假设是按顺序进行的。首先，考虑到观察到的处理前的混杂因素，假定处理分配是可忽略的——在统计上独立于潜在结果和潜在中介。假设的这一部分通常称为无遗漏变量偏差，无外生性或无混淆。在实验性研究中，因为处理是随机的，因此该假设成立。在观察性研究中，研究人员通常使用回归和/或匹配来使这一假设可信。

假设1的第二部分意味着考虑到实际的处理状态和处理前的混杂因素，观察到的中介是可忽略的。在这里，如果假设以处理前收集的一组协变量为条件，中介状态就可以忽略。

在假设1下，ACME和ADE是非参数确定的。这意味着，如果没有关于中介或结果变量的任何另外的分布或功能形式假设，这些影响是可以一致估计的。因此，假设 1 允许我们对我们没有观察到的反事实数量进行推断。结果还意味着我们可以通过对观测数据的函数形式或分布不做或做弱假设来更灵活地估计 ACME 和 ADE。Imai、Keele和 Tingley (2010) 利用这一事实开发了一种通用方法，用于使用参数或非参数回归模型来估计许多类型的结果和中介变量的数量。如图1所示，这种新方法纠正了研究人员在使用非线性统计模型估计 ACME 和 ADE 时犯的常见错误。

表1. 因果链方法的谬误

4. 顺序可忽略性与传统外生性假设

顺序可忽略性（假设1）与传统外生性假设截然不同。第一，人们可能会错误地推断中介变量和处理变量都是随机化的就能满足假设1。例如，Spencer, Zanna,和 Fong (2005)提出了一种“因果链”方法，其中研究人员实施了两个随机实验，一个是把处理变量随机化来确定其对中介变量的影响，一个是把中介变量随机化来确定其对结果的影响。然而，即使在这两个实验中都保证处理变量和中介变量都是外源性的，只是简单地将两者结合并不能够确定ACME。考虑表1中给出的假设人口，它通过它通过潜在中介和结果的值描述了单位“类型”的人口比例。尽管表1中的值不能被共同观察到，但两个随机实验将提供足够的信息来确定处理对中介以及中介对结果的平均因果效应。在本例中，这两种效应都是正的并且等于0.2。因此根据这些结果，可以得出ACME为正的结论。然而，ACME实际上是负的。因此，与通常所相信的相反，传统的外生性假设并不能确定ACME。

在这个例子中，因果异质性以这样一种方式存在，即处理变量对中介（表的第一行）有积极影响的这部分，对结果表现出了负向的影响。这种与顺序可忽略性的特殊偏差使得因果中介效应在平均值上为负，即使所有其他平均效应都是正的。这个例子的关键点是要区分因果中介效应和中介本身的因果效应之间的根本区别。后者是指如果中介被修改为某些固定值，将发生的潜在结果的平均差异。因为因果机制是要研究实验处理是如何通过中介传递的，所以仅仅确定中介本身的作用是不够的。

顺序可忽略性与传统外生性假设之间的第二个关键区别在于，顺序可忽略性的第二部分中的条件协变量集必须只包括预处理变量。如图1(a)和(b)的两个因果图，其中涉及M和N两个中介变量，假设不存在预处理混杂因素，在图1(b)中，一旦处理状态得到控制，这两个中介变量在因果关系上是无关的，因此在条件上彼此独立，这意味着传统的外生性假设和顺序可忽略性都能得到满足。因此，可以确定每个中介的ACME。而图1(c)中，其中一个中介（M）和结果（Y）之间的因果关系被另一个中介（N）混淆。这意味着，尽管在调整和处理变量（T）后满足外生性假设，但不满足顺序可忽略性。中介变量的外生性并不意味着因果机制的可识别性。

五、标准假设下的推断和敏感性分析

1.现有方法及其局限性

估计中介效应的标准方法（例如，Baron 和 Kenny 1986；MacKinnon 2008）：这种常用的方法基于以下的一组线性方程：

LSEM框架的另一个重要缺陷是它不能直接应用于非线性模型。而如果用离散模型来替换线性回归模型，该模型中的非线性意味着系数乘积和系数的差不能再提供顺序可忽略性下ACME的一致性估计。本文作者提出了一种通过直接使用非参数识别结果来估计 ACME 和 ADE 的通用方法，该方法不依赖于任何统计模型。

2.建议的估计方法

非参数识别结果可以导出计算ACME和ADE的通用算法，只要顺序可忽略性成立，该算法可以适用于任何统计模型。该算法包括两部。

首先，作者为中介变量和结果变量拟合回归模型。中介变量被建模为处理变量和任何相关的预处理协变量的函数。结果变量被建模为中介变量、处理变量和预处理协变量的函数。模型的形式是无关紧要的，可以是非线性的，例如逻辑斯蒂或概率模型。然后基于中介模型为中介变量生成两组预测，一组是处理组，一组是控制组。

下一步，把结果模型用于潜在的结果预测。假设估计处理下的ACME，即。首先，使用在处理状态下的预测值来预测处理条件下的结果。然后再使用控制条件下的预测值。最后ACME就是两个不同的结果预测之间的平均差异。基于渐进抽样分布的自举法或蒙特卡洛近似法可以用于计算统计不确定性。

3.敏感性分析

正如本文所讨论的，确定因果机制需要顺序可忽略性，但是这无法用观察到的数据进行测试。鉴于因果机制的识别依赖于不可检验的假设，因此评估经验结果对可能违反该假设的稳健性十分重要，如果推理是敏感的，稍微违反假设可能会导致本质上不同的结论。所以虽然政治学统计实践中敏感性分析不是常规部分，但是作者认为这是实证研究中不可或缺的一部分。

Imai, Keele, 和 Tingley (2010) 以及Imai, Keele, 和 Yamamoto (2010)基于

（中介模型的误差）和（结果模型的误差）之间的相关性提出了敏感性分析模型。他们使用ρ来表示两个误差项之间的相关性。如果顺序可忽略性成立，则所有相关的预处理混杂因素都已经被条件化，因此ρ为0。而当ρ非零时，意味着偏离了顺序可忽略性假设，并且某些隐藏的混杂因素使ACME估计有偏差。因此，ρ可以用作敏感性参数，ρ的更极端值表示与顺序可忽略性假设的更大的偏离。虽然ρ的真实值是未知的，但是只要ACME为0或者其置信区间内包含0，就可以计算ρ的值。

六、实证说明

1.量化焦虑在媒体框架效应中的作用

表2. 离散结果的回归系数积和ACME估计

如表2所示，Brader、Valentino 和 Suhay (2008)的原研究中设置了四种处理条件，本文将四类处理条件指标改为一个二元变量，其中处理条件是负面新闻结合拉丁裔移民的图片，控制条件由其他三个条件中的受试者组成。焦虑中间变量由调查得到的三个情绪指数构成。衡量对移民的各种态度的结果变量都是离散的。最后，使用原始分析中用的预处理协变量（教育、年龄、收入和性别）。

平均因果中介效应的估计：

表2中报告了两种类型的结果。第一种基于Brader、Valentino 和 Suhay (2008)使用的回归系数乘积方法（左列）。这使用了线性回归估计方程（6）和二元或有序概率模型（7），两者都包括预处理协变量集。在这种方法下，被解释为ACME的估计值，并且使用渐进方差公式计算区间。对于每种类型的移民态度和行为，使用系数乘积方法获得一个积极的、统计上显著的估计。

然而，如前面所说，除非结果和中介都被建模为线性函数，不然回归系数乘积方法的使用是有问题的。在当前情况下，由于使用了非线性结果变量的模型，即使在顺序可忽略性假设下也不能一致地估计ACME，因此该估计值缺乏明确的实质性解释。

第二组结果采用了建议的估计方法（右列）。本文作者估计同一组回归模型，然后计算ACME。结果与系数乘积估计形成鲜明对比，后者大4到10倍。在假设1下，本文作者对ACME的估计是一致的，它代表了由于处理条件差异引起的中介变量对结果的平均改变。

例如，作者发现平均来说实验处理使一个受试者偏好更少移民的概率增加了0.105（95% 置信区间为 [0.048, 0.170]），因为加重了焦虑。因为总的因果效应是0.195 （[0.067, 0.324]），直接效应是0.090 （[ 0.021, 0.209]），因此我们可以得出结论，总效应的大约54%是由焦虑中介变量导致的。相比之下，系数乘积方法高估了由焦虑而倾向于较少移民的概率（0.347 与 0.105 相对）。

*敏感性分析：*

前面结果表明焦虑确实可能是媒体提示对移民态度影响的中介。然而，这些发现是在满足假设1的前提下成立的，因此，一个值得研究的问题就是该结果对于违反假设的敏感程度。具体来说，要考虑那些变得焦虑的人是否有没被观察到的与其他人不同的特征，这些特征也会影响移民的态度。例如，如果受试者的恐惧倾向或者意识形态会使得他们更加焦虑并且更加反对移民，则建议的估计程序会产生对ACME的有偏估计。作者的敏感性分析衡量了结论对于这种可能情况的稳健性。

在这里，作者关心受试者陈述是否应该减少或增加移民的结果。结果如图2所示，在左侧面板中，真实的ACME 是针对敏感度参数 ρ 的值绘制的，它等于中介和结果模型中误差项之间的相关性，因此代表了焦虑和移民偏好之间未观察到的混杂因素的程度和方向。当 ρ 为零时，连续可忽略性成立，真实的 ACME 与表 2 中报告的估计值一致。图中的阴影区域标记了每个 ρ 值的 95% 置信区间。

在敏感性分析中提出的第一个问题是，要使中介效应为零，ρ 必须有多大。作者发现对于这个结果，当 ρ 等于 0.43 时，估计的 ACME 等于 0。考虑到抽样不确定性后，作者发现当 ρ超过 0.34 时，ACME 的 95% 置信区间包括零。因此，要得出真正的 ACME 与零没有显着差异的结论，必须假设一个未观察到的混杂因素在同一方向上影响焦虑和移民偏好，并使两个误差项之间的相关性大于 0.34。

在图 2 的右侧面板中，真实的 ACME 显示为关于中介变量（横轴）和结果（纵轴）方差比例的等高线，两者都是解释真实回归模型中未观察到的混杂因素。在这里，作者探讨了未观察到的混杂因素在同一方向上影响中介和结果的情况，如果混杂因素是恐惧倾向，这就符合期望。这两个灵敏度参数均以 1 减去观察模型的 R2为下界限，R2表示尚未被观察模型解释的方差的比例每个模型中的预测变量。在此示例中，中介模型的这些上限为 0.78，结果模型的上限为 0.50。在其他条件相同的情况下，该上限的较低值表示对 ACME 的估计更稳健，因为未观察到的混杂因素对结果产生偏差的空间较小。

图2.连续中介和二元结果的敏感性分析

2.估计在职人员的“劝退/质量效应”

Cox和Katz(1996)研究了在职者选举优势的因果机制。他们提出了一种机制，在职者“劝退”高质量的挑战者，让在职者具备优势。他们的论点是，由于在职者可能拥有更多的资源，因此更高质量的挑战者将被击败在职者所需要的更高的成本以及自己的高机会成本所劝退。

在原分析中，处理变量是一个三分的在职指标，如果i区的现任在职者是共和党人，则等于-1，如果没有在职者则为0，如果在职者是民主党人则为1。中介变量就是所说的民主党质量优势，它同样是一个三分变量，如果共和党候选人之前担任过该职务但是民主党候选人没有，则为-1，如果两个人都担任过或者都没有担任过则为0，如果民主党候选人担任过该职务但是共和党候选人没有，则为1。结果变量是民主党在i区获得的投票份额。

挑战者质量的测量：

为了估计在职人员的“劝退/质量效应”，Cox和Katz(1996)将民主党候选人的质量优势作为

然而，这个中介变量是有问题的，因为它不是仅仅根据挑战者的素质来定义的，也有在职者自身的素质。事实上，因为在职本身被视为拥有任职经验，无论挑战者的素质如何，只要一个地区有共和党或民主党在职，中介变量就取不到最大值或最小值。比如Mi(−1) ∈ {−1, 0} 和 Mi(1) ∈ {0, 1}。这就使得中介的值和处理变量之间产生了人为的正相关，因为根据定义，Mi(−1)永远不会比Mi(1)大。

本文作者的框架提供了一种清晰的方式来重新审视最初的问题。原方案的问题在于，在职状态的变化会直接让质量变量产生变化，中介变量与处理变量的定义太过于接近。为了避免这个问题，本文作者首先根据在职者的政党将样本分为两组。为了分析民主党的在职影响，如果该地区有民主党在职者，则将处理变量定为1，如果没人任职则定为0。为了构建中介变量，本文作者使用 Jacobson (1987) 原始数据来计算共和党候选人的质量。如果共和党人以前担任过公职，将此中介变量定为1，如果没有担任过公职，将其定为0。这样中介变量与处理变量不再有关联。

平均因果中介效应的估计：

Cox和Katz发现，通过分别估计选举的影响，由于劝退/质量机制引起的在职效应的效果随着时间的推移而增强。图3显示了分别将民主党在职者（左）和共和党在职者（右）从0（空缺职位）更改为1（在职者）的ACME和总影响。正如文献中发现的，在职的影响随着时间的推移而大大增强。在最初的研究中，这种增长归因于劝退/质量效应随时间的增长。相比之下，本文作者的研究表明，对于早期的民主党或共和党候选人，ACME与零没有显著差异。此外，尽管ACME与原始研究中一样随着时间的推移有小幅增加，但是从1979年起这种影响只有2%到3%之间，并且统计显著性只在0.05的水平。因此，本文作者的再分析表明，在职优势的增强可能归因于不同的因果机制，而不是劝退/质量机制。

图3.估计的ACME和在职状态对本政党投票份额的总影响

七、可信推理的替代研究设计

1.设计随机实验

Brader、Valentino 和 Suhay (2008)在媒体提示影响移民态度的研究中，使用了标准的单实验设计，包括三个步骤：首先，将实验处理随机分配给受试者。其次，在实施处理后测量中介变量。最后，测量结果变量。单实验设计是社会科学中绝大多数试图确定因果机制的实验工作的典型代表。然而，单实验设计存在一个问题，那就是我们不能确定观察到的中介满足处理和预处理协变量的条件的可忽略性。更好的选择是研究人员随机分配中介值的实验设计，例如并行激励设计。

在并行激励设计中，受试者首先被分成两个实验，并行运行。第一个实验使用标准的单实验设计。在第二个实验中，首先将实验条件和对照条件随机分配给受试者。然后，在每个条件下，激励受试者的随机子集采用高或低的中介值。最后，观察中介变量和结果变量。例如，对Brader、Valentino 和 Suhay (2008) 原始研究的重新设计将使受试者要么阅读处理组的新闻报道，其中包括西班牙裔移民故事并强调移民带来的成本，要么阅读控制报道。其次，在每种情况下，通过写作任务（例如Tiedens 和 Linton 2001）或其他情绪诱导程序（例如，Gross 和 Levenson 1995）使一组随机的受试者具有较低或较高的焦虑水平。如果第二个实验中的中介操作是完美的，那么平行鼓励设计将简化为平行设计，即直接操作中介以对随机选择的样本子集取特定值。需要注意的是，即使在并行设计中，也不能直接识别 ACME 和 ADE。这是因为因果中介效应代表了由于处理条件的差异导致的中介变量的变化，而不是直接操纵中介变量的效果。

然而，并行激励设计为那些遵守激励的受试者提供了更多信息。如图5所示，随机鼓励Z可以被视为引起中介变量外生变化的工具。随机激励Z会引起中介M的外生变化，这使得研究人员在存在混杂因素的情况下也可以对ACME和ADE进行信息推断。

这些新设计在许多情况下会产生更多关于因果机制的信息，因此，这些设计对于研究因果机制但是希望避免顺序可忽略性假设的实验者来说是有用的替代方案。

图5. 说明并行激励设计的图表

2.设计观察性实验

如何设计观察性研究可以在没有实验控制的情况下对因果机制做出可信的推断？本文作者的建议是使用之前讨论过的实验设计作为模板。在过去几十年里，自然实验在社会科学中的使用越来越多，这是实证研究者使用随机实验作为研究模板的系统性努力的结果。这些研究人员努力寻找处理变量是被随机确定的情况，以便可忽略性假设更加可信。

Imai、Tingley 和 Yamamoto (n.d.) 提出的交叉设计可以拓展到观察性研究中。随机饰演的交叉设计包括以下两个步骤。首先，实验处理是随机的，然后观察中介变量和结果变量的值。其次，将处理状态更改为与第一个周期的处理状态相反的状态，并操纵中介体，使其值固定为从第一个周期观察到的介体值。由于中介值在两个时期内都是固定的，因此第一时期和第二时期之间每个单元的结果的比较确定了该单元的直接影响。从估计的 ATE 中减去估计的 ADE，然后给出 ACME 的估计。

3.一致性假设的重要性

最后，迄今为止所考虑的研究设计都基于一个称为一致性的重要假设（Cole 和 Frangakis 2009）。该假设指出，处理变量和中介变量的值产生时，只要二者的值相同，它们的潜在结果就必须取相同的值。换句话说，实验操作本身不能影响结果，除非通过它们在治疗或中介值中引起变化。

这种一致性代表了因果推断文献中绝大多数的现有结果的基本假设，尽管它经常被隐含。然而，在因果机制的分析中，一致性假设值得特别注意。正如本文通篇所强调的，根据定义，因果机制的识别需要对中介变量对实验处理的自然变化进行推断。因此，即使是在涉及操纵中介变量的实验设计中，也必须假设如果受试者自发做出选择，也会做出相同的反应。

当所研究的机制是心理机制的时候，一致性假设需要仔细检查。例如，在设计随机实验中讨论的Brader、Valentino 和 Suhay (2008)的研究的重新设计版本中，焦虑的鼓励（如写作任务）本身可能会对受试者的移民态度产生影响，这样就违反了一致性假设。总之，必须根据具体的应用的特定背景，仔细评估一致性的合理性。

八、结束语

许多社会科学研究都是与理论化和测试因果机制有关的。但是统计和实证方法因为被认为只能估计因果效应而无法确定因果机制受到批评。考虑到研究因果机制的难度，一些研究人员甚至建议实证研究的重点应该是在研究因果效应上，而不是因果机制上。

虽然研究因果机制确实是一个挑战，但本文作者相信我们可以取得进展。社会科学的实证研究，不管是实验性的还是观察性的，通常都需要强有力的假设。在本文中，作者展示了推进因果机制研究的三种方法。首先，本文中使用的因果推断的潜在结果框架提高了对识别假设的理解。其次，本文作者开发的敏感性分析允许研究人员正式评估他们的结论对这些假设的潜在违反情况下的稳健性。最后，为实验性和观察性研究提出的新研究设计可以减少对不可检验的假设的依赖。顺序可忽略性这类强假设需要特别注意，并且需要把创新的统计方法和实验设计结合起来。

许多方法论工作仍然有待改进，科学研究是理论构建和实证检验的迭代过程。在本文中，作者已经表明了有时可以使用新的方法论工具直接测试因果机制，研究人员可以解开因果关系的黑箱子，超越简单地估计因果效应。

下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。

2.5年，计量经济圈近1000篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle