【原】安慰剂检验！因果推断中安慰剂检验！

计量经济圈 2023-02-15 发布于浙江

展开全文

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

关于安慰剂检验，参看：1.截面DID, 各种固定效应, 安慰剂检验, 置换检验, 其他外部冲击的处理，2.AER教你两种论证IV合理性的实证策略, 以及如何对IV做安慰剂检验，3.DID双重差分中安慰剂检验思路及绘图的操作代码分享！4.如何用置换检验在DID双重差分中做安慰剂检验, 给出文献, 示例和操作代码！5.中国反腐行动与企业家精神, 交错DID方法平行趋势, 安慰剂检验！

《关于因果推断的最全安慰剂检验》

正文

关于下方文字内容，作者：周朗，华中科技大学管理学院，通信邮箱：m202174110@hust.edu.cn

作者之前的文章，美联储内部广泛传阅的“重复使用自然实验”读本公开！

Andrew C. Eggers, G. Tuñón, A. Dafoe, 2021, Placebo Tests for Causal Inference, https://pelg./Eggers_2021.pdf
Placebo tests allow researchers to probe the soundness of a research design by checking for an association that should be present if the design is flawed but not otherwise. Despite the growing popularity of placebo tests, the principles for designing and interpreting them have remained obscure. Drawing on a comprehensive survey of recent empirical work in political science, we define placebo tests, introduce a typology of tests, and analyze what makes them informative. We consider examples of each type of test and discuss how to design and evaluate tests for specific research designs. In sum, we offer a guide to understanding and using placebo tests to improve causal inference.

关于因果推断的安慰剂检验

一，摘要

安慰剂检验使研究人员可以通过检查有缺陷的研究设计是否存在相关问题，去进一步证实研究方案的可靠性。尽管安慰剂检验越来越流行，但进行设计和解释的原则仍然很模糊。作者根据对政治学最近实证文献的全面总结，定义了安慰剂检验，介绍了三种检验类型，并分析了检验所能提供的信息。此外，还通过每种检验类型的具体实例，去探讨如何设计和评估具体的安慰剂检验。总之，作者提供了一份理解和使用安慰剂检验去改善因果推断的研究指南。

二，引言

1. 研究背景

在观察研究对某个结果变量的处理效应时，当研究人员估计出处理效应，只能算是部分完成检验工作。因为除了检验强关联结果是否偶然出现（零假设显著性检验），研究人员还常通过稳健性检验去评估结论是否依赖模型选择（Neumayer and Plümper 2017），通过亚组分析去检验处理效应是否依赖样本单位选择（Cochran and Chambers 1965; Rosenbaum 2002），通过敏感性分析去评估其他混杂因素偏差（Rosenbaum and Rubin 1983; Cinelli and Hazlett 2020）。这些辅助分析可以进一步反映研究方法能可靠地衡量处理效应，而不是反映随机误差、设定偏误、变量混杂或其他一些偏差。

安慰剂检验，是用于观察性研究的另一种辅助分析方法，其通过检验有缺陷的主要分析是否能推断出不应存在的强关联结果，来评估观察性研究可能存在的缺陷。“安慰剂检验”一词源于医学，其中“安慰剂”最初指的是一种通过欺骗来安抚焦虑病人的无效药物（De Craen et al.1999），后来指药物试验中的惰性被动治疗。在流行病学、经济学和其他社会科学的观察性研究中，“安慰剂检验”现在指的是不应该产生处理效应的检验（如药物试验中的安慰剂）。如果安慰剂检验发现明显的处理效应则表明研究可能存在重要缺陷。近年来，安慰剂检验在政治学中的应用迅速增长。图1显示了2005-2019年间7种顶级政治学期刊（APSR、AJPS、JOP、IO、BJPS、QJPS、CPS）中包括“安慰剂检验”和相关术语的文章篇数。可以发现这7大期刊在2009年以前没有提到“安慰剂检验”的论文，但2019年超过35篇文章提到。安慰剂检验的日益流行反映了更严格的因果推断（Sekhon 2009; Dunning 2012）、对稳健性检验和其他辅助分析的更高期望（Neumayer and Plümper 2017）。

图1 2005-2019年7家顶级政治学期刊提到“安慰剂检验”和相关术语的文章数量

2. 研究目的

尽管安慰剂检验的使用越来越广泛，但理解是什么使安慰剂检验有效以及如何设计安慰剂检验仍很困难。关于安慰剂检验的见解分散在实证应用和若干学科的方法学文章中，以至于在不同学科中相同的基本实验有着不同名称（例如refutability tests, falsification tests, balance tests, tests for known effects, tests of unconfoundedness, tests with negative controls）。许多现有研究只讨论其认为一般性更强的某种安慰剂检验类型，这导致许多包含安慰剂检验的研究并不能真正评估缺陷，也使得学者对如何设计安慰剂检验存在明显分歧。因此作者试图通过对现有相互矛盾的术语和符号进行切割整理，以阐明什么是安慰剂检验、什么使安慰剂检验提供信息、如何设计和解释安慰剂检验，最终改进安慰剂检验在社会科学中的使用和评估效果。

3. 研究贡献

1）详细定义了安慰剂检验，并基于安慰剂检验如何改变核心分析中的研究设计，定义三种检验类型。对于每种检验类型，作者使用有向无环图（DAGs）和一个具体案例（Peisakhin and Rozenas 2018）说明基本逻辑。作者还阐明了哪些特性使检验提供更多或更少的信息，并通过最近政治学研究中的主要实例讨论这些特性。

2）为特定的研究方法（RDD、IV、DID）提供了设计安慰剂检验的思路。作者在解释和分析各种检验类型的过程中，提出并解决了几个棘手问题：为什么评估一个可能的混杂因素要进行额外的安慰剂检验，而不是在核心分析中进行控制？改变处理变量后的安慰剂检验是否应该控制实际处理效应？从使用“假截止点”的RDD安慰剂检验中学到了什么？最终作者得出结论，“p-hacking”是关于安慰剂检验的一个特殊威胁，但可以通过鼓励对安慰剂检验进行预分析与建立更清晰的设计和解释标准来解决。

3）总结和分类了最近在政治学研究中出现的100多项安慰剂检验（附录A），明晰了安慰剂检验的定义、类型和方法，为学者设计和分析安慰剂检验提供一定参考。

三，安慰剂检验的定义和类型

1. 定义说明

安慰剂检验可以诊断观察性研究存在的方法设计问题。当研究人员基于观测数据估计处理效应时，很有可能存在因变量混杂、模型设定偏误、随机误差等因素导致估计误差，使得研究人员错误地构建置信区间，以至于频繁拒绝零假设。安慰剂检验可以通过检查合理研究设计不可能存在的关联结果，来判断研究方法是否具有说服力。因此，安慰剂检验可被视为一种检验研究结论合理性的方法，其可以提高因果推断的可信度。

2. 类型总结

尽管原则上设计安慰剂检验有很多种方法，但是作者对政治学文献的研究表明，所有安慰剂检验几乎都是在原始设计最低改变程度的基础上衡量对结果变量的处理效应。因此作者做出如下定义：

1）核心分析（core analysis）：初始研究设计

2）安慰剂检验（placebo analysis）：改变版本后的研究设计

并观察到核心分析最常被改变的三种方式（如图2所示）：

1）样本检验（placebo population test）：改变样本容量，检验研究结果显著性

2）结果检验（placebo outcome test）：改变结果变量，检验研究结果显著性

3）处理检验（placebo treatment test）：改变处理变量，检验研究结果显著性

图2 安慰剂检验的类型和关键术语

四，安慰剂检验的信息特性

一般来说，安慰剂检验通过影响对核心分析缺陷的信念提供信息。在此重点关注产生二元结果的安慰剂检验：发现处理变量与结果变量确实有统计上的显著关联（p ＞ .05）；发现处理变量与结果变量没有统计上的显著关联（p ＜ .05）。

1. 特性总结

因此可以将安慰剂检验能提供的信息量总结为两条特性：

1）检验尺度或假阳性率（test’s size, 或 false positive rate）：当核心分析没有缺陷时，安慰剂检验存在显著关联的概率；

2）检验效力（test’s power）：当核心分析有缺陷时，安慰剂检验存在显著关联的概率；

众所周知（Royall 1997, pp. 48-49），显著性检验的信息性（即二元拒绝或不拒绝的结果在多大程度上能影响对零假设或替代假设的信念）仅取决于检验尺度和检验效力。信息最丰富的安慰剂检验，其检验尺度较低（如果核心分析合理，则安慰剂检验拒绝零假设的概率很低）、检验效力较高（如果核心分析有缺陷，则安慰剂检验拒绝零假设的概率很高）。因此，如果安慰剂检验拒绝零假设，则表明核心分析存在缺陷；不拒绝零假设，则不能提供有力证据证明核心分析存在缺陷。

2. 检验尺度（test’s size）

首先考虑安慰剂检验的尺度，并假设安慰剂检验中置信区间的构建方式：当安慰剂检验中不存在显著关联时，有α的概率拒绝零假设。那么当核心分析合理时，安慰剂检验中不存在处理变量对结果变量的影响，且得到了关于处理效应的无偏估计，说明此时安慰剂检验的尺度也是α。如果安慰剂检验中存在处理效应或是有偏估计，即使核心分析合理，安慰剂检验的尺度也会大于α。

3. 检验效力（test’s power）

安慰剂检验的效力取决于核心分析中的缺陷在安慰剂检验中所反映的程度。当核心分析存在偏差且目标就是检验偏差，安慰剂检验应该产生对处理效应的偏差估计，且能够精确估计处理效应的偏差。当核心分析存在不正确的置信区间且目标就是检验置信区间，安慰剂检验应该检测出不正确的置信区间，并允许研究人员在多项检验中评估显著性结果的比例。

总之，一个有信息量的安慰剂检验是指，在保留潜在缺陷的同时改变核心分析，能消除处理效应对结果的影响。在安慰剂检验中如果发现一个重要的关联，则表明缺陷可能在核心分析中发挥作用。因此设计安慰剂检验的关键挑战在于找到既能抑制处理效应（低检验尺度）、又能发现相关缺陷（高检验效力）的方法。

五，用DAGs论证实例

1. Peisakhin和Rozenas (2018) 案例简介

Peisakhin和Rozenas (2018) 有丰富多样的安慰剂检验，因此作者以其作进一步论证。该研究旨在衡量俄罗斯新闻电台政治倾向对乌克兰2014年大选亲俄投票的影响。在乌克兰大选前，俄罗斯电视台在乌克兰边境附近广播具有亲俄倾向的乌克兰政治俄语新闻。乌克兰东北部地区的一些选民可以访问这些节目，而另一些人则不能。播放信号既取决于接收机与俄罗斯边境一侧发射机的距离，也取决于接收机和发射机之间的地形。Peisakhin和Rozenas (2018)首先利用2014年选区的一级选举结果，来衡量接触俄罗斯新闻对2014年大选中亲俄政党支持率的影响。接着，使用调查数据和工具变量（IV）分析观看俄罗斯新闻对个人态度和行为的影响。

2. 有向无环图（DAGs）研究逻辑

为突出可能影响Peisakhin和Rozenas (2018) 的因素，并解释安慰剂检验如何解决这些问题，作者使用了简单有向无环图（DAGs）进行分析。图3左侧的DAG是该研究可能存在混杂偏差的简化表示。该研究试图检验俄罗斯新闻电视信号质量对2014年大选亲俄政党支持率的影响（箭头a），俄罗斯新闻电视信号质量用估计指标衡量，政党支持率用投票结果衡量，并控制了县区层级的固定效应和到俄罗斯的距离。但为简单起见，作者在本文省略这些控制。DAG强调了一个潜在的担忧：即使没有俄罗斯新闻电台在大选前后的播放，接收俄罗斯日常新闻电视信号更好的地区也可能更支持俄罗斯。如果俄罗斯的发射机战略性地部署到更支持俄罗斯的乌克兰社区，或者相同的地理特征（如海拔高度）影响2014年的电视接收信号，则很难区分究竟是俄罗斯日常新闻播放的影响还是大选前后新闻播放的影响。作者将这些担忧总结为“俄罗斯性”的单一混杂因素，它既影响俄罗斯电视接收信号（箭头b），也影响2014年亲俄政党的支持率（箭头c）。

图3 用DAGs表示Peisakhin和Rozenas (2018) 存在的潜在偏差

图3右侧的DAG则表示了俄罗斯电视信号质量通过IV替代机制影响投票行为的可能性。该研究的目的是检验观看俄罗斯新闻对投票行为的影响（箭头b），但是选择看俄罗斯新闻可能取决于许多未显示的混杂因素。为解决这一问题以，Peisakhin和Rozenas (2018) 将俄罗斯新闻电视信号质量作为观看俄罗斯新闻的工具变量，排斥性约束条件要求信号质量只通过影响俄罗斯新闻观看来影响投票（箭头a、b）。但DAG展示了一种可能使估计结果存在偏差的替代机制，即俄罗斯新闻电视信号质量可能使一个人更有可能通过邻居亲俄倾向的时事解释（箭头c），进而影响个人投票行为（箭头d）。

虽然DAG可以用来反映一般的依赖模式，但在某些情况下使用标准化变量（零均值、单位方差）并假设所有因果关系是线性的，将十分有用。因此可以将核心检验和安慰剂检验中的潜在估计偏差用线性函数的回归系数表示，例如信号质量对投票行为的回归得到的系数可以用图3左侧DAG中的a+bc（bc表示偏差）和右侧的ab+cd表示。接下来将以该案例作为基础，讨论三种类型的安慰剂检验。

六，安慰剂样本检验（population test）

1. 检验混杂偏差

在安慰剂样本检验中，研究人员使用一个替代样本复制了核心分析。该检验提供了是否存在样本偏差的信息，因为研究设计假定处理效应不会在安慰剂样本中起作用。图4左侧的DAG再现了Peisakhin和Rozenas (2018) 的核心分析，其表示可能存在“俄罗斯性”的混杂偏差（bc）。图4右侧的DAG则展示了Peisakhin和Rozenas (2018) 通过在拥有卫星电视或因其他原因不看地面电视的受访者中重复核心分析来解决这一问题。在该安慰剂样本检验中，俄罗斯（地面）电视信号质量不应影响亲俄新闻的观看。但是对于卫星电视所有者而言，“俄罗斯性”仍会影响信号质量（b’）和亲俄投票（c’）。在给定DAG情况下假设标准化变量和线性因果关系，进而在安慰剂样本中，Y对T的回归预期为b’c’。

图4 安慰剂样本检验混杂偏差的逻辑

在这个简单的案例中可以清楚地看到，安慰剂样本检验根据核心样本（bc）和安慰剂样本（b’c’）的估计结果相似度提供信息。在理想情况下，如果已知偏差在两个样本中完美反映，则bc = b’c’，此时可以用核心分析的估计值减去安慰剂样本检验的估计值来消除偏差。但更现实的是，可能出现b’ = kb（k≠0），并且k是未知的。例如，当且仅当“俄罗斯性”与卫星电视所有者信号质量有关时，“俄罗斯性”与地面电视所有者信号质量有关，尽管这两个路径在传导程度或方向上有所不同。此时如果c=c’（即“俄罗斯性”对两组样本同样重要），那么安慰剂样本检验的预期估计就是kbc，即是核心分析偏差的线性函数（尽管斜率k未知）。这时检验尺度（test’s size）应该很小，因为安慰剂检验没有发现关联。检验效力（test’s power）取决于k，同时也取决于样本规模和安慰剂样本的改变规模。

2. 检验替代机制

在Peisakhin和Rozenas (2018) 的安慰剂样本检验中，“俄罗斯性”和其他潜在混杂因素似乎也会对地面电视所有者和其他乌克兰人扮演类似的角色。但是卫星电视所有者可能比地面电视所有者更丰富、流动性更强，这会使安慰剂样本中俄罗斯电视信号和“俄罗斯性”之间（b’）的联系变弱，进而使得安慰剂样本检验不是很有效。图5显示了该安慰剂样本检验也可被视为对替代机制的检验。图5左侧展示了俄罗斯新闻电视信号质量可能通过邻居传播进而影响投票行为，这将违反Peisakhin和Rozenas (2018) 的IV分析中的排斥性约束。此时使用安慰剂样本检验可以用来评估替代机制，因为预期卫星电视所有者观看俄罗斯新闻不会受到地面电视信号的影响（图5右侧）。

图5 安慰剂样本检验替代机制的逻辑

3. 更多实例说明

表1总结了作者所研究的另外三个安慰剂样本检验（更多例子可查看原文附录A）。Acharya, Blackwell和Sen (2016b) 与Peisakhin和Rozenas (2018) 的安慰剂检验非常相似，二者都是通过在不同样本中重现核心分析来检验工具变量IV的外生性和排他性。该研究旨在探讨美国1860年南部各县被奴役者的比例如何影响该县近几十年来白人公民的种族态度。他们利用该县棉花生产的适宜性作为工具变量，认为这将影响1860年被奴役者的集中程度，而不会通过其他渠道影响白人态度。作者通过将样本替换为北部各县的安慰剂样本检验来解决外生性和排他性的担忧，因为在北部各县奴隶制是非法的。其检验逻辑是，安慰剂检验（侧重北方）可能也会出现影响核心分析（侧重南方）的混杂偏差和替代机制，而预期棉花的适宜性不会影响北方奴隶制的流行。但是如果安慰剂样本很少（例如北方各县数据较少）或处理效应变化很小（例如北方棉花适宜性均低），很可能使安慰剂检验缺乏效力，所以在解释研究结果前至少还应比较核心分析和安慰剂检验的样本量和标准差。

表1 有关安慰剂样本检验的 实例

Fowler和Hall（2018）使用的安慰剂样本检验有两点值得注意。首先，其使用安慰剂检验来解决他人研究中可能存在的缺陷：评估Achen and Bartels (2017) 发现1916年鲨鱼攻击新泽西海滩各县降低威尔逊支持率的可靠性，通过在没有鲨鱼攻击的其他州复制核心分析。其次，该检验旨在评估置信区间而不是混杂偏差。研究结果发现593个安慰剂检验中有160个检验拒绝零假设（27%），这表明Achen and Bartels (2017) 所估计的置信区间太小（假设1916年有无海滩的县的依赖模式在新泽西和其他情况下相似）。

七，安慰剂结果检验（outcome test）

安慰剂结果检验指研究人员用另一个结果变量重复核心分析。作者接下来分别讨论安慰剂结果变量是处理前变量还是处理后变量的检验逻辑。

1. 处理前安慰剂结果变量（balance tests）

图6左侧显示了一个使用处理前变量作为结果变量的安慰剂检验。假设我们担心“俄罗斯性”是俄罗斯新闻电视信号质量和亲俄投票之间的潜在混杂因素（如图4左侧所示），可以使用该混杂因素作为安慰剂结果变量。Peisakhin和Rozenas (2018) 使用2010年该选区中讲俄语者的百分比作为安慰剂结果，因为如果俄罗斯新闻电视信号质量与“俄罗斯性”相关，那么其会影响到一个地区说俄语的比例，此时该安慰剂结果检验的期望系数为b。假设c≠0，当且仅当核心分析无偏时，安慰剂结果检验预期为0。

当使用处理前结果变量，那么很自然就会想到一个问题，为什么是安慰剂结果变量而不是控制变量？事实上，如果“说俄语的人”是唯一混杂因素，研究人员可以在控制“说俄语的人”的同时，通过回归来获取处理效应a（假设线性）。因为前者产生b，而后者产生bc。当c=0时，后者将检验出极不平衡的结果。因此如果想评估由处理前相关变量Xk引起的偏差，控制Xk将会获取更多信息。但如果目标是评估Xk是否平衡，将Xk视为安慰剂结果变量会获取更多信息。（考虑到检验尺度和效力，控制Xk缺乏效力，检验Xk结果变量缺乏尺度。）研究人员以至少捕捉处理效应机制的小部分相关变量为条件时，可以合理断言处理效应是随机性的（即强烈的不可忽略性），评估平衡就是目标。假定随机性意味着任何在条件之外的处理前变量Xk都应该是平衡的。

图6 安慰剂结果检验的逻辑

在控制Xk和控制平衡之间的选择反映了基于模型的推理和基于设计的推理之间的区别，例如Sekhon（2009）和Dunning（2010）。在基于模型的推理中，研究人员试图列举和控制所有可能将处理效应与结果变量联系起来的混杂因素。而在基于设计的推理中，研究人员利用“一个自然实验或一个断点”使随机性可信。前者主要的问题在于是否忽略混杂因素，因此最可靠的方法是控制潜在混杂因素；而后者主要问题在于随机性是否成立，此时最可靠的方法是检验处理前相关变量的平衡。在声称随机性情况下，可能有很多变量可以用于平衡检验。此时作者建议研究人员关注那些当随机性以合理方式被违反时所期望的不平衡变量。比如在一个基于选票的断点回归（RDD）中，如果随机性意味着选举获胜的政党应当独立于所有地区特征（包括咖啡店数量），但是因为空间有限，研究人员应该更加关注党派对当地选举机构的控制情况，因为这可能涉及到对随机性的背离。

2. 处理后安慰剂结果变量

作者在调查总结中，发现有几篇论文使用处理后变量作为安慰剂结果变量。图6右侧说明了一个可能在Peisakhin和Rozenas (2018) 背景下实施的安慰剂结果检验。为评估“俄罗斯性”对俄罗斯电视信号可能存在的正向影响，可以通过检查俄罗斯新闻电视信号对俄罗斯小说销量的影响。因为小说的销量和民众的投票都会受到“俄罗斯性”的影响，如果俄罗斯新闻电视信号质量不能影响俄罗斯小说的销量，那么我们可以认为“俄罗斯性”不是潜在的混在因素。表2总结了作者所研究了另外三个处理后安慰剂结果变量检验。

表2 有关处理后安慰剂结果变量检验的实例

处理后安慰剂结果检验提出了两个值得讨论的问题（也适用于安慰剂样本检验）。首先，与处理前安慰剂结果检验不同，处理后安慰剂结果可能受到处理效应的影响，进而可能影响到处理尺度（test’s size）。在表2的每个实例中，不难想象处理效应确实会影响到安慰剂结果：援助计划可能会吸引年轻妇女前往该城市，进而使该城市需要更多的助产士；入籍程序的变化可能会影响国际夫妇的婚姻或定居决定；更易获得的攻击性武器可能会通过外溢效应影响到非枪支死亡。因此即使核心分析无偏，可能仍会预期处理效应会影响到安慰剂结果，进而夸大检验尺度。因此作者认为研究人员应该讨论处理后安慰剂结果可能产生的影响。即使不能排除这种影响，检验仍然可以提供信息。在表2的每个实例中，处理效应对安慰剂结果的影响始终小于对实际结果的影响。

其次，与处理前安慰剂结果检验不同，处理后安慰剂结果允许用于检验图5所示的替代机制。如果作者断言处理效应通过机制M1影响结果变量，但又想知道机制M2是否也会起到作用。此时若能找到一个不可能通过M1受到影响的安慰剂结果，那么就可以用于评估M2。比如Margalit（2013），其核心分析发现失业与福利支出的支持态度相关，并将此归因于失业者个人经济状况。但还有一种可能的机制：失业者在空闲时间能接触到更多新媒体而重塑政治偏好。因此该研究用对气候变化的态度（安慰剂结果）替代对福利的态度（核心分析结果），认为安慰剂结果会受到替代机制的影响但不会受到经济环境变化的影响。研究结果发现失业与对气候变化的态度没有强关联，因此得出失业对福利态度的影响主要通过个人经济状况运行的结论。

值得注意的是，以上两点是相关的：因为在处理后的安慰剂结果检验中，处理效应可能影响安慰剂结果，所以才可以用于检验替代机制。

八，安慰剂处理检验（treatment tests）

1. 检验逻辑和实例

在安慰剂处理检验中，研究人员用另一个处理变量复制核心分析。图7简单说明了Peisakhin和Rozenas（2018）中安慰剂处理检验的逻辑。基于该文说法，用于广播俄罗斯新闻的发射器与用于广播俄罗斯体育和其他娱乐节目的发射器不同。娱乐电视信号质量会受到相同地理特征U的影响，这可能会混淆新闻电视信号质量与亲俄政党投票的关系（关键假设是观看俄罗斯新闻可能会影响政治倾向，而观看俄罗斯足球不会）。因此该研究在安慰剂检验中，控制实际处理变量（俄罗斯新闻电视信号质量），检验安慰剂处理变量（俄罗斯娱乐电视信号质量）对亲俄投票的影响。安慰剂检验结果反映了俄罗斯娱乐电视信号与混杂因素的依赖性（b’）和混杂因素可能对结果的影响（c）。在线性和标准化变量假设下，Y对安慰剂处理变量T的回归将得到（Pearl 2013）。假设b’=kb（k≠0），这是核心分析偏差bc的比例函数。因此当且仅当核心分析无偏，安慰剂检验结果预期才会是0。

图7 安慰剂处理检验的逻辑

表3总结了三个有关安慰剂处理检验的实例。Jha（2013）核心分析发现，在中世纪有贸易港口的印度城镇在19-20世纪经历了较少的种族暴力，并将此归因于航运上的长期种族合作历史。为检查港口城镇和其他城镇的其他差异是否能作为替代机制，Jha（2013）用殖民时期的港口进行安慰剂处理检验，因为中世纪的港口比殖民时期的港口更和平。如果安慰剂检验没有发现殖民时期的港口城镇与种族暴力的关联，则说明航运上的长期种族合作历史是可靠的机制。

表3 有关安慰剂处理检验的实例

Burnett和Kogan（2017）则用未来视角的安慰剂处理变量替代实际处理效应。该研究旨在探讨选举前市民对道路坑洞的投诉与现任者选举表现之间的关系，于是使用选举后的坑洞投诉作为安慰剂处理变量，因为未来的坑洞投诉不能影响当前的选举结果。未来的坑洞投诉与当前的坑洞投诉有共同的潜在因素影响是合理的，比如坑洞投诉在市民政治参与度更高的地区更常见。因此如果发现未来的坑洞投诉与现任者选举之间有关联，则表明存在混杂因素影响核心分析。

2. 是否控制实际处理效应

对于使用安慰剂处理检验而言，一个重要的设计问题在于是否控制实际处理效应。作者关于文献的调查总结反映了相当大的差异。Peisakhin和Rozenas（2018）通过将亲俄投票回归到娱乐电视信号质量、新闻电视信号质量和其他协变量，而控制实际处理效应。Jha（2013）没有控制中世纪的贸易港口位置。Burnett和Kogan（2017）控制了当前的坑洞投诉，但是指出这一做法通常不会在“传统安慰剂检验”中出现。Sexton（2016）和Stasavage（2014）同样采用未来处理效应进行检验，但是Sexton（2016）控制了实际处理效应，而Stasavage（2014）没有。Dasgupta、Gawande和Kapur（2017）在双向固定模型中考虑到所有滞后变量和未来变量进而控制实际处理效应，而Fouirnaies和Mutlu-Eren（2015）没有。Potoski和Urbatsch（2017）以及Montgomery和Nyhan（2017）用未来处理变量开展安慰剂检验，但以未来处理变量和实际处理变量关系密切为由，说明不报告结果是合理的。

如图7所示，在线性和标准化变量的条件下，控制实际处理效应的安慰剂检验（the Conditional Placebo Treatment Test, CPTT），其产生的预期系数为，假设b’=kb（k≠0），CPTT的预期结果将是核心分析偏差bc的线性函数。如果不控制实际处理效应（the Unconditional Placebo Treatment Test, UPTT），产生的预期系数为b’(c+ba)，假设b’=kb（k≠0），UPTT的预期结果将是核心分析偏差bc与实际处理效应a的线性函数之和。

可以发现UPTT的明显缺点是可能夸大检验尺度：如果发现安慰剂处理变量对结果变量有影响，可能是因为实际处理变量影响结果变量，并通过混杂因素与安慰剂处理变量相关，而不是因为核心分析中存在任何偏差。例如，拥有更好的俄罗斯娱乐电视信号的地方可能有更多的亲俄投票，仅仅是因为他们也拥有更好的俄罗斯新闻电视信号。这也提高了低检验效力的风险，因为UPTT的两个部分可能会互相抵消。但是只有当实际处理效应不为0时，才会出现UPTT为0的情况。因此如果在核心分析中发现一个非0的处理效应，而在UPTT中发现一个精确估计的0，则表明真正的处理效应不是0：要么核心分析无偏（b = 0或c = 0），要么存在抵消（a=-c/b）。当抵消为0时，则实际处理效应与混杂偏差的比值a/bc = -1/b2。如果混杂因素完全决定处理效应（假定标准化变量下b=1），那么当混杂偏差和处理效应大小相同且符号相反时，UPTT就会出现抵消现象。但是在实践中，b常常远低于1（Ding和Miratrix 2015），因此只有当实际处理效应远远大于混杂偏差时，才会发生为0的抵消。这些表明UPTT也能提供一定的信息含量。

CPTT的主要缺点在于检验效力。很多情况下安慰剂处理变量与实际处理变量是密切相关的，比如在Peisakhin和Rozenas（2018）中，新闻电视信号与娱乐电视信号可能受到相似的地理或技术特征的影响；在Burnett和Kogan（2017）中，坑洞投诉可能在一段时间内高度相关，因为道路状况和公民特征是持续的。此时如果控制实际处理变量，安慰剂处理变量的独立变化可能不大。不难发现CPTT的估计值随着b的增加而逐渐变小。作者于是通过模拟练习发现（附录C）：基于上述给定DAG，假设实际处理效应为0（消除UPTT中的假阳性和抵消问题），CPTT在核心分析一定偏差范围内的检验效力不如UPTT。以实际处理效应为条件会诱发与安慰剂处理效应无关的混杂因素，这意味着CPTT将反映核心分析中的所有混杂偏差，而不仅仅是图7所示的安慰剂处理效应和实际处理效应共有的混杂偏差。但是额外偏差很有可能负向影响CPTT，进而使结果难以解释，此时IV分析或许是解决潜在偏差问题的更好手段。

总之，对于是否在安慰剂处理检验中控制实际处理效应，没有简单的答案。不控制实际处理效应会使UPTT受到实际处理效应的影响，控制实际处理效应会使CPTT检验效力变弱。当安慰剂处理变量与实际处理变量的相关性更高时，这两个问题会更加严重。这表明要注重寻求与实际处理变量联系不那么紧密的安慰剂处理变量，如果无法找到这样的变量，则要试图采用其他类型的稳健性检验。

九，针对特定研究设计的安慰剂检验

1. 断点回归（RDD）

RDD的关键识别假设在于阈值附近潜在结果的条件期望函数（CEF）的连续性。如果该假设成立，则可以在阈值上方和阈值下方获得CEF的一致估计，上下方的估计差异就是处理效应的一致估计。使用处理前安慰剂结果变量（balance tests）提供了一种间接方法来检验该识别假设。RDD研究方法只观察阈值一侧的潜在结果，因此研究人员可以在阈值两侧观察任何处理前变量。如果发现某个处理前结果变量在阈值上不连续，则表明连续性假设值得怀疑。因此RDD通常会采用几个处理前安慰剂结果变量来检验连续性假设。

此外，RDD还常采用安慰剂处理检验，将实际临界点替换为一个或多个“假临界点”。Cattaneo, Idrobo和Titiunik（2020）将“假临界点”描述为对连续性假设的间接检验：如果发现CEF在远离临界点的任意假临界点上出现跳跃，会使人怀疑临界点连续性假设的合理性。检验任意阈值的不连续性当然没有坏处，但是作者认为这种检验连续性假设的信息量不大。因为没有明确的理由认为当阈值处不连续时其他任意点更有可能不连续。连续性假设最担心的问题是，代理人出于某些考虑主观操纵是否高于阈值，进而导致潜在结果的不连续性或CEF中的多处局部非线性。此外，还可能担忧主要处理效应与其他处理效应混杂一起。因此，基于任意临界点的安慰剂检验并不能解决连续性假设的担忧问题。如果偶尔不连续的CEF中恰好有一个不连续点落在真临界点上，那么假临界点安慰剂检验可以提供更多的信息，但这种可能性很小。即使存在这种可能性，假临界点的安慰剂检验尺度会过高（真临界点连续时，假临界点可能不连续）、效力会过低（恰好真临界点不连续时，假临界点可能连续）。但是RDD使用假临界点检验，使得研究人员可以通过本应不存在的显著处理效应的发现频率检查置信区间。因此，研究人员应该检查比一般情况下更多的假临界点。但是如果临界点和其他任意点的CEF曲率不同，或安慰剂检验样本更有限，可能会产生误导结果。

2. 工具变量（IV）

工具变量分析有两个关键假设：（1）外生性，即在第一阶段（处理变量对工具变量的回归）和第二阶段（结果变量对工具变量的回归）都没有混杂因素；（2）排他性，即工具变量仅通过处理变量影响结果变量。以上两个假设都可以通过安慰剂检验去论证。检验外生性最直接的安慰剂检验是平衡检验（balance tests），通过检验IV对不受IV影响的结果变量的影响来论证。Meredith（2013）研究衣尾效应时就采用了平衡检验。检验排他性最直接的方法是安慰剂样本检验，即在不受IV影响的样本中复制核心分析。前文所讲述的Peisakhin和Rozenas（2018）、Acharya, Blackwell和Sen (2016b)，以及Rozenas、Schutte和Zhukov（2017）都是很典型的安慰剂样本检验实例。但是缺陷在于不能保证在任何情况下都能找到合适的安慰剂样本。

有些学者采用处理后安慰剂结果变量检验来测试外生性和排他性，即找到一个不受处理变量影响但可能通过其他渠道或混杂因素受到IV影响的安慰剂结果变量。比如Laitin和Ramachandran（2016），该研究将某国到语言发源地的空间距离作为工具变量，试图探讨与母语不同的官方语言如何影响国家的经济发展。由于语言发源地可能与许多经济发展的决定性因素相关，并很可能通过其他因素影响经济发展。为解决外生性和排他性的担忧，该文献用国家能力替换结果变量进行安慰剂检验。但是该研究的处理效应（采用不同于母语的官方语言国家）可能也会影响国家能力。在这个意义上，该安慰剂检验对官方语言可能影响哪些结果变量具有参考价值（鉴于IV假设的有效性），但只能为IV假设的有效性提供较为薄弱的证据。

3. 双重差分检验（DID）

当处理效应集中发生在一个时间点上并且处理效应前后的数据可获得时，研究人员经常通过安慰剂检验去探讨处理效应是否会影响到之前的结果变量。通常这是一种安慰剂结果检验，其中安慰剂结果是结果变量的滞后值，比如常见的双重差分检验中的平行趋势检验。在某些情况下，研究人员还会检验处理效应对未来结果变量的影响。比如Angrist和Pischke（2008, pg. 237）在双向固定效应研究中，检验了处理效应对结果变量的一系列滞后期和未来期的影响。再比如Dasgupta、Gawande和Kapur（2017），为研究一项反贫困计划对印度共产党武装暴力的影响，作者所检验的结果变量包括t+8, t+7, ..., t +1, t t-1, ..., t-7期的暴力程度。最终发现，该反贫计划未实施时，暴力程度较低；当计划实施后，暴力程度更高。还有Kuziemko和Werker（2006），该研究为探讨联合国安理会（UNSC）席位对该国对外援助收入的影响，将t年援助收入与该国在t-2, t-1, t, t+1年是否当选UNSC进行回归。在后两个案例中，如果滞后期处理变量回归系数不显著，则认为处理组和控制组在处理前特征是相似的，这表明研究结论并不受到混杂偏差的影响。

十，结论

作者提供了一个评估安慰剂检验结果信息量的框架，并进一步讨论如何设计和解释三种主要类型的安慰剂检验（样本检验、结果检验、处理检验）。表4总结了每种类型的安慰剂检验应考虑的要点。

表4 不同类型安慰剂检验应考虑的要点

尽管学者非常关注安慰剂检验如何改善具体研究，但更广泛和更准确地使用安慰剂检验也有助于打击社会科学研究中的p-hacking行为和相关的系统性问题（Humphreys, De la Sierra 和 Van der Windt 2013）。当然安慰剂检验本身也会受到与p-hacking行为的相同压力。为他人研究进行安慰剂检验的研究人员面临寻找具有统计学意义结果的压力，为自己研究进行安慰剂检验面临使研究结果可信度更高的压力，进而使研究人员得到不显著的安慰剂检验结果或“null-hacking”（Graham et al. 2019）。此外还有研究人员依据研究结果的显著性来决定核心分析和安慰剂检验，并相应地改变因果推断理论，致使论文中的安慰剂检验部分没有实际意义。

如果想解决p-hacking问题，作者认为可以从以下三个方面做出努力。一是研究人员可以在预分析计划中加入安慰剂检验来限制p-hacking的可能性。二是主编与审稿人可以通过更强调研究设计（包括安慰剂检验设计）而不是强调结果，提高研究人员的积极性。三是学术界可以对设计和解释安慰剂检验建立更明确的标准。