全球视野中的社会科学实验方法：应用比较与发展前瞻

Tomsp360lib 2021-11-21

展开全文

作者简介

臧雷振，中国农业大学人文与发展学院教授；

滕白莹，外交学院外交学与外事管理系讲师；

熊峰，重庆邮电大学经济与管理学院讲师。

社会科学实验快速扩展，使得不同学科的相关研究成果出现井喷态势。本文基于对社会科学实验方法的发展源流探索，深入揭示该研究方法发展脉络、应用过程、场景及所带来的社会科学学科发展影响，进而通过比较不同实验操作技术和准实验分析模型的应用，来实现对中外社会科学实验方法全面系统的探析，前瞻其发展趋向，并为进一步科学地应用此研究方法奠定学理基础。作者初步呈现不同因果推断方法如DIDD模型，PSM-DID模型、安慰剂检验、合成控制等回归结果的差异性，强调不同准实验模型在对同一议题探析和同一数据挖掘过程中，可能存在相反结果的空间。这提醒我们，当前的量化研究分析中，与其说单一的仰仗实验方法去探索因果关系，倒不如说更需要多模型验证。当然，本文研究并不试图挑起定量与定性研究方法的“范式之争”，或树立起传统量化研究和新生量化模型之间的“迭代之争”，我们更多的是试图在包容性方法论思维的指引下，来实现我们研究成果信度和效度的提升，进而提升社会科学的显示度，以为社会经济政治政策的完善和改良做出更大的贡献。

一、导语

世间万物虽处于普遍联系之中，但其中最为稳定客观的、不以人的意志为转移、并呈现出时间维度先后顺序的关联则被称之为因果关系。因果关系并非显而易见的，其时常若隐若现在事物发展过程之中。此时，科学研究的重要目标是探析研究对象中被隐匿的因果关系，社会科学研究同样如此。对因果关系的探索有助于我们认知社会发展规律、解释社会动态现象和预见社会未来趋势，而实验方法在因果关系挖掘中往往被视为核心法宝之一。21世纪以来社会科学实验方法的应用成果前所未有的快速增长，此得益于不同层次或类型实验数据的积累及实验方法操作的简化，以及在研究技术层面，如双重差分、断点回归、工具变量、倾向值匹配、反事实、安慰剂效应、神经网络算法、合成控制、机器学习等模型的普及。然而，我们需要注意的是，这些进步虽然大大推动了实验方法和因果机制探索的发展，但也为研究者囫囵吞枣般的应用埋下了伏笔。

作为从其他自然学科借鉴过来的研究手段，在社会科学研究中，学者往往无法实现理想中实验研究方法所要求的对变量的干预和操纵、组别之间随机分配、稳定个体处理值假设等。基于研究者（准）干预的数据生成过程在分析中是否具有更高的外部效度，是否能实现对社会现象剖析是“最为接近的真相”，进而实现有效的因果推断？这些问题迄今依然未得到彻底的解决。特别是由于来自田野、实验室或网络等不同实验场景，以及将研究者、政策制定者、未谙世事的学生或普通公民等作为不同层次的实验参与者而带来的受试者不遵从行为、测量扭曲、实验伦理和结果可复制性等问题，进一步放大了实验方法的争论。

本文基于对社会科学实验方法的发展源流探索，深入揭示该研究方法发展脉络、应用过程、场景及所带来的社会科学学科发展影响，进而通过比较不同实验操作技术和准实验分析模型的应用，来实现对中外社会科学实验方法全面系统的探析，前瞻其发展趋势，并为进一步科学应用此研究方法奠定学理基础。

二、社会科学实验：从学科方法的借鉴到融合演化

（一）从自然科学实验到社会科学实验

“实验”对我们每一个人并不陌生，在近现代科学数百年的发展历程中，建立在“控制—对照—比较”逻辑上的实验方法，已经衍生出不同类型的实验方法体系，成为检验科学假说，发现经验知识的主要路径。但在每一门具体科学领域采用实验方法后均获得长足进步的今天，我们依然面临无法赋予很多问题精准而令人信服含义的窘境，依然面临很多对事物发展解读的困惑。弗朗西斯·培根被马克思称为是最早的将实验方法作为认识客观世界方法并使之理论化的学者。培根指出：只有在实验的基础上进行归纳，才能得出贴近客观真理的结论。如果我们将彼此联系的概念知识进行归纳、分析与整合，形成逻辑自洽的体系以达到解决社会问题目的过程称之为理论化过程，此时，如何规范地认知和使用实验方法促使其在理论范式转变与形成过程中发挥作用、贴近客观真理则具有重要的意义。

毫无疑问，实验方法来自于自然科学，其在自然科学发展史上具有极其重要的地位，它为基于观察与经验习得提出的自然科学理论假说上升成为科学理论搭建了桥梁，推动了近代科学的产生。自然科学实验方法的创立归功于伽利略，其用实验方法反驳亚里士多德关于物质运动的古典思想。虽然这种带给物理学以巨大成功的方法在20世纪初以“量子之谜”的形式令物理学家们感到困扰，甚至成为现代物理学的“难言之隐”，但这并不能否认实验方法对整个自然科学发展的推动作用。

所以，长久以来，实验方法似乎都是物理学、化学或生物学等自然学科的专利，实验方法如何从自然科学领域逐步过渡到社会科学领域呢？社会科学研究中，微观上主体的相互作用生成宏观的复杂现象，因此，人类社会的研究对象显著不同于经典自然科学的研究对象。19 世纪初，化学家李比希在城市化和工业化的时代背景下率先提出，科学实验不应局限于实验室里产生的模型，需要进入现实世界，更多关注科学技术对真实世界的作用与影响。20世纪初期以来，不同学科研究方法相互借鉴的背景下，社会科学开始初步借鉴自然科学实验方法。在20世纪20年代至30年代，现代社会科学实验得到首次亮相，此后，在社会科学研究方法自我变革中，如政治学“行为主义革命”推动下，政治学研究者可以“自由地使用任何其他学科可以借鉴的方法”，经济学、社会学、心理学及统计学和应用数学等多学科的研究成果都被借用来回答政治学问题；基于对特殊政治行为和政治现象进行具体分析和实证研究的需求，学者在定量分析方法兴起过程中也渐渐引入了实验方法。再到20世纪70年代，核能、计算机、光纤通信、卫星通信、转基因等颠覆性技术得到迅速发展，由于现代科技的复杂性、不确定性快速增加，传统社会科学研究中以观察和思辨为学科知识的基础范式进一步受到挑战。那么，具体而言，实验方法在被社会科学所吸纳借鉴之后，其具体是如何完成内在的演化和方法体系的扩展呢？下一部分将进一步分析。

（二）社会科学实验方法的历史演化

实验方法具体到社会科学的应用中，较早被用于研究工业化大幕拉开的背景下，社会大众的心理和行为变化。源自19世纪开始的快速工业化冲击了传统社会结构，新的工人运动此起彼伏，如何在工业社会中探索个体或组织的行为特征成为研究的主题。如1924年起，美国西方电气公司与美国国家研究委员会协作，在霍桑工厂开展实验研究，试图寻找提升工人效率的方法，即“霍桑实验”。霍桑实验虽然并未验证实验设计中的假设，但却发现受试者对于新的实验处理会产生正向反应，即行为的改变是由于环境改变而非由于实验干预造成的，这一发现为科学管理提供了重要的理论指导。政治学领域的实验方法运用于以下几个方面，如1926年的投票实验。1935年，美国学者乔治· 哈特曼在宾夕法尼亚州的艾伦敦通过散发传单的方式，开展对照实验分析选民的投票行为。也有学者1953年于美国密歇根地区开展的沟通方式如何影响投票的试验，其他研究应用议题还包括政治精英分析、政治态度和心理分析等。

到20世纪60年代，全球经济高速发展过程中出现了不同程度的两极分化、环境恶化、种族冲突等社会问题，在此背景下，美国推出了“伟大社会”改革计划，侧重在民权、反贫困、健康医疗、教育、城市治理、环境和生活质量等领域的社会改革。坎贝尔等人将“伟大社会”改革与新的科学认识论结合在一起，提出通过“实验学习”策略，将政策本身作为一种实验干预施加于社会，并基于对就业计划、电价和住房补贴等政策效果的评估，在“递归学习”的过程中获取知识和经验。

20世纪80年代，如前文所述，现代技术创新和复杂性科学运动兴起带来了重要影响，为社会科学研究开辟了新的路径，特别是基于数据分析和计算的技术工具应用极大地扩大了实验研究的规模。由于传统的社会科学实证研究方法，只能适用于简单系统，而社会科学研究对象的复杂本质与复杂特征以及传统研究方法的局限性，使学者认识到必须提出新方法来研究社会复杂系统。

20世纪90年代以后，特别是新世纪以来，随着信息社会的全方位到来，许多社会实验的技术问题可以通过计算机和互联网来解决，加之日益突出的社会问题并未得到根本性改变，近十几年来全球开始不断涌现社会实验室尝试去解决最棘手的社会科学问题。还有学者基于对切尔诺贝利核事故的观察，提出了“技术社会实验”这一研究进路，扩大了社会科学实验范畴。如将切尔诺贝利核事故视为实验研究中的干预，而处于切尔诺贝利核事故受影响区域的德国政府部门、科学家、社会公众作为受试者，在这一自然实验场景下，能够直接测量出重大社会事故对受试者的认知、态度和对政府信任的影响变化，此类研究让学者进一步看到社会科学研究实验方法的价值，其为应对现代科技发展带来的复杂问题提供了测量手段。

当然，有学者指出，1990年以后实验方法运用迅速增加的主要原因是廉价的、可编程计算机网络技术的发展。通过实验室及互联网辅助，可能的实验设计数量远远超过了研究者可人工操作的数量。计算机技术还大大增强了研究者参与调查实验的能力，以及处理田野实验和自然实验中的统计及其他方法论问题的能力。技术发展将社会科学转变为一门实验科学，进而逐渐形成社会数据计算、社会模拟和互联网社会科学实验三大方法。这一点在新世纪以来的大数据应用中体现得尤为明显。

三、社会科学实验的操作及其类型

（一）社会科学实验操作

社会科学实验研究中，实验目的是探索自变量对因变量稳定的影响机制，因果关系的界定需要比较在两个平行世界，即某一个体接受实验干预与其没有接受干预情况下的差异。同时，社会科学中因变量通常是个体或群体的价值、偏好、态度、意识和行为，具有一定的复杂性，因此，必须经过严格定义和可操作化处理，来对研究对象进行随机分配和干预，实现对实验对象的有效控制，为前测、后测以及不同组间的可比性提供可能，便于得到可信度较高的研究结果。

此时，为了使自变量对因变量的影响可视化，研究者就需设置一种无干预或其他干预的基准对照组，也就是控制组，观察在没有特定干预条件或其他干预条件影响下因变量的状态，而存在自变量干预影响的一组叫做实验组。当然，实验组和控制组内的实验对象在实验开始前各方面状况几乎无区别，进而通过对比控制组和实验组的差异，才可以确定自变量是否真正产生了影响及其影响程度，消除无关因素的影响。此过程还需要对研究对象进行随机分组，多数非实验研究者认为随机分配是实验研究者处理不可观测变量的主要途径。当然，随机分配也有赖于实验中实施机构和实验人员的密切配合，如果实验对象随机分配，实验研究者就能在统计学范围内消除一些影响他们期望观察（或未观察）到效果的外部因素，如选民行为中选民认知能力、性别差异等。正因如此，实验主义研究者通常试着尽可能地随机分配操作，而当随机分配不完善时使用统计学技巧来解释不受控制的可观测变量。

为了确定自变量对因变量的影响程度，即确定因变量在实验前后的变化程度，需要用合理的手段将影响效果量化。此时，实验前对实验对象的测量称为前测，而实验后的测量称之为后测。但是为了规避实验对象对实验前后同样的测量问题有不同的熟悉程度，从而在后测中作出不真实的回答，在一些实验设计中仅有前测或后测。社会科学实验测量中，问卷和量表是常用的工具。

当然，我们需要认识到，社会科学中没有完美或真正的实验。实验设计是否合适取决于研究问题和研究对象，实际上，不同的观测数据有多种可能的实验设计和实验干预组合，在某种程度上实验研究的可能性要大于观测数据的可能性。

（二）社会科学实验类型

目前社会科学研究中被广泛使用的实验类别主要是：实验室实验、实地（田野、现场）实验、调查实验和准实验。

实验室实验是指在室内通过严格的条件控制来考察变量之间的关系，但社会科学领域中实验室实验是否有效，其经过了较长时间的认同过程，在实验开展过程中，人们往往会质疑：如该类型实验是否具有较高的外部效度？特别是由于“在实验室发生”这一物理场景可能不具有真实世界的相似性，其仅仅是研究者主观创造出来的实验情境，同时实验参与人群往往以未谙世事的学生为主。这就导致具有人工色彩的实验室环境得出的结论无法外推到更广阔、更复杂的社会环境中，所以，有学者认为虽然实验室有助于排除外界干扰，但就检验因果关系的实验方法而言，实验室实验最适合的是对理论的检验而并非对现实的推广。当然，还要考虑到实验室的被试者可能由于知道自己处于参与实验状态，会进而导致其真实行为偏差，以及面临各类不同的伦理问题。但同时，实验室的优势则体现在其可以实现更好的控制，有利于实验开展，甚至还可以采用复杂的设备如功能磁共振成像来测量实验对象进行选择时的脑部活动。近年来，为了解决实验室实验面临的不足，借助虚拟现实技术，越来越多的以沉浸式虚拟现实为基础的实验手段开始受到学者的关注。

实地实验将随机化原则与田野工作的基本理念结合起来，其在研究对象的日常环境中进行，通过随机分配现实中的被试对象（包括个人、家庭、机构、村庄、社区、地区等不同单位），在真实的社会经济环境下，使用真实的干预手段，具有更高的外在效度和解释力。由此协调了控制混杂因素以及可能介入并影响干预效果的可观测或不可观测变量。实地实验能够给出实验室难以模拟的特定情景，使得其颇具吸引力，目前在经济学等研究中被广泛使用，并逐步影响到政治学、管理学、传播学、教育学、社会学等学科的研究。特别是西方选举年中，不同的选举动员方式和竞选测量对投票率的影响如何，此类问题的研究常常采用实地实验。近年来，中国学者通过实地实验，在高校专项招考计划实施背景下，探究该政策对边远、贫困、民族等地区农村学生选择大学的影响与机制。或在脱贫攻坚的背景下，从贫困农户风险偏好态度的影响因素入手对“穷人思维”进行解读。以及分析父母双方均外出的留守儿童与非留守儿童在公平感和幸福度上的差异。当然，实验室实验与实地实验的主要区别就体现在研究对象、开展实验的背景、实验过程和结果测量方法等方面，而这些区别使得实地实验拥有与实验室实验不同的新的特点。从实验背景上来看，实验室实验通常会因为创造极端环境而牺牲社会情境的真实性，而实地实验则在包含随机机制的基础上尽可能接近地模拟一个因果过程发生的条件，力求保证其物理环境和研究情境的真实性，其目的是增强实验结果的可推广性，而从过程和结果来看，实地实验更容易得到研究对象之间稳定的“长期效应”。但也不可否认的是，实地实验所需要花费的成本更加高昂，特别是实地试验中研究者常面临的参与者不服从、样本污染或中途退出的挑战相比实验室实验更频繁，这就丧失了对变量和实验环境的精准控制，不能更好地分离出研究者所感兴趣的因果关系，这也使得它的可复制性以及对理论的区分能力较弱。近年来，随着互联网的兴起，学者还将实地实验搬到了网上并将其称之为在线实地实验，以区别于传统的基于实验室的实验设计。当然，为了避免实地实验带来的伦理问题，研究者也乐于使用项目评估的方式来替代早期粗放式的实验比较。

准实验因其手段的相对简易而获得各个领域的广泛应用，但准实验很多时候又与实地试验纠缠不清。准实验通常是指研究者对研究对象施加的某种刺激并不是由研究者本身主观产生并亲自操作的，严格来说它只是借用了客观世界已经发生的干预来进行观察，更多是借助量化模型的创新来建构实验对比。如比较个案研究就可以看做是一种较典型的准实验做法，从事个案研究的工作者通常采用“求同法”和“求异法”的方法来进行理论结构。在对所得数据的处理方法上，这种做法只需要从现实社会中挑选具有可比性的案例就可以研究，成本低，操作过程简单，因而备受青睐；但它所存在的问题也是不可忽视的——准实验设计利用原始组进行研究，缺少随机分配，无法证明实验组是否为较大群体的随机样本，同时任何因素都可能对原始群体起作用，所以因被试挑选带来的偏差将损害研究结果的可推广性。

调查实验法是针对传统大规模社会调查方法和实验方法的一种折合，在大规模问卷调查中嵌入实验，将干预包含在常规的调查问卷中。该方法强调社会调查中的样本随机选取和实验分组设计中的样本随机分配。近年来，调查实验被广泛应用于各类特色的研究之中。如基于 “助推”思想，通过两个调查实验，探索信息框架（包括政策框架与新闻框架）对于生育意愿的助推机制，或在调查实验数据获取基础上，探究在PPP改革项目中不同治理主体对环境治理评价的影响，进而验证治理主体影响公众评价环境治理效果的中介机制。目前，在计算机辅助调查的支持下，随机回答、列举实验和支持实验等正在被广泛使用在调查实验中。虽然调查实验简单易操作，但由于实验干预经常难以根据研究对象的现实生活经验来赋值，而这又可能会影响实验中所观察到的干预效应的因素。目前，越来越多的调查实验还被用来进行问卷质量测试。如在调查实验中设置“红色鲱鱼”问题，即陷阱题或注意力筛选题，通过在问卷调查中穿插“红色鲱鱼”问题，识别出不专心者，研究他们的特征。研究发现在问卷调查中不专心者比例为36%，这种不专心不仅仅是来自对政治事件的不感兴趣，更可能来源于他们本身的逃避心理，他们只想快速地完成问卷，且这种注意力不集中的发生并不是完全随机的，此时应答者的答题速度更快，更愿意给出“不知道”的回答。此外，调查实验也在逐渐的改进具体的实验效度和信度。如调查问卷中的列举实验，其对照组项目数（j）比实验组项目数（j 1）往往设置的要少，实验组的平均数可能仅仅因为项目数多而机械性地膨胀，不能够非常明确地得出由于敏感信息带来的均值膨胀。比较新颖的解决办法：如在对照组中多加上一个必要的假安慰剂项目来平衡列表长度，这个安慰剂项目必须是合理的但对于所有受访者来说都是假的。这些最新研究进展正在逐步改进调查实验的不足。本文将不同类型的实验方法在不同维度的比较结果呈现在表（1）中。

四、实验方法在社会科学中的多学科应用

当前，实验研究方法正在社会科学中得到广泛的使用，但由于不同学科研究对象、研究主题和研究内容的差异，也使得实验在应用过程中各具特色。下文主要从政治学、经济学、管理学和社会学等角度来呈现实验方法的应用特征。

（一）政治学研究中的实验方法

政治学研究过程中，始终存在着探索因果机制的困境，随着研究的不断深入，政治心理学、政治生物学等新的研究主题不断涌现，经济学、心理学、统计学等领域发挥重要作用的实验方法开始被政治学者所注意，但在20世纪，政治实验方法的开展并不多见，如1950-1992年间仅有将近60篇实验类研究文章发表在政治学顶级期刊。

20世纪50年代后，行为主义革命的兴起实质性推动了实验方法的开展。如1957年，热衷于用实验方法研究博弈理论的期刊《冲突解决杂志》创建，随后著名的政治学家利普哈特指出“就科学解释而言，实验方法几乎是最理想的方法，但遗憾的是，由于实践和伦理上的阻碍，这种方法在政治学中很少被运用”，从而肯定了实验方法在政治学研究中的地位。之后，政治经济学家进行实验研究的相关成果如雨后春笋般出现，纽约大学石溪分校的政治心理实验室、耶鲁大学媒体对社会舆论影响的相关实验、密歇根大学政治心理实验项目、加州大学洛杉矶分校的政治心理实验项目等纷纷成立或开展，加州理工学院也在这一时期建立了世界上第一个政治科学与经济学研究的实验室，许多实验政治学的研究者们在此得到培训。

20世纪末以来，伴随实验方法的简化，政治学领域的实验研究迅速在政治学二级学科中扩散。如在国内这类研究中，通过实地实验，有学者测试了选举日历对地方经济发展政策的影响，即探讨选举时机、地方政治机构和政党结构如何影响地方政府向外部公司提供投资激励。基于自然实验，学者考察游说和政党影响力对公民投票偏好形成的作用机制。在比较政治学研究中，还可以通过调查实验来界定公民政治行为的影响因素。以及在性别政治中，讨论性别在日常政治实践中所带来的政治结果。这类研究进一步扩充了研究议题，开拓了实验方法在政治学研究中的设计思路。

目前，学者指出：基因对政治取向的表达至关重要。研究者开始利用基因相关数据和模型来衡量生物因素对社会和政治行为影响的大小和属性。随着越来越多的基因假设被研究所测验，已有研究成果能够将来源于双胞胎和亲属的数据和个体的政治偏好、政治意识形态联系起来。政治学家意识到生物因素对政治行为、认知和态度的重要影响，利用生物遗传理论和双生子数据的实验方法测量就显得尤为必要。经典的双生子设计就是当前最流行的对社会行为和政治行为进行初步检测的一种实验设计。

（二）经济学研究中的实验方法

传统经济学中将人视作理性人，每个人都会在深思熟虑和理性决策下做出对自己有利的最优解，在此认识论上衍生出的期望效用、一般均衡理论等构成经济学的理论基石；而进入20世纪后，社会真实案例和实验结果表明，人不仅是理性人，还是社会人，这决定了人们在真实的社会环境中并不一定完全遵循理性和利益最大化原则行事，相反，很多时候他们宁愿通过放弃一些自己的权利以获得其在社会生活其他范围的满意程度。如“囚徒两难”困境就是博弈论实验的经典代表，其展现出人的偏好选择背后的复杂动机，而这恰恰是传统经济学所忽略的。

到20世纪早期，《博弈论与经济行为》的出版呈现出实验方法对经济研究的重要性，20世纪60年代，如1962年弗农发表实验经济学的奠基之作，标志实验方法在主流经济学领域确立自己的独立地位，同时期的垄断竞争理论的实验中，设计的“双向拍卖”制度环境的实验，为市场实现供需竞争均衡的趋向性提供了新的思路；部分学者还加强实验经济学这一新生学科领域的人才培养和学术交流，他们将对实验经济学感兴趣的研究者集聚到一起，通过研讨会，学术团体的平台强化了实验法研究者的联系和交流，扩大了实验经济学的影响力。

20世纪70到80年代之间，通过一系列经济学者的努力，包括尝试与其他学科交叉和改进实验对象，实验经济学领域产生了一些丰富而有趣的理论成果。如在政治学和经济学领域的融合中，学者发现实验方法在产业组织理论探索中的运用能够很好地解释行为假设，进行理论检验并提炼出规则经验；在和心理学的融合中，学者进一步完善了经济学的博弈论问题。在经济学与公共管理研究的融合之中，学者通过实验发现了公共产品供给实验中有关自愿捐助机制的研究，实验结果几乎完全支持在公共产品领域出现的“搭便车”现象，且所得出的结论与其他经济学家产生了较大的差异。这进一步拓展了经济学知识的疆域和边界。

1990年代中期《实验经济学手册》的出版进一步扩大实验方法的影响，再到弗农由于其实验经济学研究成就获得2002年诺贝尔奖，使得实验方法彻底在经济学领域大放异彩。

新世纪以来，理查德·塞勒因行为经济学领域的杰出贡献而荣获2017年度诺贝尔经济学奖。他基于经济学实验, 弥补了传统经济学“理性人”假设的缺陷，解决了完全理性假设下的'经济人'与有限理性假设下的'社会人'之争，这些研究进一步展现出实验方法在禀赋效应、心理账户和社会偏好研究中的优势，随后，阿比吉特·班纳吉、埃丝特·迪弗洛和迈克尔·克雷默三位经济学家从实地实验方法出发，探索全球减贫问题，而被授予2019年度诺贝尔经济学奖。这进一步扩大了实验方法的研究影响力。与政治学一样，近年来基因经济学也受到广泛的关注，强调分析个体的遗传禀赋和环境对其经济行为、风险偏好影响的相对贡献。

（三）管理学与社会学中的实验方法

在管理学领域，从20世纪30年代的霍桑实验，使得管理走向科学，到勒温的“领导模式实验”，再到21世纪奥斯特罗姆获得诺贝尔奖以表彰她为实验方法扩展在公共政策分析中的贡献，同样表明实验方法在公共管理学科取得了成功。特别是由于经济学、心理学和管理学紧密相连，受经济学领域实验方法主导的研究成果不断获得诺贝尔奖的激励下，学者也开始逐渐探索管理研究中的实验方法应用价值。如基于调查实验，探索各种对高速公路服务的满意度；或在调查实验的基础上，考察公共决策透明（过程透明和内容透明）与社会许可之间的因果关系，以更好地理解公共决策的社会许可机制；从国际比较来看，实验方法在公共管理研究中还缺乏统一的规范,阻碍了实验研究的交流效率和交流效果。当然，也有学者从技术层面指出：实验方法在公共管理研究中应用的成功与否，取决于实验设计的“内在有效性”和“外在有效性”。但不得不说的是，奥斯特罗姆基于公共资源分配机制而获得诺贝尔奖，扩大了此研究方法在管理科学中的扩散。

在社会学研究中，从奥古斯特·孔德最初将社会学命名为“社会物理学”，就可以看出其对社会研究中实证方法的重视，随后，杜克海姆在实证研究中强调“受控比较法”，实质上呈现出来的是一种“间接的实验方法”。现代社会学，同样在统计技术和互联网的影响下，开始不断采用实验方法且研究成果众多，限于篇幅，本文不对其过多阐述。

表2中更简洁呈现不同学科实验方法的应用发展脉络，由此可见，虽然不同学科的实验研究方法都经历过起步阶段，发展阶段、蓬勃阶段和迅速推广阶段，但学科之间依然存在时间维度的差异和研究选题差异。这一方面既是由于不同学科关注焦点的自身特征决定的，另一方面，也体现出不同学科在20世纪以来对其他不同学科的交叉借鉴和融合的心态。

五、社会科学实验：中外比较和准实验设计的多模型应用比较

（一）实验方法的中外比较

实验一直是中国近现代社会变革中的核心词汇，如1926 年起晏阳初、李景汉等长达十年的定县实验，1928 年起吴文藻先生开启的清河实验，以及 1931 年起梁漱溟在邹平县推动的乡村建设。改革开放之后，在20世纪70年代末，安徽小岗村18户农民开展的家庭联产承包责任实验影响深远，随后的90年代，湖南省益阳市、山东省莱芜市和黑龙江省肇东市的经济与社会协调发展实验，也在全国不同区域产生影响力。新世纪以来，不同省市所开展的社区建设、社区治理、网格化治理等，也同样具有实验性质。同时，在商业应用领域，不同的互联网公司，开始尝试借助实验思路进行A/B测试。

整体来看，中国的实验侧重于实践领域的改革和社会改善，相比较而言，20世纪开始西方实验研究更多以文本形式展现出来，以政治学为例，1924年到1979年期间，十本主要政治学学术期刊先后发表了217篇实验性研究论文，其中一半是发表在1970-1979年代之间。而在1980年到2010年，根据《牛津政治学研究方法手册》中的数据，政治学三本主要刊物的实验论文发表则超过之前半个世纪十本主要刊物的发表量。尤其是新近几年，越来越多的实验方法研究成果在英文刊物和学界正在呈现井喷之势。

但在中国学界依然面临诸多实验的困境和对实验重视不够等问题，进而导致相关学术成果的曝光度不高。以政治学和社会学为例，目前实验方法及其相关成果在中文相关期刊的发表依然占据较低的比例，就笔者统计而言，近五年来，实验方法成果在政治学和社会学学科中文影响因子排名前十的CSSCI期刊发表论文占据总量的比例不超过1%。而就经济学和管理学期刊而言，近五年来实验方法研究成果在该学科排名前十的CSSCI期刊发表论文的比例也刚刚超过1%。相比较来看，心理学学科中，近五年来，其排名前十的CSSCI学术期刊所发表的实验研究成果则平均超过了30%，部分期刊如《心理学报》所发表论文中，实验方法论文占比超过45%。

表3初步总结了19世纪末到21世纪以来，中外学者在实验方法应用上的不同特征、内容和代表性实验。从表中可见，就研究特征而言，中国实验研究的规模依然较小，实验的理论化提炼还有待进一步提升；而在实验内容上，中国的实验方法应用主题依然较为狭窄，且多以农村和城市社区为主要实验对象，而西方实验研究主题和对象选择多元化、多样性的特征较为突出。当然，在这样的背景下，中西方的代表性实验及其影响力也存在显著差异，如西方典型实验案例不仅仅局限于特定学科，已经跨越学科的边界，而中国的代表性实验案例依然聚焦于特定学科，如社会学学科。

（二）准实验设计的多模型比较

虽然方法有其流行的优势，但上述分析也可以看出其存在不同维度的不足。那么，开篇指出研究者囫囵吞枣的应用会导致方法论选择偏差。故在此部分，我们想强调，实验方法并不能带来一切，特别是基于准实验模型设计而开展的研究。因为单一模型研究，即使采用实验方法，也无法避免参数选择或模型内在机理等因素对结果的影响。因此，多模型比较目前正在成为研究工作关注的焦点。例如在环境研究领域中，包含了能源经济模型、综合评估模型和局部均衡模型等多种模型类别的斯坦福能源模型论坛。近年来国内经济学等学科开始逐步关注多模型比较研究，而在机器学习中，无监督对比学习也正在兴起，通过不同模型比较来实现算法优化。但来自政治学和公共管理学科的多模型比较研究成果依然较为罕见。

为了实现多模型对比验证，作者选择政府质量数据库中117个国家1992~2017年的面板数据作为本文的基础数据集，围绕政府腐败对贫困发生率的影响机制探索为主题，同时分析该影响机制是否受到不同国籍的技术创新水平约束。因为大量的文献指出，伴随技术创新，如信息技术将有助于公民获得更多的就业机会和技能提升机会，同时这类技术革命还会增加政府腐败成本，从而约束政府腐败水平对不同国家贫困发生率的影响。限于篇幅，相关数据的统计描述，变量的多重共线性检验，以及平行趋势检验等不再一一呈现。

首先，作者基于数据集初步拟合了全球政府腐败指数和贫困发生率的散点图（图1），从数据拟合图可以看出，政府腐败指数对贫富差距具有正向影响，且该影响是边际递减的，即呈现出倒U型关系。

表4利用固定效应模型验证了政府腐败指数对贫富差距不仅具有显著的正向影响，且模型（2）中平方项的负向显著表明该影响是边际递增的，正U型关系的结论和可视化分析下的数据拟合结果并不是一致的。

此时，为了进一步验证上述变量之间的稳定关系，我们往往会寻求采用准实验设计。但考虑到社会科学中随机试验会受到道德和实践等诸多因素的限制。在缺少随机试验的前提下，学者会诉诸于严格的准自然实验干预。其中，断点回归方法被普遍认为是一种最为可信的因果推断分析方法。在断点回归方法中，所有单位都拥有一个“得分”，并且分值高于某个断点的个体接受处理。这一设计的最大特点在于接受处理的概率在门槛值处急剧变化。

以样本中政府腐败指数的均值为断点，再次进行多项式拟合，得到断点回归的图形结果，可以看出，政府腐败指数对贫富差距存在非线性影响，且在断点之前是边际递增的倒U型，这一结论和固定效应模型的结论基本一致；但又进一步说明了在政府腐败指数较高的位置上（断点后半部分）是N型结构。

但此时，研究者出于审慎的考虑，会通过对不同国家的类型学处理，来细分不同的国家组别，进而避免内生性因素的影响。比如，本文讨论不同技术创新能力下，政府腐败指数对贫困发生率的影响，考虑到不同国家的创新水平差异，作者以专利授权数的中位数（3）来划分出高创新国家和低创新国家。同时，考虑到全球面板数据中，存在着不可避免的数据遗漏和变量遗漏，学者开始借助双重差分模型构造控制组和实验组来进一步分析。

从表5可以看出，在创新水平比较低的国家，政府腐败问题会进一步加剧其贫困发生率，但在具有较高创新水平的国家，政府腐败水平将不会对其贫困发生率有显著的促进作用。

但很多时候，由于双重差分所需要的共同趋势假设前提——即处理组和控制组在政策实施之前必须具有相同的时间趋势——在实践操作中总是非常的牵强。此时，学者会借助倾向值匹配来进一步完善双重差分模型，由于倾向值匹配不需要严格的随机分组，也不需要相同的时间趋势，仅仅需要研究对象中存在时序结构即可。此时PSM-DID开始在20世纪末期被提出，该方法既具有双重差分的特征，还通过倾向值匹配控制了研究样本中不同区域的历史文化等因素的影响。可以说是构造一个更好的控制组。表6同样采用表5的数据，作者在低创新国家（即专利授权数 3）的样本中找到与高创新国家（即专利授权数 3）一一匹配的样本，所以得到与低创新国家样本匹配的225个高创新国家样本。在PSM模型后的DID结果中可以发现，低创新国家的配对样本中，政府腐败指数对贫富差距具有显著的影响，但该影响显著高于模型（2）中专利授权数（>3）样本的估计结果。同时，相比表5，高创新国家的腐败对贫富差距的影响开始由不显著，变为显著。

随着因果推断研究的逐渐普及，学者还会采用安慰剂检验来进一步增强因果推断的可信度、文章的故事性和逻辑性，在上文的双重差分模型估算之后，通过前置不同国家的创新水平突破时间点，作者随机构造实验组和模拟 500 次，所获得系数值绘制如图3，但我们很容易发现，此时安慰剂检验模型的回归系数并不显著，难以支持上述DID模型和PSM-DID模型的结果。

在安慰剂检验不显著的背景下，作者还试图进一步尝试比较合成控制模型的结果，该方法严格要求在政策变量发生变动前样本个体的合成控制对象具有良好的拟合效果，如果某样本个体拟合效果不理想，则需要被剔除。而本文研究问题中，具有良好拟合效果的样本个体较少，故无法得到有效的回归估计结果。

为了进一步呈现PSM-DID和DID模型回归系数的结果比较，作者进一步绘制了图3，由图3表明，即使同一议题、同一数据，但在因果推断的不同模型使用中，依然会得到不同的回归结果。可见，不同准实验模型在对同一议题探析和同一数据挖掘过程中，甚至还会存在相反的结果。这提醒我们，当前的量化研究分析中，与其说单一的仰仗实验方法去探索因果关系，倒不如说需要多模型验证。

六、结论和讨论

计算能力的进步、方法论的创新和相关数据库的积累，使得现代社会科学研究的可选择性越来越宽广，但从方法创新到应用创新，则仰仗于近年来西方民主国家的政治动荡，其使得一套创新——那些涉及所谓的“桥接”方法的创新——应用于相同或相似公共策略“空间”中具有了广阔的市场。如，我们可以在实验设计的基础上，通过一位曾同时与两名议员工作过的第三位议员，来比较从未一起任职的两名议员的意识形态立场。我们试图通过实验方法来探究研究对象的本原，化繁为简地勾勒出研究现象的前因后果，但这也只是构成学者通过方法革新和数据处理技术的进展来诠释社会的一个奇迹，依然远离研究目标辨析，此时，实验方法更难以成为决策者的助手。

在社会科学的发展过程中，关于方法论的争论从未间断。罗宾斯指出，当代文明的一个主要危机起源于自然科学训练出来的思想不能察觉到经济与技术之间的差别。对方法的陈述有可能会更好地指导我们研究对象，但单纯的方法不能作为实际社会科学研究的一部分。因此，我们必须在个人实践中，在不同学科之间，审慎地让方法和研究工作保持密切联系。实验研究方法作为一种研究方法，在较为漫长的发展历史中形成了不同的分类，有其自身独特的优势与不足。

总体来看，虽然对实验方法存在不同程度的质疑，使其不时面临着各种方法论危机，但实验方法在以下方面依然为我们的研究提供诸多启迪。

首先，通过实验有助于解决若干传统研究中难以规避的难题。如被调查者面对敏感问题是否还能诚实回答问题？特别是面对潜在的被污名化，违反社会规范甚至存在道德、法律风险问题时。对于敏感问题，被调查者会选择拒绝参与或简单地给出不实应答，传统的直接提问作法常会低估某类敏感性问题对研究结果的影响。为了解决这个问题，在过去的半个世纪中，一些非直接的提问技术发展起来，如由沃纳开发的随机回答技术，通过对被调查者答案进行随机加密来实现对匿名想法的表达。此过程中被调查者会收到关于一个敏感问题的两种问法之一。例如，被调查者可能会收到问题S：你使用过非法药物吗？概率为p，他们也会收到相反的问题S’：你从来没使用过非法药物吗？这将得到一个互补的概率1-p，被调查者通过掷骰子随机抽取回答哪个问题。在这个一调查中，只有被调查者知道这个随机选择的结果（即被调查者会被要求在调查者看不见的地方掷骰子）。因为只有被调查者知道自己回答的是哪个问题，所以调查者不能根据被调查者回答的“是”或“否”推断出被调查者的情况。然而，尽管调查人员无法推断任何个别被调查者的状况，但根据已知随机化的概率p，来对敏感属性问题中流行率估计，从回答“是”的选择比例中得出。

其次，良好的随机干预平衡了实验组和对照组之间的所有潜在混淆因素，从而能够评估因果效应或准确估计其缺失情况。计算机辅助背景下，越来越多的情境实验、场景实验被采用，如情景评估实验方法被用来分析政党偏好和政党纷争对政策制定的影响。这些为社会科学研究带来新气象。再如，实验方法使我们能够确定若干政策议题的时效性。有的问题可能是当前政治辩论的核心主题，但却不是对公众重要，如何识别出公民关注的核心焦点，则需要一定的实验方法中所获得的信息来支持。部分田野实验还开始侧重对政策议题的细节处理，来进一步类型化研究对象。

实验方法研究的本质特点是数据生成过程中研究者的干预，此时数据的变化部分是在设计阶段，测量数据前研究者的决定所致，在这一过程中，实验方法的操作中也需要关注如下问题：

首先，实验研究中，其干预手段往往通过给予特定实验者一段视频、一段文字等信息植入的方式。但这种实验方法中一个局限的信息往往难以改变政策偏好，即使它可以改变其他态度。如在多民族国家中，对不同族群的态度认知实验调查表明这种分歧凸显了：即对少数群体的态度改善并不一定意味着对伤害该群体的政策支持减少。

其次，多重实验评估的重要性、实验不遵从和自我报告偏差被忽略。通过多重实验测试和评估，或者说基于等价测试，有助于研究人员对分析结果进一步校正或组合测试，进而提升研究的效度和信度。此外，实验不遵从，不可观测特征变量产生的歪曲和实验中的其他干扰会扭曲研究结果。当然，目前大量的实验室实验和调查实验都有赖于被试者的自我报告，此时受访者很难内省地考虑不同问题的相对重要性，如当没有任何投票经验的学生被试者谈到投票选择问题的重要性时，其并不擅长给出切合现实的判断，这就导致评估和选择认知的过程通常是一个无意识的过程，即使最终该结果被实验方法所包装。

再次，社会科学实验伦理问题的忽视。实验伦理是研究透明度的重要环节，但社会科学实验伦理问题并没有像理工科那样被强调。当然，实验伦理并不是简单的研究设计预注册，其实，特别是在实地实验中，为了避免实验被意外曝光，预注册的登记文件还需要通过一系列延迟公布等措施予以保护，最终的干预措施和结果保持一定的公开度，还应注重全面报告原始的注册设计文件和实验执行过程，而非选择性地公开研究数据。

最后，现代实验方法应用到底是议题需求驱动，还是发表偏倚驱动？可能更多的是后者，在激烈的学术发表竞争中，越来越复杂的模型和创新的方法被采纳来提升发表的成功率。分析表明，日益复杂的因果模型正在充斥着顶级的组织研究期刊。从2016年到2018年，在《美国管理学会学报》，《组织行为和人类决策过程》和《管理科学季刊》这三大顶级期刊上，最常见的是含有六变量的因果模型。在2008年至2017年之间，《美国管理学会学报》中讨论因果模型的文章数量从22％增加到36％，增加了64％；《组织行为和人类决策过程》从24％增至60％，增长了150％；《管理科学季刊》从13％变为19％，增加了46％。除此之外，从2016年到2018年，《美国管理学会学报》，《组织行为和人类决策过程》和《管理科学季刊》的10篇最复杂模型论文平均拥有16个变量，而2008年最复杂的模型只有12个变量。这种相信复杂理论叙述的智力趣味，乐衷于复杂方法设计的学识兴奋，代价是增加了复杂性却危及模型的真实性。如何识别有意义的简化模型和无意义的复杂模型，则是研究者自身素养的体现。

当然，我们很多人会怀疑实验的效用，一方面是由于社会科学家很少有人接受专业实验设计教育，缺少学习实验技术的动机，也会担心实验伦理问题。特别是实验的控制条件是人为设置的，实验被试者知道自己处于被观察的状态，进而会对限额外产生实在而未知的影响，另一方面，抽样方法带来的样本选择偏差也导致实验结果信度和效度的下降。但有学者指出这些问题也存在于其他研究方法中，总而言之，根本不存在最优的研究方法。特别是准实验多模型的验证中，我们很容易发现因果推断模型依然会存在失灵的空间，这其实也提醒我们与其说是实验方法，倒不如将更多精力侧重于多模型比较来增加研究结果的可信度，而目前重复验证的趋向下，其既包括不同情景下数据的重复验证，也包含不同模型的重复验证。

本文在全球发展比较下，呈现出社会科学实验研究方法的初步特征，但这并不是试图挑起定量与定性研究方法的“范式之争”，或树立起传统量化研究和新生量化模型之间的“迭代之争”，我们更多的是试图在包容性方法论思维的指引下，来实现我们研究成果信度和效度的提升，进而提升社会科学的显示度，以为社会政策的完善和改良做出更好的贡献。

推荐语

探究因果关系是社会科学研究的重要任务，而实验则是挖掘事物之间因果关系最具价值的研究方法之一。本文考察了实验方法的历史演化、操作类型、应用过程和学科场景以及它对社会科学带来的影响，并通过比较中外实验和准实验分析模型系统地展示了该方法的发展脉络与前景，有助于为进一步科学地应用实验研究方法奠定学理基础。（政治学人编辑部）

责任编辑：肖伟林

一审：班允博二审：王智睿终审：吉先生

文章来源：《广西师范大学学报（哲学社会科学版）》2021年第5期。