独家调查｜心理学研究“可重复性”危机，真相是什么？

汉青的马甲 2016-04-02

展开全文

图片来源：NYMAG.COM

文｜施佳鑫

●　●　●

重复100项刊登在心理学顶级期刊的研究，结果只有36%的实验结果得到重现。去年8月，一个名为“开放科学合作”（The Open Science Collaboration，简称OSC）的科学家团体在《科学》杂志上发表了这一结果，引起了心理学界乃至整个社会科学界不小的震动。

OSC的270个科学家成员来自世界各地，他们选取了心理学顶级期刊《心理科学》（Psychological Science）、《人格与社会心理学》（Journal of Personality and Social Psychology）和《实验心理学杂志：学习、记忆与认知》(Journal of Experimental Psychology: Learning, Memory and Cognition）在2008年发表的111项研究进行重复，最终完成了其中100项。原有的100项实验中，有97项得到了统计显著的效应，而在他们的重复实验中，仅有36项统计显著。此外，83%的重复实验的效应量（Effect Size, 因变量和自变量的关联强度的指标）都小于原研究。这项研究的发表引发了关于心理学研究“可重复性危机”（Reproducibility Crisis）的广泛讨论。

然而，今年3月，哈佛大学心理学教授Danial Gilbert、政治学教授Gary King、博士研究生Stephen Pettigrew和弗吉尼亚大学心理学教授Timothy Wilson在《科学》杂志上撰文指出，这项研究存在诸多问题，他们认为OSC的研究并不能说明心理学研究存在“可重复性危机”。根据他们的分析，36%的重复成功率并不低，相反，这一结果表明心理科学研究的结果可重复性很强。

哈佛团队的质疑

首先，Gilbert等人的文章质疑OSC的研究在对100个心理学研究的取样上存在问题。Gilbert表示，“他们的取样是带有倾向的、武断的，他们排除了许多心理学分支学科，许多心理学研究采用了极为严谨、科学的研究方法，但它们都被排除在外。OSC甚至让实验操作者自己选择重复哪个实验。如果他们用这样随意的抽样方法来研究人，没有一家有声誉的学术期刊会录用它。”

除了抽样的问题，Gilbert等人的文章主要从三方面来质疑OSC的研究：误差（Error）、解释力（Power，正确评估实验成功率的指标）和偏误（Bias）。

重复一项实验需要从研究对象中重新抽取样本，考虑到抽样上可能产生的误差，统计学上认为5%及以下的重复失败率是可以容许的。在原有的100项研究中，97%得到了实验者预期的效应，OSC考虑到抽样误差，于是认为在重复失败率不应超过8%，并把8%作为衡量标准。Gilbert等人认为OSC低估了实际的失败率，因为除了抽样误差，还有其他误差。

有些实验在重复时样本选择和原有实验不一样，例如一项原实验测试了美国人对非裔美国人的态度，OSC在重复时的研究对象是意大利人，而意大利人对非裔美国人的刻板印象和美国人很可能不同。

另外，OSC的许多实验过程也背离了原实验。一项研究让儿童在一块屏幕上做“定位目标”的任务，而OSC在重复时选取了年纪较大的儿童，任务更简单，所用的屏幕更大。可以想象，不严格遵循原有实验步骤，很可能得出不一样的结果。考虑抽样误差的同时也应考虑其他可能带来误差的因素，Gilbert等人重新计算了统计学可以容忍的重复失败率，得到的结果是34.5%，而非OSC认为的8%。

Gilbert认为OSC的研究第二个问题在于分析方法的选择，因此引发“解释力”的问题。OSC的通讯作者Brian Nosek曾参与另一项名为“多实验室”（Many Labs Project，简称MLP）的重复性研究项目，在这个项目中，研究者们让36个独立实验室各自重复了16个心理学实验，把所有数据汇总再进行统计分析，得到重复成功率为85%。而OSC的研究对100项实验只重复了一遍，Gilbert等人认为这种方法导致了对重复实验成功率的低估，如果MLP也采取OSC那样的计算方法，成功率只有34%。

最后，Gilbert等人的文章认为OSC的研究带有一定偏误。OSC在重复一项原有研究时，通常会询问原作者他们的重复是否严格遵循了实验规程，而有31%的重复实验没有这一步骤，Gilbert等人认为有这一步骤代表重复实验的“忠实度”较高，其余的则较低。他们比较了高忠实度重复实验的成功率（59.7%）和低忠实度重复实验的成功率（15.4%），发现前者是后者的4倍。如果因没有严格按照原有实验而引起的误差是随机的（同等机会增大或减小成功率），高低忠实度的重复成功率应该接近，而不是如此悬殊。所以，Gilbert等人认为OSC的研究带有一定的偏误，这种偏误导致了他们的对实验结果重现成功率的低估。

OSC对质疑的回应

OSC的成员之一、荷兰埃因霍芬理工大学的心理学教授Daniel Lakens在博客上表示不接受Gilbert等人的批评。他认为，Gilbert等人计算出来的34.5%的失败容忍率已经高到足够说明心理学研究的“可重复性危机”。他还表示，这样的评论被刊登出来，很可能是由于《科学》的评论板块没有很好的同侪审查机制。

实际上，在《科学》杂志刊登Gilbert等人评论的同一期，也发表了OSC的回应，他们认为，“统计上的误读和对数据的选择性解读造成了Gilbert等人对心理学研究可重复性的乐观评估”。OSC在回应中写道：“基于OSC的重复性实验数据，乐观或是悲观的结论都有可能，但没有一方是确切可靠的。”

OSC在回应中称，没有哪个重复性实验能够做到跟原有实验一模一样。他们认为，重复性实验应该建立在原有的理论基础上，所设定的实验条件应该预期和原实验获得一样的结果。“如果重复的结果不一样，则应该考虑扩展假设并检验为何会不一样，如果重复结果一样，则重复的研究为原有研究结论的推广提供了一定的证据。和我们所重复的那些实验一样，我们的研究也只提供了初步性的证据，并不是决定性的。”

OSC的另一位成员、荷兰蒂尔堡大学社会和行为科学教授Marcel van Assen接受了《知识分子》的采访，他表示Gilbert等人的评论并没有改变他对OSC研究的看法。双方的一大争论点是，重复的实验究竟多大程度上忠实于对原有的实验。Assen说：“重复实验应该尽可能和原实验接近，我们都同意这一点。我只能说，在这一点上OSC团队已经尽力了。”

此外，Assen认为Gilbert等人没有解决一个重要的问题：如果误差是由于社会情境或者研究设计的差异引起的，重复的时候实验效果既可能增强也可能减弱，而原有的99个研究在重复时，只有17个是实验效果增强的。这很可能是由于“发表性偏误”（Publication Bias）——研究者们常常为了发表而只报告统计上显著的结果，而忽略那些不显著的结果。Assen承认OSC的分析以及结论的得出有不完善之处，许多学者也开始重新分析OSC的数据，“到现在为止，所有分析都表明原有的实验相比重复实验更加显著，这也暗示了发表性偏误的存在。”Assen说。

Assen承认，Gilbert等人的批评让他认识到，在重复一项研究时，应该更加小心地设计，尽可能让重复实验和原实验相同，这比他原来想象的难。此外，他认为挑选研究进行重复时，应选择那些具有大样本，以及统计显著性较强的研究，在这样的情况下，重复的实验不显著才更能说明问题。

重复性研究重要吗？

尽管OSC的研究存在较多争议，但不少科学家都认为重复性研究十分必要。美国俄勒冈大学的心理学家Sanjay Srivastava在接受《知识分子》采访时表示，重复性研究对于任何一门科学来说都是重要的，因为它让我们辨识出那些最值得信赖的研究结果。Gilbert也认为重复性研究在科学研究中是一个重要的部分，“针对既有研究的元科学（Meta-Science）研究也仅仅是科学研究，所以‘正确’地做可重复性研究要求遵循科学研究的规则。”Gilbert说。

评论文章的第二作者Gary King在接受《哈佛大学校报》采访时说，“无论你的研究对象是人，还是既有的研究，都必须遵守所有科学研究的规则，包括抽样、计算误差以及不告知实验者研究假设等。元科学也同样不能免除这些束缚，违反了科学的基本规则，就会得到错误的结果。”

在Gilbert看来，如果让他来做重复性研究，他会在各个心理学分支内抽样，或者把研究对象限定在所抽样的分支中。他说，“我不会让实验者们自己来选择重复哪项研究。我会让所有重复性研究尽可能地忠实原有的研究，把那些不忠实的剔除掉。这些都会让我的研究变得很难，但这是完成研究目的所必须的。”

心理学研究出现问题了吗？

Srivastava对此议题的态度较为乐观，他认为，得益于技术的发展，重复性研究变得更加容易，也正因为如此，重复性议题相比以前显得更加重要了，他举例，“云计算和网络技术能让我们把宏观的、数据密集的重复性研究项目做得更好。”他也不认为当下的心理学不够“科学”，“任何一个科学领域都需要让它的方法和它所研究的现象相适应，如果心理学变得像物理学，物理学变得像心理学，那么，两者都会变得很糟糕。”

牛津大学的神经心理学家Dorothy Bishop对此事也颇为关注，她在博客上写道，“当前媒体把焦点集中在‘可重复性’这一统计术语上，是因为许多争论点都和统计相关，但这会让人们忽视了更加基本的问题，那就是心理学是否存在问题。”在Bishop看来，如今的心理学的确存在问题，但她否认心理学比其他使用统计推论的学科差。Bishop分析了为什么现在的心理学研究可重复性较差，而这些也正说明了当下心理学所存在的问题。

首先，Bishop认为现在的心理学研究内容和过去已经大不相同。早期的心理学关注的内容相对来说不那么细枝末节，她相信早期的许多心理学理论是经得起重复的，比如“系列位置效应”（Serial Position Effect，指人们在记忆时更容易记住开头和结尾的内容）。很重要的一个原因是心理学家们常常会做一系列实验来更好地了解早期的这些心理学理论的适用条件，而这个过程本身也是一种重复研究。

还有一种可能是因为类似于“系列位置效应”这样能够明显观察到的效应都已经被研究过了，现在的心理学只剩下对细微的效应的研究。如果样本数太小就很可能错把偶然出现的显著效应当成是真的效应，为了避免这种情况，需要用大样本来证明细微的效应，而现在的心理学研究基本还是沿用了相对不具有说服力的小样本。

除了效应不明显外，现在的心理学效应还容易随社会情境（Social Context）改变。某个心理学效应可能在一定的社会情境下适用，但一旦情境发生一点改变，就不适用了。Bishop认为这与其说是问题，不如说是心理学研究的机遇，心理学家们可以通过改变实验条件，来更细致地理解某个心理学理论的作用机制。Srivastava也认为，尽管心理学存在着普遍适用的理论，但也有相当多的理论只适用于一定的社会情境，为了搞清楚某个理论究竟是适用于全人类，还是只适用于一定人群，心理学家们需要在不同社会情境中检验一个理论。

Bishop还批评了当前许多心理学家过分迷信P值（是否统计显著）的现象，她认为如果变量足够多，以及研究者熟练掌握各种统计方法，就很容易出现因为偶然而造成的统计显著。“现在只要点几下鼠标就可以得到统计结果，这使得许多研究者只关注于那些显著的变量，而忽视理解内在的联系，这样就很容易造成虚假的显著效应。”Bishop说。去年12月，《心理科学》（Psychological Science）和美国心理学协会（American Psychological Society）共同宣布将致力于改善心理学研究的可重复性，作为具体举措之一，前不久《心理科学》杂志聘用了6位统计学专业背景的顾问，这些顾问的职责主要是检查文章中所用的统计方法是否合理。

Gilbert同意心理学有许多问题还未解决，“从头等的问题（关于人类行为的什么问题是最重要的）到细微末节的问题（应该如何计算效应量）都存在着问题”。但他认为问题并不等同于危机。“科学是一个人们朝着真理跌跌撞撞前行的过程，路上的曲折在所难免”，他说，“心理学在过去一个世纪取得了巨大的进步，下一个世纪也将同样如此。英语里面我们常说‘进两步，退一步’，我们在进步的同时也可能退步。有的人认为我们的心理学没有问题，有的人认为我们尽是问题，我认为两个观点都不对。心理科学是奇妙的，而且它每天都在进步。”

参考文献：

1.Gilbert D T, King G, Pettigrew S, et al. Comment on “Estimating the reproducibility of psychological science”[J]. Science, 2016, 351(6277): 1037-1037.

2.Anderson C J, Bahník S, Barnett-Cowan M, et al. Response to Comment on “Estimating the reproducibility of psychological science” [J].Science,2016,351(6277): 1037-1037.

3.http://www./index.php/publications/observer/2016/march-16/meet-psychological-sciences-new-statistical-advisors.html

4.http://deevybee./2016/03/there-is-reproducibility-crisis-in.html

（责任编辑陈晓雪）