加星标,才能不错过每日推送!方法见文末动图 看研究是怎么做的,看研究的进展和全貌——那正是优质科普所应当努力提供的内容。 你可能经常从各种书籍、媒体看到一些心理学科普,介绍一些研究发现。 比如一篇文章说保暖、多喝热水会改善你的人际关系,因为一项研究表明,物理温暖会提升人际温暖,相比于拿冷咖啡,拿一杯热咖啡会让你对陌生人有更积极的评价。 另一篇文章说在设计调查问卷时,最好把落款签名设计在问卷的开头而不是最后,因为一项研究表明这样可以提高被调查者回答的诚实度。 还有一篇文章说应该多给孩子听莫扎特的音乐,甚至应该从孕期就开始把听莫扎特的音乐作为胎教,因为一项研究表明听莫扎特的音乐能提升人的认知能力。 …… 图1. 畅销几十年的经管类书籍《影响力》是许多人的社会心理学启蒙 我们总是倾向于相信这些研究结果,有心的话还会主动运用到生活中。毕竟心理学不是一门科学吗?研究者不是专家吗?这些研究不都经过同行评审发表在国际知名期刊上吗? 然而,近年来,研究者越来越多地发现,心理学或范围更广的社会科学研究,常常是不可重复的。也就是说,一些此时此地这些人身上发现的现象,在彼时彼地那些人身上就消失了!可重复性是科学的一个重要特征。这些不能重复的现象并不是真正的科学效应。 如果不能重复的研究只是孤例,那倒也没什么。不幸的是,2015年的一项大规模重复研究发现,能成功重复的心理学研究的比例,竟然不足40%![1]超过一半的研究结果都并不可靠。这就是近十年心理学界广泛讨论的“可重复性危机”。
JPSP的编辑和审稿人认为贝姆的这项研究符合当时心理学界对研究方法的一切要求,可是他的研究结果却扯上了一个争议极大的、被认为是伪科学的命题。 这篇研究甫一发表,便激起了激烈的讨论。批评者重复了贝姆的实验,未能成功重复出显著的结果,这项重复失败的研究一年后同样发表在JPSP上。[3] 心理学顶级期刊所认同的研究方式,却催生了如此有争议的发现,那么其他已发表的研究是不是也可能不可靠呢?从此以后,心理学界逐步对研究实践进行反思,越来越多的研究者开展了重复性研究。 其中最有代表性的,当属美国弗吉尼亚大学的心理学家诺塞克(Brian Nosek)领导的开放科学合作计划(Open Science Collaboration),在2015年进行了第一项大规模重复研究,对三大心理学顶级期刊《人格与社会心理学》(JPSP)、《实验心理学》(Journal of Experimental Psychology,JESP)、《心理科学》(Psychological Science,PS)上的100项研究进行了重复,发现只有36%的研究得到了成功重复。 重复一遍,在心理学顶级期刊上发表的研究,能被成功重复的只有大约三分之一!社会心理学尤其是重灾区,而普遍认为比较“硬核”的认知心理学研究的重复率也只有大约50%。 需要注意的是,一项研究的结果未能成功重复,并不能说明效应一定不存在。 4.原始研究得到的结果是真实的,是重复研究出了问题,比如实验流程未能完全重复原始研究。 前三种原因导致的重复失败,都可以说明原始研究得出的结果是不可靠的。 而第4种情况当然是有可能出现的,所以单独一项重复研究可能并不能说明问题,对一项研究结果进行重复验证是必要的。不过,第4种情况出现的比例不会很高,说明有大量心理学研究结果确实不可靠。 如此低的可重复率,是在宣告心理学作为一门科学的失败吗? 其实重复失败在科学界很常见。一个著名的例子就是1989年的室温核聚变悬案,两位科学家宣称在室温下实现了持续的核聚变,但其他科学家未能重复出其研究,这一令人欢欣鼓舞的重要发现没能进入科学的殿堂,至今争议不断。 在医学界,尤其是基因与疾病的关联方面,也存在严重的重复失败问题。只有大约4%的关于基因和疾病之间关联的研究结果被成功重复。曾经,研究者普遍相信存在与抑郁症有关的基因,但2019年美国科罗拉多大学的研究者进行了一项大数据研究,并没有发现数据支持所谓的“抑郁基因”,20多年间的上千项研究一下子没有了根基。[4] 可重复性危机的出现,恰恰说明了心理学和社会科学正走在成为一门硬科学的道路上,只是学科内部存在一些需要解决的问题。 问题其实很简单:期刊鼓励发表原创研究,不鼓励发表重复研究。于是大多数研究都是探索性的,研究者初步发现一个现象,马上发表,然后就把这个现象当成一个确实存在的效应,不再进行检验、重复。在所有人都追逐着发表新的研究、发现新的现象,而大量发表的结果是来自于巧合,或只适用于特定人群,甚至是篡改数据而得到。基于这些并不真实存在的效应,大量后继的新研究成了没有根基的空中楼阁。 发现问题就解决问题。可重复性危机并没有压垮心理学,而是促使研究者对研究实践进行调整改进,重视重复研究,期刊也开始鼓励重复研究的发表。大家这才发现,越来越多经典研究,甚至是写进了心理学教材的研究得到重复,其中很多都未能成功重复。 随着重复研究越来越多,即使是心理学教授和研究者也很难追踪到所有最新的重复研究结果。为了帮助更多人了解重复研究的进展,一批心理学家组建了“开放和可重复研究训练框架”(Framework for Open and Reproducible Research Training, FORRT)。他们整理了上百个心理学效应的重复情况,目前还没有完成(2024年才全面完成),但已具规模,可以在网站[5]上看到他们总结的结果。 图3. 开放和可重复研究训练框架,网站首页截图 FORRT目前罗列出了130多个受到重复研究检验的心理学效应,涵盖社会心理学、积极心理学、认知心理学、发展心理学、市场营销学、神经科学等各个心理学分支。 对于每个效应,FORRT列出了原始文献、批评文献(包括重复研究、综述、元分析等),以及原始研究和重复研究的效应量,并给出了一个标记:replicated(成功重复)、not replicated(未能成功重复,有的甚至效应出现了反转)或mixed(部分重复成功,部分重复失败)。 需要注意的是,因为目前还在资料收集阶段,未经过review,所以网站上一些效应给出的标记有误,不过参考列出的文献也能自行得出结论。 在这130多个效应中,只有不到20个得到成功重复,40多个标记为mixed,未能成功重复的多达近70个。我们姑且认为mixed算部分成功重复,那么replicated和mixed加起来也还不足50%,可见确实有很多效应无法被重复。 成功重复的“优等生”
著名的反面教材很不幸,有一些广为人知的效应未能被成功重复:
图4. 虽说这两种效应不见得显著,但这两本书也许还是帮到过你。 同类不同命有趣的是,有一些同领域的密切相关的效应,其中一些得到了成功重复,一些却重复失败了。
…… 以奥唐奈(Michael O’Donnell)等研究者2021年发表的、对20项研究的大规模重复检验为代表的重复研究,发现以上列出的这些稀缺效应中,1~4得到了成功重复,而5~9均没有得到成功重复。[7] 可见,即使是同一领域、强关联性的研究结果,也可能有的靠谱,有的不靠谱。我们需要批判性地看待每一个研究结论。 大量心理学研究结果无法被成功重复,面对这个现实,我们应该怎么办? 是不是要弃心理学如敝履,从此不再相信心理学,不把心理学当成一门科学吗? 正如前文所说,可重复性危机并没有压垮心理学,研究者们正在积极地改变研究实践,一方面通过重视重复研究和元分析,检查以往研究的可靠性;一方面通过鼓励预注册(即在研究开始之前就详细登记研究方法和预期结果,防止研究者对数据进行操纵),以及增加样本量(提高统计检验力),来提升新研究的可靠性。 但整个学科迈向更严谨的科学还需要时间。目前,我们对哪些心理学知识靠谱,哪些不靠谱仍难有十足的把握。在这样的情况下,我们需要具有批判性的思维。 或许可以这样说:任何单个研究的成果都不能全盘相信。对于那些吸引眼球的标题、让人眼前一亮的研究成果,最好的态度是:挺有趣的,先记着,再看看。 要批判性地看待研究结果,首先需要对研究有基本的了解。如果一个研究说,让被试想到老年人,就会让被试行动变得迟缓,那么我们需要了解被试是什么样的人(可能是歧视老年人文化下的美国大学生),需要了解“让被试想到老年人”是怎么让他们想到的(也就是具体的研究方法),然后才能判断基于这些被试的结果对我们是否适用,研究中的操作对现实生活是否有参考价值。 更重要的是,我们需要看到研究的进展和全貌:类似的研究、重复研究取得了怎样的结果?其他研究者怎样看待这项研究?(比如上面这个“想到老年人”的研究,就没有得到成功重复。) 当然,以上两点对科普作者提出了较高的要求。优质的科普并非只传达零星的研究发现,而需要呈现研究的全貌,甚至最好能呈现关于一个话题研究进展的全貌。 科普作者的工作方式或许需要来一个转变:不是为了传达一个观点,去寻找支持这个观点的研究,来说服读者;而是针对一个话题,把研究的进展和脉络梳理呈现,再整理出一个最受支持的观点。 以上种种,听起来都很严肃、很累。严谨是一种科学态度的追求,不过对于心理学这样的学科,或许也可以留有一些模糊的空间。 人性、人心本来就极其复杂,我们希望尽可能地揭示心理的客观规律,但也不应该期待简单的理论、浅显的效应就能解释一切,并奢望这些理论和效应适用于所有人。看到心理学的局限,承认人性的幽微与复杂,或许也是一件浪漫的事情。 我个人的观点是,尽可能批判性地了解更多心理学知识和研究发现,但也不必对一些看起来还不够严谨的畅销书、科普文持批判一切、否定一切的态度——信不信本来就是个人的事,有时候信则灵也说不定呢。 参考文献 [1] Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349. [2] Bem, D. J. (2011). Feeling the future: experimental evidence for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100(3), 407-425. [3] Galak, J., LeBoeuf, R. A., Nelson, L. D., & Simmons, J. P. (2012). Correcting the past: Failures to replicate psi. Journal of Personality and Social Psychology, 103(6), 933–948. [4] Border, R., Johnson, E. C., Evans, L. M., Smolen, A., Berley, N., Sullivan, P. F., & Keller, M. C. (2019). No support for historical candidate gene or candidate gene-by-interaction hypotheses for major depression across multiple large samples. American Journal of Psychiatry, 176(5), 376-387. [5] https:///reversals/ [6] Retraction for Shu et al., Signing at the beginning makes ethics salient and decreases dishonest self-reports in comparison to signing at the end. https://www./doi/10.1073/pnas.2115397118 [7] O’Donnell, M., Dev, A. S., Antonoplis, S., Baum, S. M., Benedetti, A. H., Brown, N. D., ... & Nelson, L. D. (2021). Empirical audit and review and an assessment of evidentiary value in research on the psychological consequences of scarcity. Proceedings of the national academy of sciences, 118(44), e2103313118.
|
|