【原】震惊! 在线问卷或实验平台中人为的P-hacking, 发表偏倚和小样本量史无前例的揭秘！

计量经济圈 2022-08-17 发布于浙江

展开全文

邮箱：econometrics666@126.com

所有计量经济圈方法论丛的code文件, 微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

关于P-hacking，参看：1.如何在实证研究中操纵结果而不被发现？2.实证研究中的P值: 误解, 操纵及改进, 探析P值操纵表现及原因,提出相应的改进策略，3.AER强调计量方法的重要性, 经济学因果分析中的p值操纵和发表偏倚！4.DID和IV操纵空间大吗? 一切皆为P-hacking，5.p-hacking的精辟解释, 保证你一辈子都忘不了！6.前沿, 终于有人解释为什么顶刊上很少有不显著的结果发表! 背后机理？7.常用的12种调变量显著性或调星星的方法，8.控制变量就能影响结果显著性, 所以存在很大操作空间, 调参数是常用手段吗？

经常听说，某某同事或朋友通过在线问卷调查诸如COVID-19、消费券、房价预期、商品偏好、心理状态等问题，待获得了几百个或上千个个体问卷数据后便开始分析变量间的关系。

一个很自然的疑问，这种在线问卷调查可靠吗？暂且不论被问卷（或被访）人员主观上是否存在故意隐瞒信息或胡乱填写的问题，我们急切想知道，研究者本人是否存在操纵P值或为显著性而肆意改变变量或问卷数据，以及把原定于500份的问卷数据硬生生缩减到2-300份从而让结果显著的行为？

下面这篇文章会给你结论。

正文

Brodeur, Abel and Brodeur, Abel and Cook, Nikolai and Heyes, Anthony, We Need to Talk About Mechanical Turk: What 22,989 Hypothesis Tests Tell Us About Publication Bias and P-Hacking in Online Experiments. IZA Discussion Paper No. 15478
Amazon Mechanical Turk is a very widely-used tool in business and economics research, but how trustworthy are results from well-published studies that use it? Analyzing the universe of hypotheses tested on the platform and published in leading journals between 2010 and 2020 we find evidence of widespread p-hacking, publication bias and over-reliance on results from plausibly under-powered studies. Even ignoring questions arising from the characteristics and behaviors of study recruits, the conduct of the research community itself erode substantially the credibility of these studies' conclusions. The extent of the problems vary across the business, economics, management and marketing research fields (with marketing especially afflicted). The problems are not getting better over time and are much more prevalent than in a comparison set of non-online experiments. We explore correlates of increased credibility.

我们需要谈谈Mechanical Turk：22,989 个假设检验告诉我们在线实验中的发表偏倚和 p-Hacking问题

摘要：

Amazon Mechanical Turk 是商业和经济学研究中使用非常广泛的工具，但使用它已发表的研究结果的可信度如何？分析在该平台上测试并在 2010 年至 2020 年期间在主要期刊上发表的研究假设，我们发现了广泛的 p-hacking、发表偏倚和过度依赖小样本量（2-300个样本）的研究结果的证据。即使忽略研究被试人员的特征和行为引起的问题，研究者本身的行为也大大削弱了这些研究结论的可信度。问题的严重程度在商业、经济、管理和营销研究领域（尤其是营销受到影响）各不相同。随着时间的推移，这些问题并没有变得更好，并且比一组非在线实验中的问题更为普遍。

先普及一下亚马逊的Amazon Mechanical Turk平台，它是亚马逊开发的一个众包（crowd sourcing）平台。对此感兴趣的中青年学者，可以在这个平台注册账号，并适当参与一些项目赚点生活费（美元计价）。

发布者（称为Requester）把需要做的任务（Human Intelligence Task, HIT）发在网上，想要做这项任务的人（称为Worker）可以接受任务并且获得报酬。发布这些任务的请求者中，很大一部分是预算有限的学术研究人员。工人登录Mechanical Turk后会看到可用任务列表，包括谁提供这些任务、截止日期和薪水。可以选择抄录收据（$0.01），总结一段文字（$0.35）或进行行为经济学调查（$1）。

简要介绍文章内容

近年来，对作为社会科学研究参与者重要来源的在线平台的使用迅速增加，其中占主导地位的是 Amazon Mechanical Turk (MTurk)。

尽管声称 MTurk 作为一种研究工具具有各种优势，包括可以获得除本科生以外的大量潜在受试者，以及明显的多样化受访者的人员结构（例如，参见 Paolacci 等（2010）），从而让研究人员能够以低成本构建大样本。在过去十年间，该平台已成为极其受欢迎的教师和研究生研究场所，这也不足为奇。

然而，在使用 MTurk 的同时，一些研究团体越来越怀疑使用它的研究结果的可靠性。例如，在注意到 2012 年至 2019 年间 MTurk 在管理学研究中的使用增加了 2117% 之后，Aguinis 等（2021 ）受 Journal of Management 编辑委员会委托对平台进行审查时发现，在学者中，MTurk的实际好处确实很多，但对数据的有效性大家持怀疑态度。据称，这种怀疑是由对 MTurk 受访者行为的各种担忧驱动的，并且有文献探讨这些问题。

例如，从平台招募的受试者可能由于报酬率低而对任务关注度不够，可能通过在线社区工具与其他参与者共享信息，也可能在回复中故意欺骗，声称在一个地方但实际上通过 VPN 在另一个地方，使用别名等多次参与研究。Hauser 等（2019）详述了类似的担忧。尽管如此，值得注意的是，几项研究表明，通过对多个主题池进行相同的实验，来自 MTurk 样本的结果与来自更传统和更昂贵来源的样本的结果看起来并没有太大不同（例如，参见 Snowberg 和 Yariv （2021 ）和 Horton 等（2011 ））。

我们没有为这只文献做出贡献——事实上，我们对 MTurk 人作为参与者的利弊一无所知。相反，本文的重点，是首次系统地调查了学术研究界在使用 MTurk 时本身的统计实践，以及这些实践在多大程度上使基于 MTurk 的实证结果不可靠。我们研究的三种做法在最近其他地方研究可信度评估中已经成为焦点，即(1)p-hacking，(2)发表偏倚(或选择性发表)和(3)从貌似不足的样本中呈现结果。

我们分析了MTurk在2010年至2020年期间发表在美国商学院协会学术期刊指南2018年版4或4*分类的所有期刊上的2.3万多篇论文的假设检验。该指南广泛涵盖商业研究和相关领域，如经济学、金融学、管理学、市场营销和行业研究（如旅游、社会学），并广泛用于研究人员的评估和评价。

我们首先调查研究主体中 p-hacking 和发表偏倚的程度。如果发表假设检验的可能性取决于结果，例如，如果统计显著的处理效应比不显著的结果更有可能发表，则会出现发表偏倚。这可以反映研究人员在决定撰写什么内容、将什么内容放入“文件抽屉”和/或期刊选择发表内容的过程中所做的选择。术语 p-hacking 是指以人为夸大统计显著性的方式做出的研究选择。这两种现象都会导致已发表的研究中人为地缺乏统计上不显著或“无效”的结果。有趣的是，许多实证研究人员会认识到统计显著性的吸引力，这与 Chopra 等（2022 ）进行的随机实验的证据一致，发现“即使在所有其他研究特征保持不变的情况下，与具有统计显著性结果的研究相比，具有无效结果的研究被认为更难发表、质量更低、重要性更低且估计更不精确。”

越来越多的人认识到P-hacking是一个潜在的问题。然而，虽然很难或不可能在任何单个研究中发现或量化该问题，但通过比较在一组研究中观察到的统计显著性模式与缺乏此类行为时所预期的模式，可以在更大的研究库中表征该问题的普遍性。已经开发了一些技术来共同或单独检验和量化 p-hacking 和发表偏倚。没有一种技术是确定的，而且每一种技术都嵌入了特定的假设，所以我们认为我们的方法的一个优势是应用了大量的技术。

我们绘制了来自MTurk文章的测试统计数据的分布，发现它们呈现出与存在相当大的p-hacking和发表偏倚一致的模式。特别是，该分布在z -统计值1.96附近表现出明显的全局和局部最大值，对应于在5%水平上的统计显著性所需的阈值，或0.05的p值。这个最大值刚好在统计上即将不显著的统计区间处聚集，这深刻地表明了p-hacking。随着时间的推移，这种统计的模式会持续存在，在4*和4星期刊上发表的论文中一致存在。

我们使用Brodeur et al.(2016)提出的方法来估计被错误宣称具有统计显著性的结果的比例，发现在研究领域之间，这种结果的流行率存在显著差异——在市场营销中最常见，在经济和金融中最不常见。应用Andrews和Kasy(2019)开发的方法，我们还证明了样本中存在严重的发表偏倚。其他等于z -统计值大于1.96的结果发表的可能性是统计上无显著性结果的4.61倍。使用传统的卡尺检验(Gerber和Malhotra, 2008a)和Elliott等(2022)提出的复杂的测试组合进一步验证了这些发现。

最后，我们检查研究中的样本量。统计检验的功效在于检测到效应(拒绝无效应的原假设)的概率，前提是存在可检测的真实效应。适当选择样本大小，即功效水平，是实验研究设计的一个中心因素。这里我们特别关注的是，低的统计功效意味着高误报率。自然，这样的虚假结果是很难复现的（特别是如果随后进行更更大功效的复现练习）。一个由功效不足的(小样本)研究组成的文献可能会有许多令人惊讶的结果，这面临严重的复现问题，相应地也就面临可信性的挑战。

在这种情况下，我们强调了 MTurk 研究的两个特点。首先，许多（大多数）MTurk 研究使用小样本。在我们的样本中，实验中受试者的中位数是 249。鉴于 MTurk 平台上构建样本量的速度和成本是极其快速和廉价的，持怀疑态度的读者可能会对这种样本量感到震惊。在我们的研究样本中，额外数据点的平均成本为 1.30 美元，大约 70% 的案例不到 1 美元。那么选择如此小的样本量的依据是什么（不太可能是成本）？这引出了我们的第二个观察结果，在大多数 MTurk 研究中，对于如何选择特定样本大小没有任何理由（明确或其他）。

MTurk 研究中明显小样本的频率导致了对统计功效的担忧。在我们的样本中，很少有研究包括正式的功效分析，并且没有可靠的方法可以事后估算假设的统计功效。我们系统地探讨了整个样本和子样本内的样本大小、测试结果的统计意义、每个数据点的成本以及关于一项研究是否为如何确定样本大小提供了基本原理的背景数据之间的关系。

这里的结果有助于文献讨论在 MTurk 和其他众包平台上进行的研究的可信度（Arechar 等（2017 ）；Berinsky 等（2012 ）；Coppock（2019 ）；Buhrmester 等（2011 ）；Goodman 等人(2013)；Horton 等 (2011)；Johnson 和 Ryan (2020)；Lee 等 (2018)；Paolacci 等 (2010)；Snowberg 和 Yariv (2021))。

总的来说，我们在数据中发现的模式挑战了基于 MTurk 的研究的可信度，这些研究发表在跨商业和相关研究领域的高评价期刊上。然而，这并不是因为经常被引用的关于 MTurk 受试者提供的回答的有效性的问题，而是研究人员可疑的统计实践。

关于显著或不显著结果，参看：1.常用的12种调变量显著性或调星星的方法，2.不显著能任性发顶刊！还津津有味地讨论不显著的实证结果！3.前沿, 终于有人解释为什么顶刊上很少有不显著的结果发表! 背后机理？4.回归中常数项显著说明模型中有遗漏变量问题？5.为什么回归系数不显著? 6.关于模型中变量选择的五个误区, 譬如不显著的变量需要剔除还是保留？7.控制变量就能影响结果显著性, 所以存在很大操作空间, 调参数是常用手段吗？8.添加一个新变量能使以前不显著的变量变得显著了？9.核心解释变量A不显著, 但加入变量B后, 为什么A和B都显著了？10.若系数回归结果不显著, 我们能够采取的方法和思路有哪些？11.结果不显著但成功发在Top期刊上的论文有哪些？你心虚过没？12.交互效应显著的几种情况, 列出了6种类型，13.交互项中主效应不显著, 交互项显著可怕吗? 14.统计显著与经济显著, 发AER和经济研究的标配，15.显著不显著的后背是什么, 非(半)参估计里解决内生性，16.试了几百次, 回归结果依然不显著, 到底咋办，17.科学家倡议P值需要0.005，显著性判断才成立，18.SSCI期刊竟公开征集“不显著的实证结果”的专刊文章！19.IV与Y在理论上无直接关系, 但用Y对IV做回归发现IV是显著的, 这是咋回事？20.实证研究中的P值: 误解, 操纵及改进, 探析P值操纵表现及原因,提出相应的改进策略，21.AER强调计量方法的重要性, 经济学因果分析中的p值操纵和发表偏倚！

下这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。

3.5年，计量经济圈近1000篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

计量经济圈组织了一个计量社群，有如下特征：热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此，建议积极进取和有强烈研习激情的中青年学者到社群交流探讨，始终坚信优秀是通过感染优秀而互相成就彼此的。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：计量经济圈 > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

计量经济圈

关注对话

TA的最新馆藏

上瘾了? 又来个“像中国一样国际化”, internationalizing like China
TOP刊: IV-OLS系数间差异的分解, 理论示例程序代码都有
中介分析是否存在遗漏变量偏差？
绝对实用! 空间计量方法手把手保姆级使用指南和教程(附代码和实例)
确认了! 全世界最受政策文件引用的前10篇论文确实来自经济学！
计量学起来! 你喜欢的伍德里奇教授很可能就是美国经济学会副主席了

喜欢该文的人也喜欢更多

热门阅读换一换