分享

关于经验经济学的可信度,我们该知道些什么

 新用户68639482 2020-08-01

本文素材由小编整理发布。所发内容仅供学习、交流之目的。版权归原作者所有,如对版权有异议,请后台联系,议定合作或删除。

翻译:左川老师

John Ioannidis (Stanford University)

Chris Doucouliagos (Deakin University)

【摘要】:经济学的科学可信度本身就是一个科学问题,既可以用理论推测,也可以用经验数据来解决。在这篇综述中,我们研究了预期会影响经验经济学可信度的主要参数:样本量,所追求效果的大小,检验关系的数量和预挑选,设计、定义、结果和分析模式的灵活性和缺乏标准化,财务和其他利益与偏见,以及努力的多样性和分散性。我们总结并讨论了在经济和商业研究中缺乏稳健的可再现文化、出版偏见和其他选择性报道偏差的流行以及科学信息市场中的其他问题和偏差的经验证据。总体而言,经济学文献的可信度可能是有限的,甚至很低。

【关键词】:偏见;信誉;经济学;元研究;可复现;可再现

1

介绍

研究是研究者不可避免地以自我为中心的一种公共产品。研究和证据市场的可信度受到了严峻的质疑(见Ioannidis,2005,2012a;Young等,2008)。证据是否失真?错误证据的产生速度是否比正确证据的产生速度快?研究产生和复制足够吗?我们可以做得更好吗?这些问题和其他问题适用于经济学,也同样适用于其他科学。多年来,研究人员已经发现了几个影响经验经济学研究可信度的问题。这些包括但不限于:出版偏见(DeLong和Lang,1992);夸大了统计显著性水平(Caudill和Holcombe,1999年);将统计意义误认为是经济意义(Ziliak和McClosky,2004年);正面成果偏误不断增加(Fanelli,2012);欺诈和不诚实行为(Bailey等,2001;List等,2001);资助和晋升不合理(Oswald,2007);无根据的主张和错误信念(Levy和Peart,2012年);编辑不愿公开剽窃(Enders和Hoover,2004年),并且可能扭曲评审程序(Frey,2003年)。

在本文中,我们首先讨论一些可能影响研究结果可信度的关键参数,以及这些参数在经济学科学中的表现(第2节)。然后,我们列举了一些关于可再现文化、无效过程和经验经济学潜在偏见的证据(第3节)。最后,我们讨论了一些悬而未决的问题和可能采取的干预措施,以改善研究市场,并最终提高经济学的可信度(第4节)。

2

影响研究可信度的关键参数

在以前的一篇论文中,我们中的一个人曾提出,“当在研究领域中进行的研究样本量较小;当效应量较小时;当检验关系的预挑选数量较多和较少时;在设计、数据分析、结果和分析模式方面有较大的灵活性;存在经济利益和其他利益及偏见较大时;以及当更多的团队参与到一个科学领域中,以追求统计意义时,一项研究不太可能是正确的”(Ioannidis, 2005, e124, p. 1)。我们认识到经济学研究可以是非常多样化的,笼统的描述不可能适合所有的情况。然而,我们关注的是经济学中一些常见的研究模式。

2.1.

样本量

尽管许多领域的样本量都在增加,但许多实证经济学研究的样本量相对较小。视观察单位而定,样本数量有时会不可避免地受到限制(例如,在国家一级进行具有生态分析的宏观经济研究)。在其他以个人,家庭或存货水平进行分析的领域中,样本量可能很大,甚至很大。

2.2.

效应量的大小

经验经济学的大部分关注点都集中在统计意义上,而不是实践(经济)意义上(Ziliak and McCloskey,2004)。一些影响很大,许多影响很小。令人不安的是,荟萃分析发现,经济学中的效应量似乎随着时间的推移而减小。对于某些经济学现象,其影响可能很小,甚至与原假设毫无区别。例如,一些主流理论暗示对股票市场行为和股票价值的预测影响可能很小或根本不存在。

2.3.

检验关系的数量和预先选择

经济学研究中使用的数据库的数据越来越丰富,并且包含越来越多的变量。大规模的住户调查(例如PSID)和财务数据库(例如Compustat)包含数以万计的个人和具有数百个变量的企业的数据。许多实证研究是探索性的,假设发展的,而发表的论文可能并未对此予以明显承认。经济学不能很好地解释检验的多重性,这很可能夸大了许多经验经济学的重要性(Leamer,1983)。

2.4.

设计、定义、结果和分析模式的灵活性

经济学在实验,随机设计方面没有很强的传统,类似于医学中的随机对照试验。随机实验通常被认为是耗时的,昂贵的,或者在许多情况下甚至是不可能的。因此,大多数实证研究默认情况下,是观察性研究和相关研究,它们的可信度可能低到非常低。在某些领域中,对感兴趣变量的定义已标准化。例如,经济学家之间就如何定义诸如经济活动或通货膨胀率等关键变量达成了广泛共识。但是,在许多其他领域,如何定义或衡量关键的经济概念可能会有很大的灵活性。所进行的分析也可能具有很大的灵活性。许多经济学研究依赖于在模型构建中具有众所周知的灵活性的回归模型(Leamer,1983)。

2.5.

财务及其他利益和偏见

目前尚不清楚,经济领域的利益冲突是否总体上比健康科学领域的问题小(Ioannidis,2011)。不披露和不一致披露冲突似乎在著名学术经济学家中很常见(Carrick Hagenbarth和Epstein,2012)。在一些为专有应用开发经验模型的经济领域中,模型构建者并不想扭曲模型的性能,因为让模型起作用(即实际赚钱)才是成功的真正标志。这种类型的经济学研究可能对其他科学有重要的启示。试想一下,如果医学研究人员每次研究没有被复制或失败时都要花钱。然而,学术自利(为晋升、资助或专业发展而出版)在经济学中很可能同样常见,一些实证研究可能会带着证明理论正确的明确“使命”而进行,无论是什么(即“确认”和“忠诚”偏见)。关于可能扭曲经济学研究的特定偏差的证据将在下一节中详细讨论。见下文第3节。

2.6.

团队多元化

从事经济学研究的人可能比生命科学或物理科学的研究人员少得多。例如,截至2012年12月26日,微软学术搜索在“经济学与商业”(Economics & Business)下列出了512895名作者的名字,而在医学领域,这一数字是6010966名,物理学是1847184名。然而,多个团队在共同项目下进行大规模合作的模式,强调数据和资源的共享和可复现,在经济学研究中并不常见,相反,它在物理科学和一些生物医学领域(如基因组学)中非常流行。尽管合著者的数量随着时间的推移不断增加,但大多数经济学论文都是由一个或几个作者撰写的。

有几个领域有许多团队在处理相同或相似的问题,但大多数情况下没有总体合作。即使是回顾性荟萃分析在经济学中也远不如生命科学中那么普遍。许多经济子领域和特定研究领域很少有研究人员积极参与,这可能导致某些信息垄断或近亲繁殖(Ioannis,2012b)。

3

经济学中的非生产性文化,无效率的过程和偏见

3.1.

可再现文化¹

可再现是验证实证研究的关键。可再现有几个层次,从对现有数据重复和一致性分析的能力(“可重现”)到用新数据进行可复现的能力。可以使用与原始研究相同的设计、方法和问题进行可复现。或者,它可能代表概念可复现,其中方法和研究问题与原始文献有所不同。一方面,概念可复现可以为研究主张提供佐证,但另一方面,新的方法和研究问题本身也可能需要进行严格的可复现。

在实证经济学、商业和市场营销研究中,很少有可复现(Hubbard和Vetter,1992;Evaschitzky et al.,2007;Hubbard and Armstrong,1994;Evanschitzky and Armstrong,2010)。²大多数可复现努力都是概念上的,而不是严格的可复现。此外,大多数的可复现从20%到65%不等,不能支持原始发现,具体取决于研究领域和期刊(见Hubbard和Vetter,1992;Evanschitzky和Armstong,2010)。实际上这可能被低估了,因为有些可复现是由提出原始研究发现的同一科学家执行的,或者是由具有相同信念的成员和科学家执行的,因此可能受到效忠偏见的影响。

在经济学中,可重现也是个问题。Dewald et al.(1986)在他们著名的研究中发现,虽然并不一定会否定研究的主要结论,但在实证论文中错误是常见的。大多数错误是无意的,或者是由于不理想的研究实践和质量控制不足,但也可能偶尔涉及伪造(Fanelli 2009)。T¨odter(2009)用来自两家经济学期刊的数据检验了本福德定律,发现大约四分之一的论文存在违规,与造假相符。Bailey 等人(2001)对会计领域最多产的研究人员进行了调查,报告称4%的受访者承认研究过伪造。List等人(2001)发现经济学家中有类似的造假率,他们还发现,接受调查的经济学家中有7-10%承认把研究生的工作归功于自己,或者给予不正当的合作作者身份。根据Fanelli(2009),高达72%的科学家被认为采用了可疑的研究实践(不一定是无条件的伪造)。John等人(2012)发现,心理学家中有很高比例的可疑研究实践。然而,然而,经济学和社会科学领域的伪造和伪造率可能低于医学和制药等相关研究。

自Dewald等人(1986)以来,作者提供数据变得越来越普遍(Hamermesh,2007)。然而,过失和错误的更正仍然不常见。即使错误被识别出来,它们也不会在公众视野中被显著地分享。独立可复现或错误更正没有显著增加,而且在经济期刊中也不常见。³可复现是一种公共物品,因此容易导致市场失灵。⁴

3.2.

糟糕的日子过去了吗?

实验设计是否增加了可信度?

Angrist和Pischke(2010)对当前的经验经济学持乐观态度。他们认为,向随机试验和准实验研究的转变改变了计量经济学;研究人员所要做的就是专注于更好的研究设计,这样可信度就增加了。他们的主要关注点是Leamer的评论(1983)。然而,Leamer注意到的问题只是问题的一部分。例如,尽管与观察数据相比,实验设计在本质上可以更好地避免许多混杂的偏见,但我们不知道有多少实验经济学文献受到出版物或其他选择性报告偏见的污染。Roth(1994)认为实验经济学容易受到数据选择和整合偏差的影响。

在其他学科的随机试验中,暗示可能存在选择性报告偏差的小研究效果仍然很常见(Dwan等,2008)。⁵同样,我们也不知道这些研究如何容易受到赢家诅咒⁶的影响,当通过相对较小的研究发现影响时,会放大效应大小(Ioannidis,2008)。

Maniadis等人(2012)认为实验经济学受到夸大的初始结果和误报的困扰。在计量经济学中,大多数随机和准实验研究的样本量往往不大。例如,在2012年“实验经济学”(Experimental Economics)第四期杂志上发表的所有研究中,样本量从67人到1175人不等,中位数为184人。因此,在这种动力不足的情况下,出版偏见和赢家诅咒可能是一个问题。即使是最大的观察到的影响也可能是虚假的,如医学科学所示(Pereira、Horwitz和Ioannidis,2012)。最后,实验性随机研究仍然只占少数。Hamermesh(2012)发现,在2011年,三家主要经济学期刊上8.2%的研究是实验性研究,而在1983年,⁷准实验性研究的比例为0.8%,并且那些使用工具变量的研究可能不如实验随机研究那样避免偏差。

3.3.

经济学中不同偏差的其他实证研究

经济学文献似乎有太多的结果证实了作者的期望(Fanelli,2010;2012)。选择性报告偏差累积产生了文献,其中有太多名义上意义重大的研究发现,这种情况可以通过过度显著性检验进行探讨(Ioannidis和Trikalinos,2007)。在经济学中报告支持检验假设的研究比例为88%,是所有科学中最高的一个(Fanelli,2010)。在控制了纯学科和应用学科之间以及检验一个或多个假设的论文之间的差异后,与空间科学相比,在经济学和商业领域的论文中,支持被检验假设的几率要高出5倍(Fanelli,2010)。

Frey⁸(2003)指责在经济科学领域出版等同于一种形式的“卖淫”。这个高度敏感的词是用来表示研究人员为了得到他们的作品而不得不妥协和服从审稿人和编辑的意愿的方式。同行评审的从众效应不仅适用于期刊文章的同行评审,也适用于项目资助水平(Nicholson and Ioannidis,2012)。在经济科学中,关于不同形式的同行评议的影响的实验研究很少,但在其他科学中有一种新兴的文献。9需要更充分地探索和发展在线出版和重塑评审过程,重点是出版后评审和开放的群众审稿人评审。

对研究理论和结果的解释和采用也会有问题。Rogeberg和Melberg(2011)对理性成瘾文献进行了评估,他们得出的结论是“即使在排名靠前的期刊上,也可以提出并接受荒谬和不合理的说法”(第29页)。还有一些证据表明,研究人员和感兴趣的政策使用者可能会挑选结果,只推广或宣传那些纳入他们议程的结果。这种传播偏见已经被记录在案,例如,在酒精营销和青少年饮酒领域(Nelson,2011)。

4

结论:悬而未决的问题和改进的可能性

尽管有上述经验证据,但未知仍然很多。经济学在不同领域的可信度如何?信誉是随着时间的流逝而上升还是下降?如何改善这个市场?公司和机构利益,期刊,资助机构和其他利益相关者的影响是什么?我们如何利用这一潜在影响来提高经济学的信誉?

但是,前进的方向似乎很清晰:加强可再现文化,强调独立可复现;进行样本量更大,更好的研究;促进协作而不是孤立的研究并减少偏见和冲突。可能实现这些改变的确切干预措施尚不清楚,也许还有进行不同潜在干预措施的实验研究的空间。除非修改进行和发表研究的奖励和奖励制度,否则很难取得进展。如果研究人员因发表重大成果并使理论和主张永久存在而获得奖励和晋升,即使他们错了,也几乎不可能取得进展。相反,如果鼓励可复现研究,提高可再现和/或惩罚不可再现,人们可能会期待更好的结果。

回答这些问题需要进行更多的元研究(即对研究的实证研究)。在其他科学学科中进行的实证研究可以在经济学中外推和进行。偏见的检验也可能适合经济学,并被领先的期刊所接受。当然,元研究也容易受到偏见和错误的影响。对于新兴的元研究工具,也需要评估偏差的程度和可能的错误。尽管如此,对于小规模研究效果和发表或选择性报道偏差的检验需要越来越多地应用、进一步开发和评估(Stanley和Doucouliagos,2012)。

Annotations

【1】科学实验的“可重现”(repeatability)主要指,实验者对自己或他人所做的原初实验的过程、方法和分析的“重复”;科学实验的“可再现”(reproducibility)主要指,原初实验者及其他实验者对原初实验结果的“重复”而非单纯细节的“重复”;科学实验的“可复现”(replicability)主要指,取样的有效性以及由此进行的显著性检验有效性基础上的“重复”。科学实验的“可重现”与“可再现”与实验的精确性或可靠性(可信性)有关,科学实验的“可复现”与实验的可靠性(可信性)以及普遍性有关。

——译者注

【2】有人可能会说,可复现所有的实证研究并不是最佳选择。此外,不可能知道尝试了多少次可复现,只能知道报告了多少次。但是,只有报道出来的那些对形成文献和科学界未来的努力有影响。

【3】在软件和数据归档方面出现了一场革命(Koenker和Zeileis,2009年)。尽管如此,Hamermesh(2007)发现,很少有科学家真正联系出版作者获取他们的数据,即使他们声明他们的数据是可用的。使数据可用不足以引起可复现。

【4】正如Dewald等人,注(1986年,第589页):“一个研究人员面临着可复现研究所需的高时间和金钱成本,并且没有现成的市场能够正确地为商品的社会价值和个人价值定价。”。

【5】Hertwig和Ortmann(2001)在回顾不同的实验实践时认为,经济学采用了一种比心理学更严格的方法,作为一种监管框架,使经济学结果相对更可信。

【6】在谈判中,赢家的诅咒是指马上被另外一方接受的提议。它意味着尽管提议被接受,但提议人却未得到最好的交易结果。

【7】变化最大的是使用自组装数据的论文,在这些期刊上发表的所有论文中,这一比例从1983年的2.4%上升到2011年的34%。与此同时,纯理论论文从57.6%下降到19.1%。

【8】有趣的是,Autor(2011)揭示了Frey已经多次发表了基本相同的论文。

【9】一个例外是Blank(1991),他比较了单盲评审和双盲评审,发现双盲评审有更多的批评评审报告和更低的接受率。

References

Angrist, J.D. and Pischke, J.-S. (2010) The credibility revolution in empirical economics: how better research design is taking the con out of econometrics. Journal of Economic Perspectives 24(2): 3–30.

Autor, D.H. (2011) Letter to Professor Bruno Frey. Journal of Economic Perspectives 25(3): 239–240.

Bailey, C.D., Hasselback, J.R. and Karcher, J.N. (2001) Research misconduct in accounting literature: a survey of the most prolific researchers’ actions and beliefs. Abacus 37(1): 26–54.

Blank, R.M. (1991) The effects of double-blind versus single-blind reviewing: experimental evidence from the American Economic Review. American Economic Review 81(5): 1041–1067.

Carrick-Hagenbarth, J. and Epstein, G.A. (2012) Dangerous interconnectedness: economists’ conflicts of interest, ideology and financial crisis. Cambridge Journal of Economics 36: 43–63.

Caudill, S.B. and Holcombe, R.G. (1999) Specification search and levels of significance in econometric models.Eastern Economic Journal 25: 289–300.

DeLong, J.B. and Lang, K. (1992) Are all economic hypotheses false? Journal of Political Economy 100:1257–1272.

Doucouliagos, H. and Stanley, T.D. (2013) Theory competition and selectivity: are all economic facts greatly exaggerated? Journal of Economic Surveys 27(2): 316–339.

Dewald, W.G., Thursby, J.G. and Anderson, R.G. (1986) Replication in empirical economics. The Journal of Money, Credit and Banking Project. American Economic Review 76: 587–603.

Dwan, K., Altman, D.G., Arnaiz, J.A., Bloom, J., Chan, A.W., Cronin, E., Decullier, E., Easterbrook, P.J., Von Elm, E., Gamble, C., Ghersi, D., Ioannidis, J.P., Simes, J. and Williamson, P.R. (2008) Systematic review of the empirical evidence of study publication bias and outcome reporting bias. PLoS One 3: e3081.

Enders, W. and Hoover, G.A. (2004) Whose line is it? Plagiarism in economics. Journal of Economic Literature 42(2): 487–493.

Evanschitzky, H., Baumgarth, C., Hubbard, R. and Armstrong, J.S. (2007) Replication research’s disturbing trend. Journal of Business Research 60: 411–415.

Evanschitzky, H. and Armstrong, J.S. (2010) Replications of forecasting research. International Journal of Forecasting 26: 4–8.

Fanelli, D. (2009) How many scientists fabricate and falsify research? A systematic review and meta-analysis of survey data. PLoS ONE 4(5): e5738.

Fanelli, D. (2010) ‘Positive’ results increase down the hierarchy of the sciences. PLoS ONE 5: e10068.

Fanelli, D. (2012) Negative results are disappearing from most disciplines and countries. Scientometrics 90:891–904.

Frey, B.S. (2003) Publishing as prostitution? Choosing between one’s own ideas and academic success. Public Choice 116: 205–223.

Hamermesh, D. (2007) Replication in Economics. IZA Discussion Paper No. 2760.

Hamermesh, D. (2012) Six decades of top economics publishing: who and how? National Bureau of Economic Research Working Paper Number 18635.

Hertwig, R. and Ortmann, A. (2001) Experimental practices in economics: a methodological challenge for psychologists? Behavioral and Brain Sciences 24: 383–451.

Hubbard, R. and Armstrong, J.S. (1994) Replication and extensions in marketing: rarely published but quite contrary. International Journal of Research in Marketing 11: 233–248.

Hubbard, R. and Vetter, D.E. (1992) The publication incidence of replications and critical commentary in economics. The American Economist 36(1): 29–34.

Ioannidis, J.P.A. (2005) Why most published research findings are false. PLoS Medicine 2: e124.

Ioannidis, J.P.A. (2008) Why most true discovered associations are inflated. Epidemiology 19: 640–648.

Ioannidis, J.P.A. (2011) An epidemic of false claims. Competition and conflicts of interest distort too many medical findings. Scientific American 304: 16.

Ioannidis, J.P.A. (2012a) Why science is not necessarily self-correcting. Perspectives on Psychological Science 7: 645–654.

Ioannidis, J.P.A. (2012b) Scientific inbreeding and same-team replication: type D personality as an example.Journal of Psychosomatic Research 73: 408–410.

Ioannidis, J.P.A. and Trikalinos, T.A. (2007) An exploratory test for an excess of significant findings. Clinical Trials 4: 245–253.

John, L.K., Loewenstein, G. and Prelec, D. (2012) Measuring the prevalence of questionable research practices with incentives for truth telling. Psychological Science 23: 524–532.

Koenker, R. and Zeileis, A. (2009) On reproducible econometric research. Journal of Applied Econometrics 24: 833–847.

Leamer, E.E. (1983) Let’s take the con out of econometrics. American Economic Review 73(1): 31–43.

Levy, D.M. and Peart, S.J. (2012) Tullock on motivated inquiry: expert-induced uncertainty disguised as risk.Public Choice 152: 163–180.

List, J.A., Bailey, C.D., Euzent, P.J. and Martin, T.L. (2001) Academic economists behaving badly? A survey of three areas of unethical behaviour. Economic Inquiry 39(1): 162–170.

Maniadis, Z., Tufano, F. and List, J.A. (2012) One swallow doesn’t make a summer: how economists (mis-)use experimental methods and their results. Available at: http://www./conferences/Crete2012/papers/papers%20more%20recent/Maniadis.pdf (last accessed 25 March 2013).

Nelson, J.P. (2011) Alcohol marketing, adolescent drinking and publication bias in longitudinal studies: a critical survey using meta-analysis. Journal of Economic Surveys 25(2): 191–232.

Nicholson, J.M. and Ioannidis, J.P. (2012) Research grants: conform and get funded. Nature 492: 34–36.

Oswald, A.J. (2007) An examination of the reliability of prestigious scholarly journals: evidence and implications for decision-makers. Economica 74: 21–31.

Pereira, T.V., Horwitz, R.I. and Ioannidis, J.P. (2012) Empirical evaluation of very large treatment effects of medical interventions. JAMA 308: 1676–1684.

Roth, A.E. (1994) Lets keep the con out of experimental econ.: a methodological note. Empirical Economics19: 279–289.

Stanley, T.D. and Doucouliagos, H. (2012) Meta-Regression Analysis in Economics and Business. Oxford:Routledge.

T¨odter, K.-H. (2009) Benford’s Law as an indicator of fraud in economics. German Economic Review 10(3):339–351.

Young, N.S., Ioannidis, J.P. and Al-Ubaydli, O. (2008) Why current publication practices distort science. PLoS Medicine 5: e201.

参考文献

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多