【原】最新: 史上经济金融学TOP刊上作者最多的文章诞生, 计量新概念“非标准误差”告诉你秘密

计量经济圈 2024-05-13 发布于浙江

展开全文

邮箱：econometrics666@sina.cn

讲了什么事情呢？

其实比较简单，与这个“太玄了! 数据和代码公布了, 但几十人用同样的数据和代码都得不到作者的结论！”有关联。

在统计学领域，样本是从某个数据生成过程（DGP）所代表的总体中抽取的一部分，而标准误差是用来衡量对总体参数估计的不确定性。在科学研究中，证据的产生则是通过一个证据生成过程（EGP）来完成的，这个过程用于验证假设。我们认为，不同研究者在EGP中的差异会引入额外的不确定性——即非标准误差（NSEs）。为了探究这一现象，我们组织了164个研究团队在相同的数据集上对同一假设进行测试。研究发现，尽管NSEs在不同研究者间存在显著差异，但它们在更具可重复性或获得更高评价的研究中相对较小。此外，增加同行评审环节可以有效降低NSEs。我们还发现，参与者普遍低估了这种不确定性的程度。通过这些发现，我们对科学实践中不确定性的来源有了更深入的理解，并且认识到在科学研究中引入同行评审环节的重要性，这不仅有助于提高研究的可靠性，也有助于减少研究结果中的不确定性。

简要介绍：

在Kahneman, Sibony和Sunstein（2021）的最新著作中，他们以“噪声”为话题，深入探讨了人类判断中存在的变异性。为了具体阐释他们的观点，作者选取了法官宣判的场景作为案例。在这一背景下，他们将判决结果中的总体变异性划分为两个基本要素：水平噪声和模式噪声（见第六章）。其中，水平噪声反映了某些法官相较于其他法官在判决时更为宽容的倾向；而模式噪声则揭示了同一名法官在处理相似案件时判决的波动性。在统计学的语境中，这种区分相当于法官之间的变异性与法官个案内部的变异性。法官之间的变异性，也被称作法官的固定效应变异。

这一现象与实证科学的研究过程颇为相似，研究者通过分析样本数据来验证假设。研究者内部的变异性源自于抽样误差，而通过重新采样（或自助法）得到的不同估计值的分布，其标准差被称为标准误差（SE），这一点Yule（1897）早已指出。标准误差作为研究者熟知的不确定性来源，在进行假设检验时通常会被纳入考量。

然而，研究者对于由于缺乏统一分析路径而引发的额外不确定性的认识尚显不足。在所谓的“分岔路径花园(garden of forking paths)”中，不同的研究者可能会基于各自的判断选择不同的路径。在某一路径下，可以明确定义出一个估计量及其标准误差。但在样本条件下，由于可能存在多种路径选择，不同研究者得到的估计值可能会有所差异。我们将这种额外的变异称为非标准误差（NSE）。需要注意的是，“非标准”这一形容词强调的是分析方法缺乏统一标准。换言之，如果所有研究者对选择某一路径达成共识，那么非标准误差将降至零。

下图概括了非标准误差（NSE）背后的主要思想。统计学家通常使用“数据生成过程”（DGP）来描述样本从总体中随机抽取的概念，因此在这一过程中产生的估计量会表现出标准误差（SE）。借用类似的术语，我们可以认为研究者同样参与了一个“证据生成过程”（EGP），在这一过程中，研究者可能会根据各自的判断选择不同的分析路径，从而导致估计量表现出非标准误差（NSE）。值得注意的是，这种误差应当被视为一种不规则变异，而非错误，因为在绝对意义上，并不存在着唯一的“正确路径”。

为了阐释这一概念，让我们通过一个例子来具体说明。在微观结构理论中，市场效率被定义为价格变动类似于随机漫步的程度。假设研究者对评估市场效率指标的变化趋势感兴趣。为了计算市场效率的年均变化，研究者需要做出一系列选择：如何量化市场效率、以何种时间间隔抽样数据、怎样界定异常值等。这些选择累积起来，便构成了我们所说的“分析路径”。

本研究旨在测量并分析非标准误差（NSE）。我们关注的核心问题包括：

在金融领域，非标准误差的程度有多大？
非标准误差是否在不同研究者间存在差异？特别是，由高水平团队撰写、结果可复制性更强、同行评审评分较高的论文是否展现出较小的非标准误差？
同行评审的反馈是否能够减少非标准误差？
研究者是否对非标准误差的大小有所了解？

提出这些问题的原因在于，非标准误差在某种程度上是不利的，因为它增加了结果的不确定性。当一些估计结果为正值而另一些为负值时，这种不确定性尤其令人担忧。因此，我们期望探究高质量研究是否与较小的非标准误差相关，以及同行评审的反馈是否有助于降低非标准误差。

从人力资源的角度来看，回答这四个问题需要付出巨大的成本。理想的实验设计需要两组具有代表性的研究者参与。第一组研究者将独立地在相同数据集上对同一假设进行测试，并撰写简短的论文以展示他们的发现。第二组研究者则对这些论文进行评审，并在单盲的流程中提供反馈。

我们在金融众包分析项目（#fincap）下开展了此类实验，共有164个研究团队（RTs）和34个同行评审者（PEs）参与，每位PE评审大约10篇论文。德国证券交易所（Deutsche Börse）慷慨提供了包含17年数据的专有信息，这些数据涵盖了欧洲最为活跃的交易工具之一——EuroStoxx 50指数期货。这项数据使研究者能够对几个关键的市场趋势进行预先定义的假设测试。这一独特的机会可能是参与度异常高涨的原因（至少是其他类似实验的两倍，我们在后续的介绍中将对此进行讨论）。粗略估计显示，#fincap项目所投入的总人力资源相当于一个完整的学术生涯。

在统计框架的构建上，我们对特定研究团队（RT）的假设所涉及的非标准误差（NSE）进行了定义，将其视为研究者之间估计值的四分位距（IQR）。之所以选择四分位距这一稳健的离散程度量度，而非标准差，是因为后者的分布可能存在厚尾现象，容易受到异常值的影响。这一点在#fincap项目中体现得尤为明显。不同研究者对估计值的分布，实际上反映了研究者固定效应（RFEs）的分布，即每位研究者根据自身偏好选择的分析路径。值得注意的是，RFEs的分布形态是不确定的，因此，采用稳健的离散程度量度是一个更为审慎的选择。
在#fincap项目的统计推断过程中，我们必须考虑到多重假设检验（MHT）的问题。具体而言，对于同一假设的多个团队测试，需要对单个测试的临界值进行调整。简而言之，如果单个测试以5%的显著性水平进行，那么在多次测试中至少有一个测试出现显著性（无论是强显著还是弱显著）的概率将会超过5%。Harvey、Liu和Zhu（2016）已经阐释了如何在资产定价测试中调整这一水平。Harvey（2017）在其担任会长的演讲中强调，MHT对金融领域的广泛影响。在#fincap项目中，我们遵循他们的方法，对MHT进行了应用。
最后，为了解答我们关注的四个问题，需要分析非标准误差（NSE）与质量指标之间的相关性，以及它们在不同阶段的变化情况。鉴于NSE是基于分位数来定义的，我们采用了分位数回归方法来进行这项分析。需要注意的是，普通的最小二乘（OLS）模型仅针对均值进行建模，因此并不适用于分析离散度。除了第一和第三四分位数之外，我们还对中位数、第一分位数和第九分位数进行了建模，以便更全面地观察分布情况，包括对分位数范围（IDR）的分析结果。

对文献的贡献。研究过程中的变异性问题并非新话题。Leamer（1983）曾对“从我们的计算中心泄漏的汽油”表示担忧，并呼吁更系统地研究“脆弱性”。

复现研究反映了Leamer的担忧，因为它们通常发现效应更弱，统计显著性更低（Ioannidis，2005；Open Science Collaboration，2015；Camerer等，2016，2018）。这可能是p值挑战的结果，即研究人员寻找显著结果的努力，直到不显著的结果变得显著。然而，我们提醒，糟糕的复现研究可能是需求驱动而非供给驱动的，尤其是当期刊更倾向于发表具有低p值的论文时。Munafò等（2017）调查了可信的经验科学面临的各种威胁，并提出了多种解决方案。

在金融学领域，关于可复现性的文献虽然年轻但发展迅速（McLean和Pontiff，2016；Hou，Xue和Zhang，2018；Linnainmaa和Roberts，2018；Chordia，Goyal和Saretto，2020；Harvey和Liu，2020；Ben-David，Franzoni和Moussawi，2021；Black等，2021；Chen，2021；Mitton，2022；Jensen，Kelly和Pedersen，2023；Pérignon等，2023）。这些复现研究并未专注于解释跨研究者估计的分散，或者同行评审反馈的影响。我们是首次以明确方式进行此类研究的实验者。我们的目标是研究估计的分散，并避免p值挑战可能引起的潜在偏见。在#fincap的设计中，研究人员无需面对p值挑战，因为完成项目所有阶段的参与者已确保获得共同作者身份。同样，为了保证深思熟虑的评审反馈，评审者（PEs）也得到了共同作者身份的承诺。

尽管我们是金融学中首个运行此类实验的团队，但在科学界并非首例。Silberzahn等（2018）通过让多个团队测试足球裁判是否更可能向肤色较深的球员出示红牌，开创了多分析师研究的先河。其他领域如神经科学（Botvinik-Nezer等，2020）、经济学（Huntington-Klein等，2021）以及社会学（Breznau等，2021；Schweinsberg等，2021）也有类似研究。与这些研究相比，我们的创新之处在于解释估计分散与质量属性的关系，增加了同行评审反馈阶段，并事先征求了分散信念。我们的研究还有一个优势，即研究团队（RT）的大样本量：N = 164，这是其他任何多分析师样本的两倍多。