分享

统计检验, P值, 置信区间与统计功效: 误解指南

 计量经济圈 2023-11-01 发布于浙江

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

1.如何在实证研究中操纵结果而不被发现?2.实锤! TOP刊上30%文章使用控制变量实现统计和经济显著性!3.常用的12种调变量显著性或调星星的方法,4.若系数回归结果不显著, 我们能够采取的方法和思路有哪些?

单刀直入,今天主要消除一些误解,介绍《统计检验、P值、置信区间与统计功效:误解指南

正文

关于下方文字,作者陈镜如里斯托大学经济学,通信邮箱:jingru.chen.2000@bristol.ac.uk

作者之前文章:2篇TOP5: 当前平行趋势检验方法有问题,新的平行趋势检验方法已经出现

Greenland et al. (2016). Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. European journal of epidemiology, 31(4), 337–350.

Misinterpretation and abuse of statistical tests, confidence intervals, and statistical power have been decried for decades, yet remain rampant. A key problem is that there are no interpretations of these concepts that are at once simple, intuitive, correct, and foolproof. Instead, correct use and interpretation of these statistics requires an attention to detail which seems to tax the patience of working scientists. This high cognitive demand has led to an epidemic of shortcut definitions and interpretations that are simply wrong, sometimes disastrously so—and yet these misinterpretations dominate much of the scientific literature. In light of this problem, we provide definitions and a discussion of basic statistics that are more general and critical than typically found in traditional introductory expositions. Our goal is to provide a resource for instructors, researchers, and consumers of statistics whose knowledge of statistical theory and technique may be limited but who wish to avoid and spot misinterpretations. We emphasize how violation of often unstated analysis protocols (such as selecting analyses for presentation based on the P values they produce) can lead to small P values even if the declared test hypothesis is correct, and can lead to large P values even if that hypothesis is incorrect. We then provide an explanatory list of 25 misinterpretations of P values, confidence intervals, and power. We conclude with guidelines for improving statistical interpretation and reporting.

统计检验、P值、置信区间与统计功效:误解指南
本文深入剖析了统计检验的常见误解和滥用问题。作者意在解答一直困扰科学界数十年的难题,即如何简单、直观、准确且可靠地解释这些概念。问题在于,统计检验、置信区间以及统计功效的误解和滥用情况依然盛行,且没有一种方法可以简洁明了、深入浅出、精确可靠地解释这些概念。实际上,正确理解和应用这些统计学方法需要对细节的深度了解,这对许多忙于研究的科学家来说,无疑是一项挑战。这种认知需求导致了大量错误的简化解释和定义的流行,有时甚至产生了灾难性的影响,然而,这些误解却在大多数科学文献中占据主导地位。为了解决这个问题,作者提供了一些比传统教科书中常见的更具概括性、更具批判性的基础统计学定义和讨论。他们的目标是为那些对统计理论和技术了解有限,但希望能避免和识别误解的教师、研究者和统计学使用者提供一个资源工具。
目录

一. 摘要

对统计检验、置信区间和统计功效的误解和滥用已经被严厉指责了数十年,但依然屡禁不止。一个关键问题在于,对这些概念的解释没有一种既简单、直观、准确又不会出错的。相反,正确使用和解释这些统计数据需要关注细节,这似乎超出了现在科学家的耐心范围。这种高认知需求导致了错误定义和解释的泛滥,有时这些误解会带来灾难性的结果——然而这些误解却主导了大部分科学文献。鉴于这个问题,本文提供了比传统入门级介绍中通常找到的更一般和更为批判性的基本统计定义和讨论。本文的目标是为教师、研究员以及统计数据的消费者提供一个资源,他们的统计理论和技巧可能有限,但希望避免并寻找误解。我们强调,如何违反经常未明示的分析协议(例如,根据P值选择要呈现的分析)可能会导致小的P值,即使声明的检验假设是正确的,也可能导致大的P值,即使该假设是不正确的。然后,我们提供了一个关于P值、置信区间和功效的25个误解的解释性清单。结论部分本文提出了统计解释和报告的指南。

二.引言

对统计检验的误解和滥用已经被谴责了几十年,然而这个问题仍然非常严重,以至于一些科学期刊不鼓励使用"统计显著性"(基于P值将结果分类为"显著"或"不显著")。甚至有期刊现在禁止所有的统计检验和数学相关程序,如置信区间,这引发了对这类禁令优点的大量讨论和争论。

尽管有这种禁令,但作者预期这些受争议的统计方法在未来多年里仍将伴随我们。因此,作者认为改善对这些方法的基础教学以及一般理解是非常必要的。为此,本文试图以比传统方式更通用和批判的方式解释显著性检验、置信区间和统计功效的含义,然后解释回顾25个常见的误解。本文还讨论了一些更微妙但同样普遍的问题,解释了为何重要的是检查和综合所有与科学问题相关的结果,而不是关注个别发现。本文进一步解释了为什么统计检验永远不应该构成关于关联性或效应的推断或决策的唯一输入。原因有很多,其中最重要的是,在大多数科学设置中,将结果任意地分为"显著"和"非显著"对于数据的有效解释是无必要的,而且常常会对其产生破坏;并且,对效应大小和周围的不确定性的估计将比任何这样的分类对于科学推断和明智的判断更为重要。
关于这些通用问题的更详细讨论可以在许多关于统计方法及其解释的文章、章节和书籍中找到。这些来源以及许多同行评审的文章详尽地覆盖了具体的问题,批评了对零假设检验和"统计显著性"的常见误解。

三.统计检验、P值和置信区间:一篇尖锐的初级教程——统计模型、假设和检验

每种统计推断方法都依赖于一个复杂的假设网络,涉及数据收集、分析以及分析结果选取展示的方式。这些假设集合被体现在支持该方法的统计模型中。该模型是对数据变异性的数学表示,理想情况下应准确地捕捉到所有这种变异性的源头。然而,由于这个统计模型通常包含不切实际或最多是不合理的假设,所以会出现许多问题。即使对于所谓的“非参数”方法也是如此,它们(和其他方法一样)依赖于随机抽样或随机化的假设。这些假设在数学上往往很容易简单地书写下来,但在实践中很难满足和验证,因为它们可能取决于成功完成一系列行动(例如识别、联系、取得同意、获得合作对象并跟踪受试者,以及遵守处理分配、遮蔽和数据分析的研究方案)。

还存在一个严重的问题,即如何界定模型的范围,使其不仅能很好地表示观察到的数据,还能表示可能观察到的假设替代数据。关于“可能观察到的数据”的参考框架通常不明确,例如,如果测量了多个结果指标或多个预测因素,并且在收集数据后进行了许多与分析选择相关的决策,这种情况经常发生。
理解和评估潜在假设的困难加剧了一个事实,即统计模型通常以高度压缩和抽象的形式呈现,如果呈现的话。结果,许多假设未被注意到,往往也被使用者和统计数据的使用者所忽视。尽管如此,所有的统计方法和解释都是以模型假设为前提的;也就是说,基于模型提供了对数据集中我们预期看到的变异性的有效表示,能忠实地反映研究背景和其中发生的现象。
在大多数统计检验应用中,模型中的一个假设是特定效应具有特定大小,并且已被定为统计分析的目标。为了简单起见,本文使用“效应”这个词,而实际上“关联或效应”可能更好地适用于非因果研究,比如大多数调查。这个目标假设被称为研究假设或检验假设,用于评估它的统计方法称为统计假设检验。通常情况下,目标效应大小是表示零效应的“空值”(例如,研究处理在平均结果上没有差异),此时检验假设被称为零假设。然而,也可以测试其他效应大小。本文还可以测试效应是否落在特定范围内的假设;例如,我们可以测试效应不大于特定数值的假设,这种情况下假设被称为单侧或分割假设。
许多统计教学和实践都过分关注了一项错误的观念,即研究的主要目的应该是测试零假设。事实上,大多数关于统计检验的描述只关注测试零假设,整个主题被称为“零假设显著性检验”(NHST)。这种对零假设的过度关注导致了对检验的误解。增加误解的是,许多作者(包括R.A. Fisher)使用“零假设”来指代任何检验假设,尽管这种用法与其他作者和普通英语对“零”的定义相矛盾,以及与“显著性”和“置信度”的统计用法相矛盾。

四.不确定性、概率和统计显著性

统计分析的一个更精确的目标是评估关于效应大小的确定性或不确定性。以“概率”形式表达这种确定性是很自然的。然而,在传统的统计方法中,“概率”并不指代假设,而是指代在假设的统计模型下,数据模式的假设频率。因此,这些方法被称为频率主义方法,它们预测的假设频率被称为“频率概率”。尽管接受了相当多的培训,但许多接受过统计学教育的科学家往往会错误地将这些频率概率解释为假设概率。(更令人困惑的是,统计学家将“参数值的似然性”这个术语用于指代给定参数值下观察到的数据的概率,而不是指代参数取给定值的概率。)
在应用中,这些问题最为严重的地方莫过于对一种名为P值的假设频率的运用,P值也被称为检验假设的“观察显著性水平”。基于这个概念的统计“显著性检验”已经成为统计分析的核心内容几个世纪了。传统定义中,P值和统计显著性的焦点是零假设,将计算P值所使用的其他所有假设都视为已知正确。然而,本文意识到这些其他假设通常是值得质疑的,如果不是没有充分依据的话。因此,本文将更通用地将P值视为对观察数据与如果知道整个统计模型(计算P值所使用的所有假设)是正确的,本文将预测或期望看到的结果之间的兼容性的统计总结。
具体而言,使用检验统计量(如t统计量或卡方统计量)来衡量数据与模型预测之间的距离。P值则表示,如果每个模型假设都是正确的,包括检验假设在内,所选择的检验统计量至少与观察值一样大的概率。这个定义包含了传统定义中所忽略的一个关键点:从逻辑的角度来看,P值测试了有关数据生成方式的所有假设(整个模型),而不仅仅是它应该测试的目标假设(如零假设)。此外,这些假设包括远远超出传统建模或概率假设范围的内容,它们还包括关于分析的执行的假设,例如中间分析结果没有被用来确定应该呈现哪些分析结果的假设。
的确,P值越小,如果每个假设都是正确的,数据就越不寻常;但是,非常小的P值并不能告诉我们哪个假设是不正确的。例如,P值可能非常小,是因为目标假设是错误的;但它可能(或者除此之外)也非常小,是因为违反了研究方案,或者是因为选择呈现时基于其小样本量。相反,较大的P值只能表明在模型下数据并不异常,但并不意味着模型或其中任何方面(如目标假设)是正确的;它可能(或者除此之外)也很大,是因为(同样)违反了研究方案,或者是因为选择呈现时基于其大样本量。
对P值的一般定义有助于理解为什么统计检验所提供的信息远远少于许多人所认为的:P值不仅不能告诉我们所针对的检验假设是否正确,而且除非我们可以完全确保进行计算的每个其他假设都是正确的,否则与该假设具体相关的信息都是无关的,而这种保证在过多的研究中是缺乏的。
尽管如此,P值可以被视为数据与用于计算它的整个模型之间的兼容性的连续度量,其范围从0表示完全不兼容,到1表示完全兼容,从这个意义上说,它可以被视为衡量模型对数据的拟合程度。然而,P值经常被简化为一个二分法,即如果P值在某个截断值(通常为0.05)以下,则结果被宣称为“具有统计显著性”,否则被宣称为“无显著性”。术语“显著水平”和“α水平”经常用来指代这个截断值;然而,“显著水平”的术语容易将截断值与P值本身混淆。它们之间的区别是深远的:截断值α应在先验设定中固定不变,因此是研究设计的一部分,不会因数据而改变。相反,P值是从数据中计算出的数值,因此是一个分析结果,在计算之前是未知的。

五.从检验转向估计

我们可以在保持其他假设不变的情况下改变检验假设,以查看在竞争的检验假设下P值的差异。通常,这些检验假设对目标效应指定不同的大小;例如,我们可以测试两个处理组之间平均差异为零(零假设),或者为20或-10或任何感兴趣的大小。其检验产生P = 1的效应大小是与数据最一致的大小(以预测实际观察到的结果为基础),前提是检验中使用的其他所有假设(统计模型)是正确的,并为在这些假设下提供了效应的点估计。检验产生P < 0.05的效应大小通常定义了一个范围(例如从11.0到19.5),这个范围与数据更一致(即观察结果更接近模型预测)的大小,超出这个范围的大小则不太一致 - 同样,如果统计模型是正确的话。这个范围对应于1 - 0.05 = 0.95或95%的置信区间,并为许多效应大小的假设检验结果提供了一种方便的总结方法。置信区间是区间估计的示例。
Neyman提议以这种方式构建置信区间,因为它们具有以下特性:如果在有效的应用中重复计算95%置信区间,平均而言,其中95%将包含(即包括或涵盖)真实的效应大小。因此,指定的置信水平被称为覆盖概率。正如Neyman反复强调的,这种覆盖概率是从有效模型计算得出的一系列置信区间的特性,而不是任何单个置信区间的特性。
许多期刊现在要求提供置信区间,但大多数教科书和研究仅讨论对于无效果的零假设的P值。这种对零假设的专注不仅导致对检验的误解和对估计的低估,而且也掩盖了P值和置信区间之间的密切关系,以及它们共同的缺点。

六.P值、置信区间和功效计算所不能告知内容

许多误解源于对P值及其相关内容(如置信区间)的基本误解。因此,基于参考文献中的文章,本文回顾了普遍存在的P值误解,以期朝着可被辩护的解释和展示方式迈进。本文采用Goodman 的格式,提供了一份误解列表,可用于对研究报告和综述提出的结论进行批判性评估。本文列表中加粗的每一个陈述都为科学文献的统计失真做出了贡献,对于不仅错误而且在实践中不“足够真实”的陈述,本文强调地加上了“不!”

七. 对单个P值的常见误解

1.P值是检验假设为真的概率;例如,如果对零假设进行的检验给出P = 0.01,则零假设只有1%的机会为真;如果P = 0.40,则零假设有40%的机会为真。不!P值假设检验假设为真,它不是一个假设概率,而且可能远离检验假设的任何合理概率。P值仅仅表示数据符合检验假设以及检验中使用的所有其他假设(底层的统计模型)的程度。因此,P = 0.01表示数据与统计模型(包括检验假设)预测的模式不太接近,而P = 0.40表示数据更接近模型的预测,考虑到随机变化的影响。
2.零假设的P值是仅凭机会产生观察到的关联的概率;例如,如果零假设的P值为0.08,则有8%的概率是仅凭机会产生了这种关联。不!这是对第一个谬误的常见变种,同样是错误的。声称仅凭机会产生了观察到的关联,在逻辑上等同于断言用于计算P值的每个假设都是正确的,包括零假设。因此,声称零P值是仅凭机会产生观察到的关联的概率是完全颠倒的:P值是在假设只有机会因素的情况下计算出的概率。常见的颠倒解释的荒谬之处可以通过思考P值是从一组假设(统计模型)中推导出的概率,而如何可能与这些假设的概率相关联来理解。
注:这个描述中经常省略了“alone”(变成“零假设的P值是仅凭机会产生观察到的关联的概率”),因此陈述更加模棱两可,但同样是错误的。
3.一个显著的检验结果(P ≤ 0.05)意味着检验假设是错误的或应该被拒绝。不!一个小的P值只是表明数据在所有用于计算它的假设(包括检验假设)都是正确的情况下是不寻常的;它可能很小是因为存在较大的随机误差或者因为违反了除检验假设以外的某些假设(例如,假设这个P值不是因为小于0.05才选择呈现)。P ≤0.05只意味着,与假设预测(例如,处理组之间没有差异)不一致的差异在仅有机会因素引起的情况下,可能出现的频率不超过5%(而不是违反检验假设或错误的假设)。
4.一个非显著的检验结果(P > 0.05)意味着检验假设是正确的或应该被接受。不!一个较大的P值只是表明如果计算P值时使用的所有假设(包括检验假设)都是正确的,则数据不寻常。相同的数据在许多其他假设下也不会是不寻常的。此外,即使检验假设是错误的,P值可能较大,因为由于较大的随机误差或其他错误的假设而被夸大(例如,假设这个P值不是因为大于0.05才选择呈现)。P[0.05只意味着,与假设预测(例如,处理组之间没有差异)不一致的差异,在仅有机会因素引起的情况下,可能有超过5%的频率出现。
5.一个较大的P值支持检验假设。不!事实上,任何小于1的P值都意味着检验假设不是与数据最一致的假设,因为任何其他具有较大P值的假设都与数据更一致。除非与较小的P值的假设相比,否则不能说P值支持检验假设。此外,较大的P值通常只表明数据无法区分许多竞争的假设(通过检查置信区间的范围即可立即看出)。例如,许多作者会错误地将对零假设进行的P = 0.70检验解释为没有效应的证据,而实际上它表明,即使在计算P值时所使用的假设下,零假设与数据是兼容的,但它不是与数据最兼容的假设 - 这个荣誉应该属于P = 1的假设。但即使P = 1,仍然会有许多其他与数据高度一致的假设,因此无论P值多大,都无法从中得出“无关联”的明确结论。
6.零假设的P值大于0.05意味着没有观察到效应,或者证明了不存在效应。不!观察到的零假设的P值大于0.05只意味着零假设是众多具有P值大于0.05的假设之一。因此,除非点估计(观察到的关联)完全等于零值,否则从P值大于0.05得出研究发现“无关联”或“无证据”效应是错误的。如果零P值小于1,则数据中必然存在某种关联,必须查看点估计以确定在所假设的模型下与数据最一致的效应大小。
7.统计显著性表明已检测到了具有科学或实质重要性的关系。不!特别是当研究规模较大时,非常微小的效应或较小的假设违反可能会导致对零假设进行统计显著性检验。再次强调,小的零P值只是表示数据在所有用于计算它的假设(包括零假设)都是正确的情况下是不寻常的;但数据不寻常的方式可能对临床兴趣无关。必须查看置信区间以确定相对于模型来说,哪些科学或其他实质性(例如,临床)重要的效应大小与数据相对一致。
8.缺乏统计显著性表明效应大小很小。不!特别是在研究规模较小时,即使效应很大,也可能因为“噪音”而无法通过统计检验检测到统计显著性。一个大的零P值只是表示数据在所有用于计算它的假设(包括检验假设)都是正确的情况下不是不寻常的;但是相同的数据在除零假设之外的许多其他模型和假设下也不是不寻常的。同样,必须查看置信区间以确定其中是否包含重要的效应大小。
9.P值是在检验假设为真的情况下数据出现的概率;例如,P = 0.05意味着在检验假设下,观察到的关联仅在5%的时间内出现。不!P值不仅涉及到我们所观察到的情况,还包括比我们观察到的情况更极端的观察结果(其中“极端性”以特定方式进行度量)。而且,P值是当所有用于计算它的假设都是正确的情况下,对于数据频率的描述。除了检验假设,这些假设还包括采样、处理分配、损失和缺失的随机性,以及假设P值不是基于其大小或结果的其他方面而选择用于展示。
10.如果你因为P≤0.05而拒绝了检验假设,那么你犯错误的机会(你的“显著发现”是一个假阳性)是5%。不!为了理解为什么这种说法是错误的,假设检验假设实际上是真的。那么,如果你拒绝它,你犯错误的机会是100%,而不是5%。5%只是指当检验假设和所有其他用于检验的假设都为真时,在不同研究中多次使用该检验时,你拒绝它并因此犯错误的频率。它并不适用于你对该检验的单次使用,这可能会受到假设违反和随机误差的影响。这是另一种对误解#1的解释。
11.P = 0.05和P≤0.05意味着相同的事情。不!这就像说“报告的身高=2米”和“报告的身高小于2米”是相同的事情:“身高=2米”只包括很少的人,而且这些人被认为身材高大,而“身高小于2米”则包括大多数人,包括小孩子。同样,P = 0.05在统计显著性方面被认为是一个边际结果,而P£0.05将边际结果与与模型非常不一致的结果(例如,P = 0.0001)混在一起,因此使其含义模糊不清,没有好处。
12.P值应该以不等式的形式报告(例如,当P = 0.015时报告“P < 0.02”,当P = 0.06或P = 0.70时报告“P > 0.05”)。不!这是一种不好的做法,因为它使得读者难以准确解释统计结果。只有当P值非常小(例如,小于0.001)时,不等式才具有合理性:当用于计算P值的假设无法以足够的确定性知晓时,非常小的P值之间几乎没有实际差异,而且大多数计算P值的方法在某一点以下的数值精度上并不准确。
13.统计显著性是研究的现象的属性,因此统计检验可以检测显著性。不!当研究人员声明他们是否发现了“统计上显著的效应”时,这种误解就会被推广。被测试的效应要么存在,要么不存在。“统计显著性”是对P值(它是否低于所选的临界值)的二元描述,因此它
是统计检验结果的属性;它不是被研究的效应或总体的属性。           
14.应该总是使用双侧P值。不!双侧P值的设计是用来测试假设,即目标效应度量等于特定值(例如零),既不高于该值也不低于该值。然而,当科学或实际上感兴趣的测试假设是单侧(分割)假设时,应使用单侧P值。例如,考虑这样一个实际问题,即新药是否至少与标准药物相同,能够延长生存时间。这个问题是单侧的,因此测试这个假设需要使用单侧P值。尽管如此,由于双侧P值通常是默认选择,因此在使用单侧P值时需要注意何时以及为什么使用。
还有其他对P值的解释存在争议,因为是否有必要给予这些术语以及与统计学哲学和精确含义相关的争议性主张取决于个人对统计学的观点。如果希望避免这种争议,就应该承认这些争议性主张。
例如,有人认为P值夸大了对测试假设的证据,基于将P值与贝叶斯分析中作为证据度量的似然比和贝叶斯因子进行直接比较。尽管如此,许多其他统计学家不接受这些量作为黄金标准,而是指出P值总结了用于衡量基于统计测试的决策错误率的关键证据(尽管它们远不能足够支持这些决策)。因此,从频率学的角度来看,P值并不夸大证据,甚至可以被认为是衡量证据的一方面,而1-P则衡量了相对于用于计算P值的模型的证据。另请参见Murtaugh 及其相关讨论。 

八.对P值比较和预测的常见误解

通过统计测试产生的科学文献中一些最严重的扭曲包括对来自不同研究或研究子群体的结果进行错误比较和综合。其中最严重的误解包括: 
15.当相同的假设在不同研究中进行测试,而没有或只有少数测试具有统计显著性(所有的P值> 0.05)时,总体证据支持该假设。不!这种观点经常被用来声称某个文献支持没有效应的观点,而实际情况恰恰相反。这反映了研究人员“高估了大多数研究的统计功效”。实际上,每个研究都可能未达到统计显著性,然而当它们结合起来时,可能会显示出统计显著的关联和有说服力的效应证据。例如,假设有五个研究,每个研究的P值都是0.10,没有一个在0.05水平上显著;但当使用Fisher公式将这些P值结合起来时,总体的P值将为0.01。有许多真实的例子表明,即使只有少数研究或甚至没有一项研究报告了“统计显著”的关联,仍然存在有力的证据支持重要效应。因此,不应将单个研究的统计显著性缺失解释为整体证据支持无效应的观点。
16.当相同的假设在两个不同的人群中进行测试,而得到的P值位于0.05的两侧时,结果是相互矛盾的。不!统计检验对许多与研究人群之间的差异有敏感性,而这些差异与他们的结果是否一致无关,例如每个人群中比较的样本大小。因此,两个研究可能针对相同的检验假设提供非常不同的P值,但结果完全一致(例如,可能显示相同的观察到的关联)。例如,假设有两个随机试验A和B,针对一种处理方法,除了试验A的均值差异的已知标准误差为2,而试验B的差异的已知标准误差为1。如果两个试验都观察到了处理组之间的3的差异,通常的正态检验会在A中产生P = 0.13,但在B中产生P = 0.003。尽管它们的P值不同,但对于跨研究的效应差异的检验会得到P = 1,反映了观察到的均值差异在研究中的完全一致性。结果之间的差异必须通过直接评估,例如通过估计和检验这些差异来产生置信区间和P值进行比较(通常称为异质性、交互作用或修正的分析)。
17.当相同的假设在两个不同的人群中进行测试,并且得到相同的P值时,结果是一致的。不!同样地,检验对于人群之间的许多差异是敏感的,这些差异与结果是否一致无关。即使两个不同的研究在测试相同的假设时可能呈现相同的P值,但观察到的关联可能明显不同。例如,假设随机试验A观察到处理组之间的均值差异为3.00,标准误差为1.00,而B观察到的均值差异为12.00,标准误差为4.00。然后,标准正态检验将在两者中都产生P = 0.003;然而,在跨研究的效应差异的假设检验中,得到P = 0.03,反映了均值差异(12.00-3.00=9.00)的巨大差异。 
18.如果观察到一个小的P值,那么下一项研究产生的P值至少有很大的可能性也很小,以支持相同的假设。不!即使在理想条件下,两个研究相互独立且所有假设包括测试假设在内的所有假设在两个研究中都是正确的,这个说法也是错误的。在这种情况下,例如观察到P = 0.03,新研究显示P < 0.03的可能性只有3%;因此,新研究显示P值与观察到的P值相同或更小(“复现概率”)的可能性恰好等于观察到的P值!另一方面,如果小的P值仅仅是因为真实效应与其观察到的估计值完全相等,那么重复设计的实验有50%的机会产生较大的P值。
总的来说,新的P值的大小极其敏感于研究规模以及新研究中测试假设或其他假设违反的程度;特别是,根据研究和违反的程度,P值可能非常小或非常大。
最后,虽然这样做是错误的,但有时会看到将零假设与另一个(备择)假设进行比较,零假设使用双边P值,备择假设使用单边P值。这种比较对零假设有偏见,因为双边检验只有一边检验错误地拒绝零假设的一半的频率(同样,在进行检验时的所有假设下)。

九.常见对置信区间的误解

上述大部分误解同样适用于对置信区间的误解。例如,关于P < 0.05的另一个误解是它意味着测试假设只有5%的概率是错误的,在置信区间方面则成为了常见的谬误:
19.一项研究呈现的具体95%置信区间有95%的概率包含真实效应大小。不!报告的置信区间是两个数值之间的范围。如果真实效应在区间内,观察到的区间(例如0.72-2.88)的包含真实效应的频率要么是100%,要么是0%;95%只是指如果所有用于计算区间的假设都是正确的,非常多的研究计算的95%置信区间将包含真实大小的频率。可以计算出一个被解释为有95%概率包含真实值的区间;然而,这种计算不仅需要用于计算置信区间的假设,还需要对模型中效应大小的进一步假设。这些进一步的假设在所谓的先验分布中总结,并且由此得到的区间通常被称为贝叶斯后验(或可信)区间,以区别于置信区间。
20.在95%置信区间之外的效应大小已被数据证伪(或排除)。不!与P值一样,置信区间是从许多假设计算得出的,这些假设的违反可能导致结果。因此,需要将数据与假设以及任意的95%标准结合起来,才能声明置信区间之外的效应大小在某种程度上与观测结果不相容。即使这样,像效应大小已被证伪或排除的判断也需要更强的条件。
与P值类似,对置信区间的朴素比较可能会引起严重的误导:
在95%置信区间之外的效应大小已被数据证伪(或排除)。不!与P值一样,置信区间是从许多假设计算得出的,这些假设的违反可能导致结果。因此,需要将数据与假设以及任意的95%标准结合起来,才能声明置信区间之外的效应大小在某种程度上与观测结果不相容。即使这样,像效应大小已被证伪或排除的判断也需要更强的条件。
与P值类似,对置信区间的朴素比较可能会引起严重的误导:
21.如果两个置信区间重叠,两个估计或研究之间的差异是不显著的。不!两个子群或研究的95%置信区间可能会有很大的重叠,然而,它们之间的差异检验可能仍然会产生P < 0.05的结果。例如,假设两个具有已知方差的正态总体均值的95%置信区间分别为(1.04,4.96)和(4.16,19.84);这些区间存在重叠,但是对于跨研究中效应无差异的假设的检验结果为P = 0.03。与P值类似,比较不同组之间的差异需要直接检验和估计组间差异的统计量。
然而,可以注意到,如果两个95%置信区间不重叠,那么在使用计算置信区间所使用的相同假设的情况下,将发现差异的P < 0.05;如果其中一个95%置信区间包含另一个组或研究的点估计值,将发现差异的P > 0.05。
最后,与P值一样,置信区间的复制特性通常被误解:
22.观察到的95%置信区间预测未来研究中的95%估计将落在观察到的区间内。不!这个说法在几个方面是错误的。最重要的是,在该模型下,95%是其他未观察到的区间包含真实效应的频率,并不是当前呈现的区间将包含未来估计的频率。实际上,即使在理想条件下,未来估计值落在当前区间内的机会通常要远低于95%。例如,如果对同一数量进行两个独立研究,提供了具有相同标准误差的无偏正态点估计,那么第一项研究的95%置信区间包含第二项的点估计的机会是83%(这是两个估计值之间差异小于1.96个标准误差的机会)。再次强调,观察到的区间要么包含真实效应,要么不包含;95%只是指在所有用于计算区间的假设正确的情况下,非常多研究计算的95%置信区间将包含真实效应的频率。
23.如果一个95%置信区间包含零值,而另一个不包含,不包含零值的区间更精确。不!当模型正确时,统计估计的精确性是通过置信区间的宽度直接测量的(以适当的尺度测量)。这与是否包含或排除零值或任何其他值无关。考虑两个均值差异的95%置信区间,一个界限为5和40,另一个界限为-5和10。第一个区间排除了零值,但宽度为30个单位。第二个区间包含零值,但宽度减半,因此更精确。   
除了上述的误解之外,95%置信区间对读者施加了0.05水平的截断,将所有P值小于0.05的效应大小混在一起,因此在这方面与将P值呈现为二分法一样糟糕。然而,许多作者认为置信区间优于检验和P值,因为它们使得关注点从零假设转移到与数据相容的效应大小的全部范围——这是许多作者和越来越多期刊推荐的转变。另一种引起对非零假设的关注的方式是提供其P值;例如,可以为那些被公认为与零假设存在科学合理替代方案的效应大小提供或要求P值。
与P值一样,需要进一步的警示来避免将置信区间误解为提供确切答案,尤其在没有确凿证据时。声称点估计是正确效应的假设将具有最大的P值(在大多数情况下为P = 1),在置信区间内的假设将具有比置信区间外的假设更高的P值。然而,在置信区间内,假设的P值会有很大的变化,而在置信区间外的假设之间也会有很大的变化。此外,即使一个假设在区间内,另一个假设在区间外,它们的P值几乎相等。因此,如果使用P值来衡量假设与数据的相容性,并希望通过这个度量来比较假设,我们需要直接检查它们的P值,而不仅仅问这些假设是否在区间内或区间外。当(通常)受到审查的假设之一是零假设时,这种需求尤为迫切。

十.常见对功效的误解

检验的功效是指能够检测到正确的替代假设的能力,它是研究前的概率,即检验会拒绝检验假设的概率(例如,P值不超过预先确定的截断值,如0.05的概率)。(相应的,在替代假设正确时,未能拒绝检验假设的概率是1减去功效,也被称为第二类或β错误率)[84]。与P值和置信区间一样,这个概率是在相同研究设计的重复中定义的,因此是一个频率概率。合理的替代假设来源于用于计算研究提案中的功效的效应大小。然而,预先研究的功效计算不衡量这些替代假设与实际观察到的数据的相容性,而从观察到的数据计算的功效是零假设P值的直接(虽然晦涩)转换,因此不提供替代假设的检验。因此,提供功效并不能取代提供区间估计和对替代假设的直接检验的需要。
出于这些原因,许多作者批评使用功效来解释估计和统计检验[42, 92–97],认为功效(与置信区间相比)分散了对假设的直接比较的注意力,并引入了新的误解,例如:
24.如果你接受零假设,因为零假设的P值大于0.05,并且你的检验的功效为90%,你犯错误的机会(假阴性的机会)是10%。不!如果零假设为假,并且你接受了它,你犯错误的机会是100%,而不是10%。相反,如果零假设为真,并且你接受了它,你犯错误的机会是0%。这个10%只是指当计算功效的特定替代假设正确,并且检验中使用的所有其他假设在所有研究中都正确时,你在很多不同研究中使用该检验时会犯错误的频率。它并不指你单次使用该检验的错误率,也不指除计算功效时使用的效应大小之外的任何替代效应大小下的错误率。
将两个假设的结果进行比较时,通过为其中一个假设提供测试或P值,为另一个假设提供功效,可能会导致误导。例如,通过检验零假设是否满足P值小于0.05的条件,并为替代假设提供小于1-0.05 = 0.95的功效(常规做法)会使比较偏向于零假设,因为它对于错误地拒绝零假设的概率(0.05)要低于在替代假设正确时错误地接受零假设的概率。因此,关于相对支持或证据的论断需要基于对两个假设的直接和可比较的支持或证据度量,否则会出现以下错误:
25.如果零假设的P值超过0.05,并且该检验在替代假设下的功效为90%,那么结果支持零假设而不是替代假设。这种论断在许多人看来似乎很直观,但可以很容易地构造出反例,其中零假设的P值介于0.05和0.10之间,然而还存在一些替代假设,其自身的P值超过0.10,并且功效为0.90。对于其他接受的相容性、证据和支持的度量,也存在类似的结果,这表明尽管零假设的P值在0.05的显著性水平下“不显著”,对于与替代假设相比,数据显示与零假设的相容性较低,反对零假设的证据更多,尽管对替代假设的功效非常高。
尽管功效在解释当前数据方面存在缺点,但在研究设计和理解为什么即使在理想条件下“统计显著性”的复制通常会失败方面仍然有用。研究通常被设计或声称对关键替代假设具有80%的功效,在使用0.05的显著性水平时,尽管在执行过程中由于意外问题(如受试者招募不足)可能导致功效较低。因此,如果替代假设是正确的,并且两个研究的实际功效都是80%,那么这两个研究都显示P值小于0.05的概率最多只有0.80 * 0.80 = 64%;此外,其中一个研究显示P值小于0.05而另一个研究没有(因此将被错误地解释为显示冲突结果)的概率为2 * (0.80) * (0.20) = 32%,约为3分之1的机会。
类似的计算考虑了典型问题后表明,即使没有出版或报告偏倚,由于当前的设计和测试惯例将单个研究结果视为“显著”/“非显著”或“拒绝”/“接受”的二分输出,也可能会出现“复制危机”。

十一.统计模型远不止带有希腊字母的方程

以上列表可以通过回顾研究文献来扩展。然而,现在将直接讨论一个近来受到更多关注的问题,但在统计教学和报告中仍然被广泛忽视或解释过于狭隘:所使用的统计模型是正确的。
往往,完整的统计模型被视为一个简单的回归或结构方程,其中效应由希腊字母表示的参数来表示。然后,“模型检验”仅限于对模型的拟合进行测试或对模型进行额外项的测试。然而,这些拟合测试本身对进一步的假设进行了进一步的假设,并应视为完整模型的一部分。例如,所有常见的测试和置信区间都依赖于观测或处理的随机选择以及在受控协变量水平内的随机丢失或缺失的假设。通过敏感性和偏倚分析,这些假设逐渐受到审查,但这些方法仍远离大多数研究人员所接受的基本统计培训。
更少提到的是更为关键的假设,即分析本身没有被引导以找到非显著性或显著性(分析偏倚),并且分析结果没有基于它们的非显著性或显著性进行报告(报告偏倚和出版偏倚)。选择性报告甚至使统计显著性、P值和置信区间的有限理想含义变得虚假。由于作者决定报告和编辑决定发表结果往往取决于P值是否高于或低于0.05,选择性报告已被确定为科学文献的一个主要问题。尽管这个选择问题也经过了敏感性分析的检验,但在研究报告和出版偏倚方面存在一种偏见:通常假设这些偏倚有利于显著性。当研究人员在P值小于0.05时选择结果进行展示时,这种假设当然是正确的,这种做法往往夸大了相关性。尽管如此,有利于报告P值小于0.05并不总是合理的,更不用说有证据或常识支持了。例如,我们可能期望在由那些对零假设接受具有利益的人资助的出版物中选择P小于0.05的结果(这种做法往往会低估相关性);与此预期一致,一些实证研究观察到在此类出版物中更频繁地出现较小的估计值和“非显著性”,而不是其他研究。
解决这些问题需要比解决统计误解问题更多的政治意愿和努力,例如强制注册试验,并要求所有完成的研究提供开放数据和分析代码(如AllTrials倡议,http://www./)。与此同时,建议读者在解释研究报告中提供的统计数据和结论时考虑研究报告产生和出现的整体背景。

十二.结论

一旦意识到统计检验通常被错误地解释,人们可能会想知道这些检验对科学有什么作用,如果有的话。它们最初的目的是将随机变异作为误差的一种来源,因此对观察到的相关性不要过度解释,不要将其视为真实效应或对零假设的更强证据。但很快,这种用途被颠倒过来,以“未达到”或“未实现”统计显著性的方式提供对零假设的虚假支持。
我们毫不怀疑,现代统计检验的创始人对其常见的处理方式会感到震惊。在他们描述二元统计检验方法的第一篇论文中,Neyman和Pearson 写道,“是否真的知道(P值)实际上是0.03(或0.06),而不是0.05…是否会改变我们的判断,这是值得怀疑的。”他们还写道,“这些检验本身并不能给出最终的判断,但作为工具,有助于使用它们的人做出最终的决策。”Pearson 后来补充说,“毫无疑问,我们更恰当地可以说'最终或临时决策’。” Fisher 更进一步地说,“没有科学工作者会在每年、在所有情况下都有一个固定的显著性水平,以拒绝假设;相反,他根据证据和自己的想法来思考每个特定案例。”然而,虚假和仪式化的检验使用继续传播,包括认为P值是发现的普遍裁决者,无论是高于还是低于0.05。因此,到1965年,Hill 悲叹地指出,“我们往往削弱了解释数据和做出合理决策的能力,不管P值的大小。而且我们太过频繁地从'没有显著差异’中推断'没有差异’。”
作为回应,有人认为在严格控制的实验中,某些误解对于对已充分理解的系统进行研究的狭窄范畴是无害的,其中测试假设可能得到来自已建立理论(例如孟德尔遗传学)的特殊支持,并且每个其他假设(例如随机分配)都是通过精心设计和执行研究来保持的。但是长期以来一直声称,在更难以控制和模糊的研究环境中(例如社会科学、健康和医学领域),统计测试的危害远远超过了其益处,导致呼吁禁止在研究报告中使用此类测试 - 有一个期刊禁止了P值以及置信区间。
然而,鉴于统计测试的深入根深蒂固,并且没有普遍认可的替代方法,人们已经进行了许多尝试,试图将P值从其在显著性测试中的使用中解脱出来。一种方法是将P值视为连续的兼容性度量,如前所述。尽管这种方法也有其局限性(如第1、2、5、9、15、18、19点所述),但它避免了将P值与0.05等任意截断值进行比较(如第3、4、6-8、10-13、15、16、21和23-25点所述)。另一种方法是教授和使用P值与假设概率的正确关系。例如,在常见的统计模型下,单侧P值可以提供有关效应方向的假设概率的下限。这种重新解释是否能够最终取代常见的误解而产生良好效果,还有待观察
从假设检验转向估计的重点转变被推广为一种简单而相对安全的改进实践的方法,导致置信区间的使用增加,并引起了编辑对其的要求;然而,这种转变也凸显了上述19-23条中关于区间的误解。其他方法将对零假设的检验与涉及零假设和备择假设的进一步计算相结合;然而,此类计算可能会带来类似于上述关于功效的误解以及更复杂的问题。
与此同时,为了最小化当前实践的危害,我们可以为统计数据的使用者和读者提供一些准则,并再次强调在误解清单中提到的一些关键警告:
(a) 正确和谨慎解释统计测试需要考察效应估计和置信限的大小,以及精确的P值(不仅仅是P值是否高于或低于0.05或其他阈值)。
(b) 谨慎解释还需要对用于统计分析的假设和约定进行批判性检查,不仅仅是通常的统计假设,还包括关于结果如何生成和选择进行呈现的隐藏假设。
(c) 宣称统计非显著结果支持一个测试假设是错误的,因为相同的结果可能更与其他假设相符,即使对于那些备择假设,测试的功效很高。
(d) 区间估计有助于评估数据是否能够区分不同效应大小的假设,或者统计结果是否被误导为支持一个假设,而事实上这些结果更容易被其他假设解释(参见第4-6点)。然而,提醒区间估计通常只是这些任务的第一步。要根据数据和统计模型比较假设,可能需要计算每个假设的P值(或相对似然性)。进一步提醒,区间估计仅提供了数据留下的不确定性或模糊性的最佳度量,因为它们依赖于一个不确定的统计模型。
(e) 正确的多个研究的统计评估需要进行合并分析或荟萃分析,以正确处理研究偏倚。然而,即使这样做了,所有先前的注意事项仍然适用。此外,在检查证据的整体时,任何统计过程的结果只是许多考虑因素之一。特别是,统计显著性对于确定一组观察结果的科学或实际意义既非必要也不充分。这一观点得到了美国最高法院的一致肯定,并可以从之前本文引用的Neyman和Pearson的话语中看出。
(f) 关于一个假设的概率、可能性、确定性或类似性质的任何观点不能仅仅从统计方法中得出。特别是,显著性检验和置信区间本身并不能提供确定或给定概率下存在或不存在效应的逻辑上可靠的基础。每当看到一个以概率、可能性或确定性陈述的结论时,应牢记这一点。除了分析数据和传统统计模型中包含的关于假设的信息(仅提供数据概率)外,还必须使用关于假设的其他信息才能得出这样的结论;那些提出结论的人应明确承认并描述这些信息。贝叶斯统计学提供了试图将所需信息直接纳入统计模型中的方法;然而,由于哲学上的异议和缺乏使用的约定,它们并没有像P值和置信区间那样流行起来。
(g) 所有的统计方法(无论是频率派还是贝叶斯派,无论是用于检验还是估计,无论是推断还是决策)都对导致呈现的结果的事件序列做出了广泛的假设,不仅仅是数据生成方面,在分析选择方面也有。因此,为了允许进行批判性评估,研究报告(包括荟萃分析)应详细描述导致呈现的统计数据的完整事件序列,包括研究的动机、设计、原始分析计划、用于包括和排除对象(或研究)和数据的标准,以及对进行的所有分析的全面描述.。

总结一下,我们要注意没有一种统计方法能完全免受错误解释和误用的影响,但对统计方法持谨慎态度的使用者将避免使用容易被严重滥用的方法。在这方面,我们与其他人一起将P值被简化为“显著”和“非显著”视为一种特别有害的统计做法。

相关主题,参看:1.实证研究中的P值: 误解, 操纵及改进, 探析P值操纵表现及原因,提出相应的改进策略,2.AER强调计量方法的重要性, 经济学因果分析中的p值操纵和发表偏倚!3.DID和IV操纵空间大吗? 一切皆为P-hacking,4.控制变量就能影响结果显著性, 所以存在很大操作空间, 调参数是常用手段吗?5.显著不显著的后背是什么, 非(半)参估计里解决内生性,6.科学家倡议P值需要0.005,显著性判断才成立,7.X与Y负相关但回归系数却为正? OLS不显著但2SLS却显著?8.统计上不显著的变量表明该变量对结果变量没有影响吗?9.IV与Y在理论上无直接关系, 但用Y对IV做回归发现IV是显著的, 这是咋回事?10.继JDE之后, 又一期刊重磅宣告"不显著的结果仍可以发表" 11.前沿, 终于有人解释为什么顶刊上很少有不显著的结果发表! 背后机理?12.回归中常数项显著说明模型中有遗漏变量问题?13.关于模型中变量选择的五个误区, 譬如不显著的变量需要剔除还是保留?14.为什么回归系数不显著? 15.添加一个新变量能使以前不显著的变量变得显著了?16.核心解释变量A不显著, 但加入变量B后, 为什么A和B都显著了?17.结果不显著但成功发在Top期刊上的论文有哪些?你心虚过没?18.交互效应显著的几种情况, 列出了6种类型,19.试了几百次, 回归结果依然不显著, 到底咋办,20.AER强调计量方法的重要性, 经济学因果分析中的p值操纵和发表偏倚!21.800名科学家联合呼吁, 停止使用统计学上的P值,22.美国统计学会关于p值的声明,23.美国宣布禁用p值,原来p值很危险,如何取代p值?

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

5年,计量经济圈近1500篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 官员方言  | 微观数据 | 内部数据
计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID
数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验
计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多