显著性水平究竟是何方神圣？

liyu_sun 2021-04-23

展开全文

用数据来证明意味着什么？

如果你作为一所重点大学的院长，收到一份令人担忧的报告，显示学生每晚平均睡眠时间6.80小时，而全国大学生的平均睡眠时间为7.02小时。学生会主席担心学生的健康，并指出这项研究证明家庭作业必须减少。另一方面，大学校长则认为这项研究是无稽之谈: “在我那个年代，每晚只睡四个小时，并认为自己很幸运。” 你必须决定这是否是一个严重的问题。幸运的是，你非常精通统计学，并最终看到了一个将你的教育用于实践的机会！

统计显著性是经常听到但可能没有真正理解的术语之一。当有人声称数据证明了他的观点，我们点头并接受它时，其实已经假设统计学家做了复杂的操作，产生了不容置疑的结果。事实上，统计显著性并不是一个需要多年研究才能掌握的复杂现象，而是一个每个人都能够实现而且应该理解的简单概念。与大多数技术概念一样，统计显著性建立在几个简单的概念之上: 假设检验、正态分布和p 值。本文将简要介绍这些概念(并提供进一步的资源)，以解决上述难题。

. . .

我们要讨论的第一个问题是假设检验，一种利用数据评估理论的技术。“假设”是指研究者对研究前情境的最初猜想。这个最初的理论被称为备择假设，而相反的理论被称为零假设。

在我们的例子中，理解为：

·备择假设：本大学学生的平均睡眠时间低于全国大学生的平均睡眠时间

·零假设：本大学学生的平均睡眠时间不低于全国大学生的平均睡眠时间

假设检验是统计学的基础之一，用来评估大多数研究的结果。这可以使任何研究，从评估药物有效性的医学试验到评估运动计划的观察性研究。所有的研究都有一个共同点，那就是都关注于比较，无论是在两个群体之间，还是在一个群体和整个人口之间。在医学试验的例子中，可能会比较服用两种不同药物的平均恢复时间，或者在以上睡眠问题中，想比较本校学生和全国所有学生的睡眠。

假设检验的检验部分使我们能够确定哪种假设，零假设或备择假设，能得到证据更好地支持。在许多假设检验中，会使用一个称为 z-检验的方法。但是，在开始测试数据之前，需要讨论两个更重要的想法。

. . .

了解统计学显著性的第二个问题是正态分布，也称为高斯或钟形曲线。正态分布是用来表示数据是如何分布的，用均值μ(mu)和标准差σ(sigma)来定义。均值表示数据中心的位置，标准差表示数据的离散程度。

正态分布的应用来自于对数据点标准差的评估。可以根据一个数据点与均值的偏差来确定它的异常程度。

正态分布具有以下性质:

68%的数据与均值的偏差在± 1个标准差之内
95%的数据与均值的偏差在± 2个标准差之内
99.7%的数据与均值的偏差在± 3个标准差之内

如果某个统计量服从正态分布，则可以用均值和标准差来刻画任何一个点。例如，美国女性的平均身高是65英寸(5英尺5英寸) ，标准差是4英寸。那么如果遇到一个女性，她身高73英寸，我们可以说她比均值高两个标准差，是女性中最高的2.5%。(2.5%的女性矮于μ-2σ (57英寸)，2.5%的女性高于μ+2σ)。

在统计学中，通常使用z值取代n个标准差的说法来进行评估，z值表示一个点与均值的偏差的标准差数量。转换为z值的方法是从数据点减去分布的平均值，然后除以标准差。在上面的身高例子中，该女性的z值为2。如果我们对所有的数据点都进行同样操作，新的分布被称为标准正态分布，平均值为0，标准差为1，

如下所示。

每次进行假设检验时，需要假设统计数据的分布，在例子中是本校学生的平均睡眠时间。对于z检验，用正态分布作为检验统计量分布的近似。一般来说，根据中心极限定理，从数据分布中得到更多的均值，则均值趋向于正态分布。但是，这仍然是估计值，因为现实世界的数据并不完全服从正态分布。假设正态分布可以确定研究中观察到的结果有多大意义。z值越高或越低，那么结果越不可能是偶然发生的，也越有可能是有意义的。为了量化结果的意义，通常会使用了另一个概念。

. . .

最后一个核心概念是p值。p值是当零假设为真时，观察到至少与测量结果一样极端的结果的概率。

这可能看起来有点复杂，所以来看一个例子。

假设正在测量美国佛罗里达州和华盛顿州的平均智商。零假设为，华盛顿州的平均智商不高于佛罗里达州的平均智商。通过研究，发现华盛顿的智商高出2.2个百分点，p值为0.346。这意味着，在零假设(华盛顿的平均智商并不高于佛罗里达的平均智商)为真的世界里，测量华盛顿智商至少高出2.2个百分点的可能性为34.6%。因此，如果华盛顿的智商实际上并没有更高，但由于随机噪声，仍然有1/3的概率测量出华盛顿智商至少高出2.2个百分点。p 值越低，结果越有意义，因为它不太可能是由噪声引起的。

结果是否具有统计学显著性，取决于在开始实验之前建立的显著性p值(称为alpha)。如果观察到的p值小于α，则结果具有统计学意义。需要在研究之前选择α，因为如果在研究之后，人们可以选择一个数字来证明结果是有意义的，不管数据显示什么！

α的选择取决于情况和研究领域，但最常用的值是0.05，相当于结果是随机发生的概率为5%。在平时的统计学中，常用的值为0.1到0.001之间。作为一个极端的例子，发现希格斯玻色子粒子的物理学家使用了0.0000003的α值，或者说只有350万分之一的概率是由于噪声而发现的该粒子。

为了从正态分布的z值得到p值，可以使用表格或者像R这样的统计软件。结果将显示出z值低于计算值的概率。例如，对于z值为2的情况，p值为0.977，这意味着只有2.3%的概率会随机观察到z值高于2的情况。

作为迄今为止的总结，提出了三个概念:

1. 假设检验：用来检验理论的一种技术

2. 正态分布：假设检验中数据的近似表示

3. p值：如果原假设为真，则出现至少与观测值一样极端的结果的概率

那么，把这些放在睡眠例子中:

根据国家睡眠基金会的数据，全国的学生平均每晚睡眠7.02小时
在本校对202名学生的调查中，平均每晚睡眠时间为6.90小时，标准差为0.84小时
备择假设是，本校学生的平均睡眠时间低于全国大学生的平均睡眠时间
使用α=0.05，这意味着当p值小于0.05时，结果是显著的

首先，需要将测量值转换成z值。从测量值中减去总体均值(全国平均值)，再除以样本数的平方根除以标准差。(随着样本数目的增加，标准差及其变化会减少，因此用样本数量的平方根除以标准差来解释这个现象。

有了z值测试统计量，就可以使用表格或者编程语言(比如 r)来计算p值。

# Calculate the results
z_score = (6.90 - 7.02) / (0.84 / sqrt(202))
p_value = pnorm(z_score)
# Print our results
sprintf('The p-value is %0:5f for a z-score of %0.5f.', p_value, z_score)
'The p-value is 0.02116 for a z-score of -2.03038.'

基于0.02116的p值，可以拒绝零假设。(统计学家倾向于拒绝零而不是接受备择假设)。有统计学上显著的证据表明，本校学生比美国大学生的平均睡眠时间少，显著水平为0.05。P值显示我们的结果有2.12%的可能是由于随机噪声。

在学校禁止所有家庭作业之前，需要注意不要给这个结果过多的关注。如果使用α=0.01，那么p值0.02116就不再重要了。如果有人想在研究中证明相反的观点，简单地操纵α值就可以达到。每当检验一项研究时，除了结论之外，还应该考虑p值和样本量。由于样本数量相对较小，只有202个，研究可能具有统计学意义，但这并不意味着它具有实际意义。此外，这是一个观察性研究，这意味着只有相关性的证据，而不是因果关系。研究表明，本校学生和平均睡眠时间的减少之间存在相关性，但这并不意味着去该学校会导致睡眠时间的减少。可能还有其他因素影响睡眠，只有随机对照研究能够证明其中的因果关系。

. . .

与大多数技术概念一样，统计显著性并不复杂，只是许多小概念的组合。大多数的麻烦来自于学习词汇！一旦把这些碎片放在一起，就可以开始应用这些统计概念了。当学习了统计学的基础知识，就能更好地以一种健康的怀疑态度来看待研究和新闻，可以看到数据实际上说了什么，而不是别人告诉你它的意思。

原文链接：https:///statistical-significance-hypothesis-testing-the-normal-curve-and-p-values-93274fa32687