【原】想玩转t检验？你得从这一篇看起 | 协和八

协和八 2020-09-18

展开全文

小编按：t检验是医学统计学中的一项重要方法了，但要问起有多了解，可能你要小小地摇头啦。今天我们「说人话的统计学」系列，开始给大家讲讲这个问题。小编要自豪宣布的是，今天的内容，是由我们的老熟人张之昊师兄，力邀哈佛大学医学院的田菊师姐写的。小编觉得咱们的阵容要豪华地突破天际啦！

回复「统计学」可查看「说人话的统计学」系列合辑

✪

相信大家都还记得，我们在前两集里费了老劲，把中心极限定理梳理了个大概。你也许一面云里雾里一面心里嘀咕：讲这么些个有的没的，有什么卵用？

今天我们就来从最初级、但又是用得最多的统计学检验—— t 检验来讲起，看看咱们之前花的功夫到底有没有白费。

动笔一想，咱们好像好久没讲过故事啦！今天就让我们再次请出久违的蓝精灵和格格巫——

某天蓝精灵们正在食堂吃早饭，吃着吃着，笨笨突然说：

「大家最近有没有觉得食堂的包子比以前小了？」

其它蓝精灵纷纷表示有同感，回想起来，最近天天早上没到十一点肚子就开始咕咕了。于是群情激昂的大家一起来到包子窗口质问格格巫：

「最近包子是不是做得比从前小了？」

格格巫一口否认，悠悠说道：「你们啊！too simple, sometimes naïve!! 手工做的包子，当然有大有小，但是包子的平均大小我可是一直按照食堂标准来的啊。我告诉你们，我是身经百战的，见得多啦，你们的哪一个师兄师姐没吃过我的包子。你们的院长，比你们不知高到哪里去了，我跟他天天坐在这儿，一人手上俩包子谈笑风生。你们也要努力提高自己知识水平，不要总想搞个大新闻，识得唔识得啊！？」

蓝精灵们一时语塞，格格巫说的似乎也有那么点道理。那么，蓝精灵们该怎么搞清楚，平均来讲包子的分量到底有没有小于食堂标准呢？

如果要深究，现在蓝精灵要研究的对象是格格巫最近一段时间做出过的所有包子（上一集我们说过，这在统计学中称为“总体”）。显然，这些包子绝大多数都已经被吃到肚子里去了，再也称不着了。即使这些包子都在，由于时间和成本等原因，蓝精灵们也不想把每一个包子都拿过来称一下，而是希望通过测量一小部分包子（称为“样本”）来判断包子的平均质量有没有显著地小于食堂规定的标准值（比如说50克）。这种通过样本来对总体的某个统计特征（比如平均值，方差，分布）做判断的方法为假设检验。

在很久以前，我们就曾讲过，假设检验的思路和反证法有些异曲同工（可戳此处回顾本系列第一集《你真的懂p值吗？》）。

首先，我们假定原假设是正确的，计算观察到样本中某个统计量的概率，如果这个概率很小，则拒绝原假设，接受与原假设相对立的备择假设；如果概率比较大，则无法拒绝原假设。换句话说，假设检验主要依靠观察到的数据与原假设的不一致性来决定拒绝原假设与否。

这种逻辑听起来还是挺绕的，咱们用包子问题来说明一下。

蓝精灵们采集包子样本质量数据，发现样本包子质量都远小于标准值。如果格格巫的包子总体的确是符合食堂标准的（原假设），那么蓝精灵只是因为运气而获得这样样本的概率会有多大呢？

会很低！

于是，蓝精灵推断原假设是错误的，即格格巫的包子不符合食堂标准。

值得注意的是，如果无法通过样本的数据拒绝原假设，我们也不能认为原假设是成立的，因为有可能只是统计功效不够，详情可重温我们讨论统计功效的文章《做统计，多少数据才算够？》（上）（下）。

蓝精灵们决定用假设检验的方法验证一下，格格巫的包子是不是比食堂标准小。他们提出了两个对立的假设——

原假设：格格巫的包子是大于等于食堂标准的；

备择假设：格格巫的包子小于食堂标准。

于是每天吃早饭的时候，蓝精灵们有了一项新任务：称一下自己吃到的包子的质量。为了符合假设检验的前提，包子要随机抽取，于是这事坚决不让格格巫插手，而由窗口卖包子的由蓝爸爸负责。获得了包子质量样本之后，蓝精灵们怎样用包子样本来判断包子总体的平均值呢？

作为忠实读者的你，想必记得样本平均值是对总体平均值的一个合理的估计（可戳此处快速重温《算术平均数：简单背后有乾坤》），所以如果包子样本平均值要是比食堂标准小得足够多，包子总体就很有可能是小于食堂标准的。可是小多少是足够小呢？蓝精灵们被难住了。

正如格格巫所说，包子的大小有一定的随机性，假如随机抽取100个包子作为一次测量，算出这100个包子的平均质量。然后再随机抽取另外100个包子，又算出一个新的平均质量。这样的步骤重复多次，每一次的平均值也会不一样。假如格格巫的包子是符合标准的，那么随机抽取100个包子的平均质量应该围绕标准包子质量上下波动。

这里我们假设蓝精灵们只能抽取一组样本。不难想象，这个样本里头的包子的质量平均值很可能或多或少与食堂的标准质量有点差异。而关键的问题在于，这个差异和样本平均质量应有的波动大小相比，到底是大还是小。直观来讲，如果这个差异和样本均值的波动范围相比微不足道，那么蓝精灵对格格巫的指控就有点站不住脚了。因此，一种可能的思路是，根据样本均值与标准值的差距、样本均值的波动范围算出两者的比值，然后用这个比值的大小来做判断。

那如何获得样本的平均质量的波动范围呢？

统计学中一般用标准差(standard deviation)来反映一个随机变量（比如包子质量）的波动：标准差大，说明这个随机变量容易取值远离平均值；标准差小，则取值往往在平均值附近。样本平均值的波动是由单个随机变量的波动和样本大小所决定的。不难想象，抽样的样本越大，样本平均值就越接近真实的平均值，样本平均值的波动也会更小。

数学上可以证明，如果样本大小为N，样本平均值的波动（标准差）等于总体波动（标准差）除以。这就是说如果总体中包子质量的标准差是10克，那随机取100个包子的平均质量的标准差就是

为什么样本均值的波动会比总体的波动小呢？试想一下，由于样本是把N个包子的质量取均值，而这N个包子里总是更可能有大有小，因而平均起来就会相互抵消，造成的结果就是波动范围变小。而且，N越大，这种相互之间的「拉平」作用就会愈加明显，从而波动（标准差）就减小得更多。

既然我们刚才说，要用样本均值与标准值的差距和样本均值的波动范围两者的比值来做个决断，那么我们将样本均值记为，总体均值（也就是我们真正关心的统计量——格格巫做出的包子的真正平均质量）记为μ₀，总体的标准差为σ，样本大小为N，这个比值就是

可以看作是标准化了的样本与总体均值的差距，称为检验统计量 (test statistic)。

现在我们有了这么一个比值z，因为分子是样本包子平均质量减去包子标准质量，所以如果z是负的，样本的包子就比标准要轻。可是我们还是不知道，到底z要有多负我们才能有把握地说格格巫有猫腻？

这时蓝精灵们就需要抱中心极限定理的大腿了！中心极限定理指出，如果从一个总体中多次抽取样本，每次获得的样本平均值会以正态分布的形式分布在总体平均值附近。更具体地说，在原假设成立的情况下，样本平均值由于抽样的随机性导致的服从均值为μ₀，标准差为的正态分布。

在这里，我们需要稍稍讨论一些关于正态分布的技术细节。大家记得正态分布是个钟形曲线，可是钟形曲线在数轴上可左可右，形状可胖可瘦，这由什么决定？任意一个正态分布可以由两个参数确定，一个是它的均值（也叫位置参数）µ，决定它在数轴上的什么方位；一个是其标准差（也叫形状参数）σ，决定它的胖瘦。因此，我们把正态分布记为N( µ, σ)。需要注意，这里说的均值和标准差，是正态分布自身作为一个概率分布的性质，不要与我们之前讨论的具体问题如包子质量的均值混淆了。

下图所示即是两个不同的正态分布N(1,0.5)和N(0,1)。

我们已经知道，样本平均值服从正态分布N( μ₀, )。那么咱们之前说的那个比值z呢？正态分布还有一个有趣的性质，那就是一个任意的正态分布可以通过数轴上的平移和拉伸变成一个特殊的正态分布N(0,1)，也就是平均值为0，标准差为1的正态分布（称为「标准正态分布」）。而我们之前从到z的变换，恰恰达到了这个效果（有兴趣的读者可以回顾上集正态分布的概率密度函数，想想看为什么）。

这下可好了，根据中心极限定理，如果令统计量，则z服从标准正态分布N(0,1)。现在，蓝精灵只需要根据标准正态分布N(0,1)的性质，找出在什么情况下，观察到z的可能性小到了一定程度，以至于难以相信格格巫的包子是合格的。

蓝精灵虽然不喜欢格格巫，但是也不想冤枉他，所以希望制定一个标准，使得在包子其实符合食堂标准的情况下，误判包子比标准小的概率小于一个临界值α，用统计的语言说就是原假设为真时拒绝原假设的概率小于α（还记得我们在《做统计，多少数据才算够？（上）》里说过的根据罩杯分男女的故事不？）。这一概率就是我们常常说的P值，而显著性的门槛α通常会取0.05。在备择假设为「包子小于标准值」的情况下，P值对应的概率等于标准正态分布中小于给定z值部分的概率之和，即下图的阴影面积。假如我们取α= 0.05，对应的z值等于1.645（图中的zα），也就是说只要用样本计算出来的<-1.645的时候，即z值落在途中阴影部分的时候，就能比较可靠地拒绝原假设，阴影部分对应的区域称为拒绝域。如果所得的z值大于-1.645，则无法判断格格巫的包子是否符合标准。

图片来源：http://2012books./books/beginning-statistics/s12-testing-hypotheses.html

现在蓝精灵们只要用公式计算出z并且比较是不是小于-1.645就可以知道格格巫做的包子是不是偏小了！

等等，好像有什么不对——这个公式里面的σ取值并不知道啊，那怎么办?

正如样本的平均值可以作为总体平均值的估计一样，样本的标准差也可以作为总体标准差的估计。我们将样本标准差记为S，用S代替σ可以得到一个新的检验统计量。

当样本量N足够大时，S会非常接近σ，t也会很接近标准正态分布。但是当N比较小时，样本方差往往会小于总体方差，比如在只有一个样本的极端情况下，样本方差必然是0，这显然比总体方差要小了。

由于这个原因，N比较小时，t的分布就会偏离正态分布。统计学家发现，在总体服从正态分布的前提下，t会服从另外一种分布，称为学生t分布。根据t分布的性质，我们同样可以算出t取不同数值时对应的p值是多少，从而对原假设做出推断。根据检验统计量t得出的假设检验法称为t检验法。t检验法特别适用于样本量比较小的情况下的统计假设检验。

样本量是t检验能否有显著性的一个重要因素，样本量主要通过两种方式影响t检验的结果。一是样本量影响统计检验量t值的大小，从公式可以看出，t与成正比的，t值越大，围住的t分布的阴影面积越小，对应于我们平时关心的P值就越小。另一个是样本量影响t分布的形状。如下图所示，样本量很大时，t分布接近正态分布；但当样本量变小时，t分布的尾巴会变肥，而且样本量越小尾巴越肥，也就是说同样的t值对应的P值会越大。由于这两个原因，在用t检验时，增加样本的数量是提高统计显著性的有效手段。

图片来源，Significance, P values and t-tests. Martin Krzywinski & Naomi Altman. NatureMethods 10, 1041–1042 (2013)

讲到最后，我们来插一段学术八卦：很多读者可能会和我一样，好奇为什么t分布也叫学生t分布。记得我曾经还傻傻地误以为是学生课堂实验做出的数据会服从学生t分布。实际上，「学生」是发现这个分布的数学家戈塞特（Gosset）的笔名，他于1908年在一个叫Biometrika的杂志上，发表了关于t分布的文章，当时就是用的这个笔名。为什么发文章要用笔名呢？因为当时Gosset在Guiness啤酒厂（是的你没有看错，就是那个现在还存在的健力士牌黑啤酒）工作，为了检测啤酒质量而发明了t分布。可是，公司不允许员工公开发表研究成果，于是戈塞特才被迫用笔名发表了文章。有没有一种高手在民间的感觉？其实，戈塞特可不是什么「诺贝尔哥」之类的民科，他在发表这篇关于t检验的文章之前，曾在现代统计学的开山鼻祖之一皮尔逊（KarlPearson）的实验室访问过一两年。因此他很好地把基础研究和实际应用结合了起来，在统计学的历史上留下了自己光辉的一页。

今天，我们讲述了t检验最简单的一种情形——单样本t检验的理论基础。在接下来的几集里面，我们将会把t检验一家子翻个底朝天，为大家进一步介绍科研实践中更常见的成对和独立样本t检验的实际使用、正态性的检验以及正态性不能满足时的应对策略。

想要玩转t检验？别忘了继续关注「说人话的统计学」哦！

✪

作者简介

田菊，2006年进入清华大学工程物理系，2010年毕业获得工学学士学位。此后，在哈佛大学医学院神经科学项目攻读哲学博士学位至今，运用电生理技术和光遗传学在小鼠上研究基于奖赏的学习行为的神经回路及其计算模型。因为热爱数据分析，今年夏天博士毕业后，将加入Facebook从事「21世纪最性感的职业」——数据科学家。

编辑：灯盏细辛