最常用的统计学分析方法--假设检验

醉清风1126 2019-11-18

展开全文

作者写本文时的面部活动

大家好，这篇的题目是早就列入计划的。本期不写机器学习，而是写统计学中一个最广泛的应用---假设检验。作为数据科学一个硬币的两面（统计学与机器学习），统计学往往在科研数据分析中应用的次数更多。

一、假设检验（Hypothesis Test）概述

一句话定义：用一些特定的数值来确定样本是否来自某一个总体。假设检验是一种常见的基于样本的“统计证据”来对总体进行推断的方法。

这么讲很抽象，我们来举个例子，假设有人说：“在马萨诸塞州某一天（没错我就直接搬Matlab中的例子了），1加仑汽油的平均价格是1.15美元”。我们想知道他说的对不对。怎么能确定这个说法的真实性呢?你可以在每个加油站询问价格。这种方法当然是最准确的，但它耗时、昂贵，实际操作是不可能的。

一种更简单的方法是在全州范围内随机选择少数几个加油站询问价格，然后计算样本平均值。由于选择过程中的随机性，样本的平均值会各不相同。假设我们的样本均值是1.18美元。那么这0.03美元的差价到底是随机抽样的结果（1加仑汽油的平均价格就是1.15美元），还是1加仑汽油的平均价格实际上大于1.15美元的重要证据?此时就可以用假设检验的方法，用于做出此类决策。

假设检验有很多不同种类，不同的假设检验对数据中被抽样的随机变量的分布做出不同的假设（都有哪些假设后面讲）。而在选择方法时，必须考虑这些假设。所有的假设检验都有相同的基本术语和结构。

1.零假设：也称为原假设，是关于你想检验的总体的某一种判断。它在某种意义上是“无效”的，因为它通常代表着一种“现状”。它通过 “断言”一个总体参数或总体参数的组合具有一定的值来形式化。在我们的例子中，零假设是“整个州的平均汽油价格就是1.15美元”。零假设写作H0，那么H0:µ=1.15。

2.备择假设：是一种与原假设相反的关于总体的断言。在我们的例子中，可能的备择假设有:

H1:µ≠1.15 即州平均价格不是1.15美元(对应双尾检验)

H1:µ>1.15 -即州平均价格大于1.15美元(对应右尾检验)

H1:µ<1.15 -即州平均价格小于1.15美元(对应左尾检验)

从这里面选一个，作为你的备择假设。在选择原假设和备择假设时，我们通常根据是希望收集证据予以支持还是拒绝的判断作为选择依据。一般来说，将希望收集证据予以拒绝的假设作为原假设，而将研究者希望通过搜集证据予以支持的假设作为备择假设。

3.检验统计量：为了进行假设检验，从总体中随机抽取样本，计算相关统计量。这个统计量随检验类型的不同而不同，但是它在零假设下的分布必须是已知的(或假设的)。

（1）p：检验的p值是零假设下，得到检验统计量或比样本值更极端的值的概率。那么自然，这个p越小，就代表零假设成立的概率越小。因此实验中，我们希望p越小越好。

（2）α：显著性水平α是检验的一个阈值，α的数值必须在假设检验前确定好。一个典型的α的值是0.05。此时比较p和α。

a.如果一个检验的p值小于α,检验拒绝零假设。

b.如果p值大于α,没有足够的证据拒绝零假设。注意，拒绝原假设的证据不足并不代表接受原假设。

显著性水平α可以解释为：拒绝零假设时, 零假设实际上是正确的概率——第一类错误。即使零假设没有被拒绝，它也可能是错误的——第二类错误。第二类错误通常是由于样本量小造成的。

4.置信区间：假设检验的结果通常用置信区间表示。置信区间是一个估计值范围，其上界和下界是根据样本的值和样本已知(或假设)的抽样分布计算的。较宽的置信区间对应较差的估计(较小的样本)；较窄的区间对应较好的估计(较大的样本)。如果零假设断言总体参数的值位于该置信区间之外时，将拒绝零假设。比如我们计算出，置信区间为1.17-1.19美元，那就可以拒绝零假设，因为零假设认为价格是1.15美元。

二、假设检验步骤

1、提出H0和H1。往往先建立备择假设，备择假设H1一旦建立，再根据完备与互斥性，确定零假设。

2、设定显著性水平α。我们经常取0.05，也有时取0.01.但这不是绝对的，有的实验α必须取非常小（如0.0001以下）。

3、选定统计方法，根据需求选择方法，比如最常用的Z检验，T检验或卡方检验等，将样本观察值按公式计算出统计量的大小。

4、根据统计量的大小及其分布确定检验假设成立的可能性P的大小并判断结果。若P>α，结论为（按所取显著性水平α）不显著，无充足理由拒绝H0，如果P<α，结论为（按所取显著性水平α）显著，拒绝H0，接受H1，即认为此差别很可能是实验因素不同造成的。

三、有哪些假设检验

那么假设检验一共有多少种？答案是有不少种，比你估计的可能还多一些。

（1）单样本z检验：检验样本是否来自具有已知方差和指定均值的正态分布。 z检验有时也称U检验，一般用于大样本(样本容量大于30)平均值差异性检验的方法。它是用正态分布的理论来推断差异发生的概率，从而比较两个平均数的差异是否显著。注意这里的“单样本”不是说就抽一个样本。。。而是抽一组样本。

（2）单样本t检验：检验一个样本是否来自一个均值已经、方差未知的正态分布。t检验用于样本量较小的样本（往往小于30）。z检验和t检验的区别是是否提前知道总体的标准差σ。z检验中σ是已知的，而t检验则不然。z检验和t检验的检验统计量分别为:

在总体均值为μ的零假设条件下,z统计量服从标准正态分布。在相同的零假设下，t统计量服从自由度为n - 1的t分布。在样本容量较小的情况下，t分布较标准正态分布平坦且较宽。但是随着样本容量的增加，学生的t分布趋于标准正态分布，两种检验在本质上是等价的。

（3）双样本t检验：检验两个独立样本是否均来自方差相等(或不相等)且均值相同的正态分布。

（4）单样本卡方方差检验：检验样本是否来自具有指定方差的正态分布。χ2检验方法能够处理一个因素两项或多项分类的实际观察频数与理论频数分布是否相一致问题。常用于计数数据的检验、样本方差与总体方差的差异检验等情况。χ2检验在分析计数数据的时候，对计数数据总体的分布形态不做任何假设，是非参数检验方法的一种。

（5）等方差双样本F检验：检验两个独立样本是否来自方差相同的正态分布。F检验是通过比较两组数据的方差，以确定它们是否有显著性差异，F检验也叫方差齐性检验，与方差分析关系密切，关于方差分析，放在以后写。

（6）卡方拟合优度检验：检验样本是否来自指定的分布。

（7）威尔考克斯秩和检验：检验两个独立样本是否来自具有相等中位数的相同连续分布。

（8）克鲁斯卡尔-沃利斯检验：检验多个样本是否都来自相同的总体。

（9）Jarque-Bera检验：检验样本是否来自于均值和方差未知的正态分布。

（10）单样本Kolmogorov-Smirnov（KS）检验：检验样本是否来自具有指定参数的连续分布。

（11）双样本Kolmogorov-Smirnov（KS）检验：检验两个样本是否来自相同的连续分布。

（12）Lilliefors检验：检验样本是否来自于正态分布。

（13）运行检验：检验值序列是否以随机顺序出现。

还有一些，也不一一列举了，但平常实验中，我们往往假设总体服从一元或多元的正态分布，因此用的最多的还是（1）到（5）。以上的所有假设检验，以及没提到的但大家需要的，Mat物语都可以为大家提供服务。

四、假设检验的分类

总体来说，假设检验分为三种：

（1）分布检验（Distribution tests），如Anderson-Darling和单样本Kolmogorov-Smirnov，它们检验样本数据是否来自具有特定分布的总体。

（2）定位检验（Location tests），如z检验和单样本t检验，它们检验样本数据是否来自具有特定均值或中值的总体。

（3）离散度检验（Dispersion tests），如卡方方差检验等，它们检验样本数据是否来自具有特定方差的总体。

还有一种分法，分为参数检验和非参数检验。但我觉得上面这种更好，所以这里只提一下。

这篇文章是不是长了一点？不是我的风格啊。虽然写了这么多，实话说，很多是搜集来的资料，实际上我自己做过的并不是很多。一个好的假设检验，不止是给你一个结论那么简单。假设检验让你看清你的实验数据到底更符合什么样的参数和分布，让你对自己的数据更有信心（或者丧失信心）。为你后续的更深入的分析，先指明一个方向。如果还需要看方差分析什么的，就在订阅号界面给我留言吧。