非参数检验综述

叨叨道 2021-08-17

展开全文

作者：悦菁审稿：石鹏封面：吉江

基本概念

非参数检验(Nonparametric tests)是统计分析方法的重要组成部分，它与参数检验共同构成统计推断的基本内容。由于参数检验必须是在总体分布形式已知的前提下，对总体分布的参数如均值、方差等进行推断的方法。而非参数检验却可在总体方差未知或知道甚少的情况下，利用样本数据对总体分布形态等进行推断的方法。由于非参数检验方法在推断过程中不涉及有关总体分布的参数，因而得名为“非参数”检验。

单样本非参数检验

SPSS单样本非参数检验是对单个总体的分布形态等进行推断的方法，其中包括卡方检验、二项分布检验、K-S检验以及变量值随机性检验等方法。

一、总体分布的卡方检验

卡方检验方法可以根据样本数据，推断总体分布与期望分布或某一理论分布是否存在显著差异，是一种吻合性检验，通常适于对有多项分类值的总体分布的分析。它的原假设是：样本来自的总体分布与期望分布或某一理论分布无差异。

二、二项分布检验

在生活中有很多数据的取值是两类，例如，人群可以分成男性和女性，投掷硬币实验的结果可以分成出现正面和出现反面等。通常将这样的二值分别用1或0表示。如果进行n次相同的实验，则出现两类（1或0）的次数可以用离散型随机变量X来描述。如果随机变量X为1的概率设为P，则随机变量X值为0的概率Q便等于1-P，形成二项分布。

SPSS的二项分布检验正是要通过样本数据检验样本来自的总体是否服从指定的概率为P的二项分布，其原假设是：样本来自的总体与指定的二项分布无显著差异。

三、单样本K-S检验

K-S检验方法能够利用样本数据推断样本来自的总体是否服从某一理论分布，是一种 拟合优度的检验方法，适用于探索连续型随机变量的分布。单样本K-S检验的原假设是：样本来自的总体与指定的理论分布无显著差异，SPSS的理论分布主要包括正态分布、均匀分布、 指数分布和泊松分布等。

四、变量值随机性检验

变量值随机性检验通过对样本变量值的分析，实现对总体的变量值出现是否随机进行检验。例如，在投硬币时，如果以1表示出现的是正面，以0表示出现的是反面，在进行了若干次投币后，将会得到一个以1，0组成的变量值序列。这时可能会分析“硬币出现正反面是否是随机的”这样的问题。变量值随机性检验正是解决这类问题的一个有效方法。它的原假设是：总体变量值出现是随机的。

两独立样本的检验

两独立样本的非参数检验是在对总体分布不甚了解的情况下，通过对两组独立样本的分析来推断样本来自的两个总体的分布等是否存在显著差异的方法。独立样本是指在一个总体中随机抽样对在另一个总体中随机抽样没有影响的情况下所获得的样本。

SPSS中提供了多种两独立样本的非参数检验方法，其中包括曼-惠特尼U检验、K-S检验、W-W 游程检验、极端反应检验等。

一、曼-惠特尼U检验

两独立样本的曼-惠特尼U检验可用于对两总体分布的比例判断。其原假设：两组独立样本来自的两总体分布无显著差异。曼-惠特尼U检验通过对两组样本平均秩的研究来实现判断。秩简单说就是变量值排序的名次，可以将数据按升序排列，每个变量值都会有一个在整个变量值序列中的位置或名次，这个位置或名次就是变量值的秩。

二、K-S检验

K-S检验不仅能够检验单个总体是否服从某一理论分布，还能够检验两总体分布是否存在显著差异。其原假设是：两组独立样本来自的两总体的分布无显著差异。

这里是以变量值的秩作为分析对象，而非变量值本身。

三、游程检验

单样本游程检验是用来检验变量值的出现是否随机，而两独立变量的游程检验则是用来检验两独立样本来自的两总体的分布是否存在显著差异。其原假设是：两组独立样本来自的两总体的分布无显著差异。

两独立样本的游程检验与单样本游程检验的思想基本相同，不同的是计算游程数的方法。两独立样本的游程检验中，游程数依赖于变量的秩。

四、极端反应检验

极端反应检验从另一个角度检验两独立样本所来自的两总体分布是否存在显著差异。其原假设是：两独立样本来自的两总体的分布无显著差异。

基本思想是：将一组样本作为控制样本，另一组样本作为实验样本。以控制样本作为对照，检验实验样本相对于控制样本是否出现了极端反应。如果实验样本没有出现极端反应，则认为两总体分布无显著差异，相反则认为存在显著差异。

多个独立样本检验

多独立样本的非参数检验是通过分析多组独立样本数据，推断样本来自的多个总体的中位数或分布是否存在显著差异。多组独立样本是指按独立抽样方式获得的多组样本。具体如下：

一、中位数检验

通过对多组独立样本的分析，检验它们来自的总体的中位数是否存在显著差异。其原假设是：多个独立样本来自的多个总体的中位数无显著差异。

基本思想是：如果多个总体的中位数无显著差异，或者说多个总体有共同的中位数，那么这个共同的中位数应在各样本组中均处在中间位置上。于是，每组样本中大于该中位数或小于该中位数的样本数目应大致相同。

二、Kruskal-Wallis检验

Kruskal-Wallis检验实质是两独立样本的曼-惠特尼U检验在多个样本下的推广，也用于检验多个总体的分布是否存在显著差异。其原假设是：多个独立样本来自的多个总体的分布无显著差异。

基本思想是：首先，将多组样本数据混合并按升序排序，求出各变量值的秩；然后，考察各组秩的均值是否存在显著差异。容易理解：如果各组秩的均值不存在显著差异，则是多组数据充分混合，数值相差不大的结果，可以认为多个总体的分布无显著差异；反之，如果各组秩的均值存在显著差异，则是多组数据无法混合，某些组的数值普遍偏大，另一些组的数值普遍偏小的结果，可以认为多个总体的分布有显著差异。

三、Jonckheere-Terpstra检验

Jonckheere-Terpstra检验也是用于检验多个独立样本来自的多个总体的分布是否存在显著差异的非参数检验方法，其原假设是：多个独立样本来自的多个总体的分布无显著差异。

基本思想与两独立样本的曼-惠特尼U检验类似，也是计算一组样本的观察值小于其他组样本的观察值的个数。

两配对样本检验

两配对样本的非参数检验是对总体分布不甚了解的情况下，通过对两组配对样本的分析，推断样本来自的两个总体的分布是否存在显著差异的方法。主要包括：

McNemar检验：是一种变化显著性检验，它将研究对象自身作为对照者检验其“前后”的变化是否显著。其原假设是：两配对样本来自的两总体的分布无显著差异。

符号检验：也是用来检验两配对样本所来自的总体的分布是否存在显著差异的非参数方法。其原假设是：两配对样本来自的两总体的分布无显著差异。

Wilcoxon符号秩检验：也是通过分析两配对样本，对样本来自的两总体的分布是否存在差异进行判断。其原假设是：两配对样本来自的两总体的分布无显著差异。

多配对样本的检验

多配对样本的非参数检验是通过分析多组配对样本数据，推断样本来自的多个总体的中位数或分布是否存在显著差异。

Friedman检验：利用秩实现对多个总体分布是否存在显著差异的非参数检验方法，其原假设是：多个配对样本来自的多个总体分布无显著差异。

Cochran Q检验：通过对多个配对样本的分析，推断样本来自的多个总体的分布是否存在显著差异。其原假设是：多个配对样本来自的多个总体的分布无显著差异。