分享

什么是非参数检验?

 汉无为 2023-11-09 发布于湖北
图片

什么是非参数检

检验?

在前面的篇章中笔者介绍了多种参数检验的方法,例如单个总体的T检验、基于两个独立样本的T检验。这些检验都需要对总体的分布特征作出某些假设,例如在T检验和方差分析中都需要假设总体服从正态分布,然后根据检验统计量的抽样分布对总体参数进行检验。那么在参数检验假设条件不满足的情况下如何对相应的问题进行分析呢?非参数检验可以帮助我们解决这类问题与参数检验相比,非参数检验具有以下优点:
(1)非参数检验不需要严格假设条件,因而比参数检验有更广泛的适用面。
(2)非参数检验几乎可以处理包括定类数据和定序数据在内的所有类型的数据,而参数检验通常只能用于定量数据的分析。
下面介绍两个常用的非参数检验方法。

01

卡方拟合优度检验

算法原理:拟合优度指的是,抽样获得的观测频次和原假设分布中理论频次(也叫期望频次)的差异,若观测频次和理论频次越接近,意味着符合程度越好,即拟合优度更好。

图片卡方)拟合优度检验所构造的统计量如下所示:

图片

其中,k表示原假设分布的定义域,将区间(-∞,+∞)分成了k个互不重叠的区间。图片表示在假设的分布的每个对应区间内,样本值实际出现的次数,又叫做观测频次图片表示按照假设的分布,在每个区间内样本值在理论上应该出现的次数,又叫做理论频次

进一步分析,观测频次减去理论频次的偏差的平方和再比上理论频次,反映了一个区间内观测频次和理论频次的变异。将所有区间内的观测频次和理论频次的变异求和得到的值,服从卡方分布。最后,给定一个检验水平𝛼,若卡方值落在拒绝域内,则小概率事件发生,拒绝原假设。

下面我们来看一个例子。

应用实例:一种饮料的容器材料可以选择玻璃、塑料或者金属。为了比较消费者对包装材料的偏好,对120名消费者进行了抽样调查,发现最喜欢玻璃、塑料和金属容器的分别有552540人。根据调查结果,能否认为消费者对3种材料的偏好程度是无差异的?

图片

在这个例子中,如果消费者对3种材料的偏好程度是无差异的,也就是说消费者对材料的偏好服从均匀分布,则从理论上来说,调查120名消费者,偏好每种材料的人数应该都是相等的,为40人。各种观测到的人数与理论人数(期望值)之间的差异应该都是由于抽样的随机性造成的,因此不应该太大。如果二者之间的差异太大,则说明我们所作的假设(消费者对3种材料的偏好程度是无差异的)很可能不成立。

在进行检验时需要构造图片统计量:

图片

式中:k是样本分类的个数,Oi表示实际观察到的频数,Ei表示理论频数。观察频数与期望频数越接近,则值越小。根据皮尔逊定理,当n充分大时,

图片统计量渐近服从于k-1个自由度的图片分布。我们可以计算出图片统计量的值,然后根据其与显著性水平𝛼下的临界值的大小关系得出检验结论。在统计软件中一般根据图片统计量的值给出p值,从而可以根据p值与𝛼的大小关系得出检验结论。

1列出了各组的频数、期望频数以及二者的差,表2是统计量的计算结果和相应的p值。

表1 各组的频数和期望频数

图片

表2 统计量计算结果和相应的p值

图片

根据表2,计算出的图片统计量的值是11.250,自由度为2,相应的p值(渐近显著性)为0.004,小于通常使用的值(𝛼=0.05)。所以检验的结论是拒绝总体中消费者对3种材料的偏好程度是无差异的零假设。

图片检验也可以按照同样的思想对正态分布或者任何想象的其他分布进行检验,但主要用于对定性变量的检验。

02

单样本K-S检验

算法原理:单样本K-S检验是以两位苏联数学家KolmogorovSmirnov的名字命名的,它是一个拟合优度检验,通过对两个分布差异的分析确定能否认为样本的观察值来自所设定的理论分布总体。

图片是一个样本量为n的随机样本的累积概率分布函数,即经验分布函数;

图片是一个特定的累积概率分布函数,即理论分布函数。定义图片,显然若对每一个x值来说,如果图片图片十分接近,则表明经验分布函数与特定分布函数的拟合程度很高,有理由认为样本数据来自具有该理论分布的总体。K-S检验中的检验统计量如下式所示:

图片

根据检验统计量的精确分布和渐进分布,我们可以计算出假设检验的p值,从而得出检验的结论。

下面通过一个例子来看一下K-S检验在SPSS软件中的操作和结果分析。

应用实例:假设有100名儿童每周看电视时间的数据,现检验能否可以认为总体中儿童每周看电视的时间服从正态分布。

图片

这里K-S检验的零假设和备择假设为:

图片总体中儿童每周看电视的时间服从正态分布。

图片总体中儿童每周看电视的时间不服从正态分布。

我们在SPSS软件中输入数据文件并进行K-S检验,分析结果见下表:

表3 单样本K-S检验的计算结果和相应的p值

图片

计算出的图片统计量的值为0.960,相应的p值(渐近显著性)为0.315。由于0.315大于0.05,所以在5%的显著性水平下不能拒绝原假设,也就是说根据样本数据不能认为总体数据是非正态的。

参考资料:

1.扬, 毛炳寰. 统计学[M]. 中国统计出版社, 2019.

2.MysticSpectre. 数理统计8.5-卡方拟合优度检验[EB/OL].(2022-10-22)[2023-11-06].https://zhuanlan.zhihu.com/p/576009139.

3.酒酒. 非参数检验[EB/OL].(2022-11-17)[2023-11- 06].https://zhuanlan.zhihu.com/p/528655450.

1

END

1

了解更多概率论与数理统计的相关知识,

和我们一起加入网课学习吧!

网址:https://www.icourse163.org/course/USTB-1003768006

搜索:概率论与数理统计北京科技大学

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多