【原】假设检验之原假设与备择假设

CDA数据分析师 2023-04-27 发布于北京

展开全文

CDA数据分析师出品

本文主要介绍假设检验中常见的一些问题，包括假设检验的原理、原假设与备择假设的设置以及第一类错误与第二类错误。

假设检验原理

假设检验是一个事先对总体的参数或者分布形式做出某种假设，然后利用样本信息来判断假设是否成立的过程。基本流程如下：

（1）提出假设

（2）确定检验统计量

（3）规定显著性水平

（4）计算检验统计量的值

（5）做出统计决策

原假设与备择假设

在假设检验中有两个假设，就是原假设与备择假设，原假设也叫作“零假设”，是研究者想要收集证据予以反对的假设，通常记为“H0”，与只对应的就是备择假设，备择假设是研究者想要收集证据予以支持的假设，通常记为“H1”。原假设和备择假设的形式包括（以总体均值μ的检验为例）：

（1）双侧检验：

H0：μ=0 H1：μ≠0

（2）单侧检验（左侧检验、右侧检验）：

1）左侧检验：H0：μ≥0 H1：μ<0

2）右侧检验：H0：μ≤0 H1：μ>0

当想要检验的问题是总体参数是否为某一具体的取值时，会使用双侧检验；当检验的问题是总体参数是否大于或者小于某一具体的取值时，会使用单侧检验，如上展示，单侧检验又可以细分为左侧检验（备择假设为小于号时）和右侧检验（备择假设为大于号时）。那么，如何确定是左侧检验还是右侧检验呢？为了得到准确的结论，一般会根据具体问题将不能轻易肯定的判断放在备择假设，而把不能轻易否定的判断放在原假设，如果原假设和备择假设进行了互换，可能就会产生相反的结论，举例如下：

一个汽车轮胎制造商声称，某一等级的轮胎的平均寿命在一定的汽车重量和正常行驶条件下大于40000公里，对一个由20个轮胎组成的随机样本作了试验，测得平均值为41000公里，标准差为5000公里。已知轮胎寿命的公里数服从正态分布，我们能否根据这些数据作出结论：该制造商的产品同他所说的标准相符？(α= 0.05)

分析：以上问题为小样本量下的总体均值的检验，且总体标准差未知，故原假设和备择假设可设置如下：

H0: μ≤40000 H1： μ>40000

根据以上分析，检验的统计量应为t统计量：

带入数据，计算得t=0.894，此时的拒绝域为，即没有理由拒绝原假设，不能认为该等级的轮胎的平均寿命在一定的汽车重量和正常行驶条件下大于40000公里。但是若将上述的原假设与备择假设互换，即H0为μ≥40000 H1为μ<40000时，根据计算出的实际的t统计量的值和此时的拒绝域，得到了与初始设置相反的结论，而当且仅当检验统计量的计算结果落在不同假设的“接受域”重合部分时会出现以上现象。

对于单侧检验来讲，当检验统计量落在下图中的紫色区域（不同假设下，接受域重合的部分）时，如果互换原假设与备择假设，则会得到相反的结论。

对于双侧检验来讲，当检验统计量落在下图中的绿色区域时，互换原假设与备择假设会得到相反的结论。

需要注意的是，在假设检验中，对于原假设得到的结论不是“对”与“错”两个结果，而是“拒绝”与“接受”，这就涉及到了置信水平的含义，当我们“拒绝”原假设的时候，实际上我们只是说“我们有95%的把握”说原假设错了，也就是说，它还是有可能是对的，换句话说，不能逻辑上否定原假设。再来说“接受”原假设,这个“接受”两个字，准确的说法应该是“不能拒绝”，比如说原假设H0是μ=2,如果“拒绝”H0，意思是我们有95%的把握说H0是错的，但是当我们所谓“接受”H0的时候，我们并不是有95%的把握肯定期望就等于2，其实我们一点把握都没有，只是利用现有样本数据不能否定期望为2而已。综上所述，我们注意到两点：一是“拒绝”和“接受”原假设，不是逻辑上的对与错；二是“拒绝”原假设和“接受”原假设是完全不对等的，当我们拒绝原假设的时候,我们有95%的把握；但是当我们接受原假设的时候，其实一点把握都没有。所以，当我们选择原假设的时候，应该选择我们有比较大的把握否定它的一面。

两类错误

统计学上把“原假设为真而拒绝原假设”的情况称为犯了第一类错误，而把“原假设为假却接受原假设”的情况称为犯了第二类错误。犯第一类错误的概率为α，犯第二类错误的概率为β，两类错误的关系如下，当统计量的值落在H0为真的拒绝域时，一定也意味着落在了H0为假的拒绝域。