第一类错误的概率到底是不是α

我是皮卡丘 2021-12-14

展开全文

前文我们梳理了假设检验的整个过程，今天我们来看第一类错误。统计学上把原假设

为真而拒绝

称为犯了第一类错误。

在之前的文章中，我们用一个手机次品的例子带大家形象地看了一下犯第一类错误的概率。我们在这里再简单回顾一下（对之前文章熟悉的读者可以略过）。

1.如何理解犯错：手机次品的例子

某公司生产的100台手机实际有5台是次品，次品率是5%（这个是上帝视角，其他人都不知道具体有多少件次品）。这100台手机在卖个下游供应商之前需要由质检团队检验一下。首先，他们假设这里面次品率不超过5%。然后，他们随机抽取一件样品进行检测。由于这100台手机里面实际上有5个次品，所以抽一下就抽中次品的概率是5%，这属于小概率事件，在原假设为真（也就是这100台手机中次品数不超过5）的情况下，他们相信一次试验是抽不中次品的。

但是，由于里面真真切切存在次品，哪怕只有1个次品，存在就有被抽中的可能，仅仅是概率低而已。所以，质检团队抽一次是有可能抽中次品的。于是，如果他们抽检当天运气差果然一抽就抽中次品，他们会怎么说呢？他们会说，“在只有5个次品的情况下，一次抽样，我们是抽不到次品的，但现在我们真实地抽中了次品，于是，我们拒绝次品率不超过5%的假设，认为这里面次品数超过5台，所以，这批货不能发。”

开了上帝视角的我们知道，质检团队犯错了，明明里面只有5个次品，他们现在却说次品手机超过5台。这里，他们就是犯了第一类错误，又称“假阳性错误”，也就是说，明明没问题的（即结果“阴性”），可偏偏被认为是有问题的（判定为“阳性”）。

那他们犯错的概率有多大呢？这个概率实际上就是这100台手机内次品所占的比例。因为，只要他们一次试验就抽中次品，他们就会拒绝

假设，从而犯错，所以有多少次品，就决定了他们有多大可能性在一次试验中抽中次品，从而决定了有多大可能性犯错。现在有5个次品，所以他们有5%的概率抽中次品，于是犯第一类错误的概率就是5%。

看到这里，你可能会问一个问题：如果次品是4个或3个呢，那犯错的概率不就是4%或者3%了吗？可是我们经常说的第一类错误等于检验水准

，如果

取0.05，那不就是一个定值，怎么会变化呢？

这里感谢S同学的提问并且耐心地和我交流、讨论。在Ta的提醒下，我们发现原来的文章在这个问题上不够清楚，所以，我们今天再来理清一下。

我们先结合上图看一下犯第一类错误意味着什么。

犯错是因为我们做了错误的判断，比如本来样本是来自于H0的总体，而我们现在却说它不来自H0的总体。

为什么我们说它不来自H0总体呢，因为它与总体均值差异比较大，现实情况下出现的可能性小，即所谓的极端样本。

可是对于任何一个总体，极端样本总会存在，就像上例中的次品一样，次品数虽少，抽中的概率低，但不意味着就抽不中次品。同理，极端样本少，抽中的比例低，但同样有可能抽中，而一旦抽中这些极端样本，我们就拒绝H0，说它们不是来自这个总体，来自于其他总体，这不就是犯错了吗？犯错的概率同次品的占比一样，就是这些极端样本的占比，也就是上图的P值。

2.犯错的概率是P还是

于是，我们隐约觉得，当P值小于

，即检验水准时，犯错的概率其实是P。

关于这个问题，我查阅相关的教科书——卫生统计学（第八版，人民卫生出版社），得到如下两句话：

检验水准（level of a test），它是人为规定的，表示拒绝实际上成立的的最大允许概率，常用符号表示。通常取0.05，它表示如果真实情况是成立，我们根据样本信息错误拒绝的概率不超过5%。
检验水准就是犯第I类错误的概率。也就是说，是当零假设为真时，假设检验拒绝零假设的概率。

我们将这两句话结合起来看一下，第一句说检验水准是拒绝

的最大允许概率；第二句说检验水准就是犯第一类错误的概率。拒绝

就等于犯了第一类错误（在

为真的情况下），这样看来，这两句话似乎有不太吻合的地方：

第一句中的“最大允许”四个字说明，“当原假设

为真而拒绝

”的概率应该是一个不确定的值，而我们只是规定了它最大不能超过某个值，比如0.05或0.01。第二句却说检验水准就是第一类错误的犯错概率，透露出这是一个确定的值，无论做什么检验，只要设定了0.05的检验水准，那么第一类错误应该总是0.05。

大家仔细品品这两句话，是否同样觉得存在问题？

就我个人而言，我认为这里的表述不够严谨。检验水准应该称作“犯第一类错误的最大概率”，而不应该直接说“犯第一类错误的概率就是检验水准”。如果按照这个说法，那犯第一类错的真实值不应该是P值吗？

上篇假设检验已经讲过，P值是在

成立的情况下，得到现有样本及更极端样本的概率。当P值小于0.05（检验水准设为0.05），那我们就拒绝

，如果P大于0.05，就不拒绝。这里其实表明P值才是根据当前样本犯第一类错误的真实概率，更严格来讲，还要再加一句，当你做出拒绝

决定时。

也就是说，当P小于0.05时，你会拒绝

，此时犯错的概率是P值；而当P大于0.05时，因为你不会拒绝

，所以你其实不存在犯第一类错误的可能，因此，我们也不能笼统地说，犯第一类错误的概率就是P值，而只有当P小于检验水准时，由于我们会根据这条准则做出拒绝

的推论，才有了犯错的可能，才能说犯错的概率是P值。

我们可以在其他教科书中找到相应的佐证。

《概率论与数理统计》（浙江大学，第四版）中对P值的定义为：

P值是由检验统计量计算的样本观察值得出的原假设可被拒绝的最小显著性水平。

显著性水平，和检验水准是一个意思，都指

，这句话中的关键词“原假设可被拒绝”，意味着P值计算的实际上是原假设为真的情况，我们仍想拒绝的概率。

换句话说，P值是我们如果想要拒绝

，所必须承担的风险。有风险，是因为有犯错的可能，所以P值表示的是在当下这个检验中，我们犯错的概率。

注意这里的措辞，我们说的是“想拒绝”，并非真的拒绝。一旦我们划定一个标准，比如0.05，当P值小于这个标准时，我们才真的拒绝，才会有犯错的风险。

另一本教课书——商务与经济统计（第八版）中关于第一类错误和P值的表述是：

在实践中，人们将假设检验中所发生的第一类错误的概率的最大允许值称为检验的显著性水平；而把P值称为观察显著性水平。

这些表述说明，检验水准（或称显著性水平）是一个标准，而P值是与这个标准进行比较的概率，这个概率值决定了当下这个检验犯第一类错误的大小。

举个例子，有两个假设检验，第一个P值是0.02；第二个P值是0.2；第一个P=0.02，表示当前如果拒绝

，我们下这个决定要承担的风险是2%，也就是说犯错的概率是2%；第二个P=0.2，意味着如果我们要拒绝

，我们需要冒的风险是20%。

两相比较，显然第一个风险小，因此根据第一个检验来拒绝

更加可信，而第二个检验由于承担的风险太大，所以一般我们不会下拒绝

的结论，而说“没有充足的理由，所以不拒绝

”。

同时，我们常说增加样本量可以同时降低犯两类错误的概率，可如果我们声称”检验水准就是犯第一类错误的概率，并将检验水准固定在0.05“，那么，怎么能说，随着样本量的增加可以降低两类错误，在这种说法下，第一类错误的概率是固定的。

实际上，增加样本量，能降低是P值，如下图，以t检验的计算公式为例，我们可以看到，当n增大，t值会变大，从而意味其对应的概率（曲线下面积）变小。所以，严格来讲，增大n能降低犯第一类错误的概率，实际上指的是降低P值。

t检验统计量

以上就是我们对第一类错误进行的一个分析和补充，再总结一下我们的观点：检验水准α是犯第一类错误的最大概率，当我们得出的P值小于α时，我们就会拒绝HO，此时，犯错的真实概率是P值；而当P值大于α时，我们不会拒绝H0 ，所以理论上讲，不存在犯第一类错误的说法，而是否会犯第二类错误，犯错概率到底怎么算，这个留到我们下一篇文章仔细讲解。

这篇文章咋看起来可能比较绕，如果不能马上弄懂，可以之后再翻看几遍。同时，由于我们的结论与某些教科书上的说法不完全一致，所以提醒同学们仔细斟酌一下，有条件的同学最好能和相关老师讨论一下，避免作业、考试中被误判。

丁点帮你

“丁点帮你”是由毕业于北京大学的丁小丁和丁小点共同创立的，旨在搭建一个知识分享和一对一咨询平台。

希望通过我们的努力，给大家分享有价值的观点和知识，同时让您的问题得到及时的、有针对性的回答。欢迎扫描下方二维码关注我们的微信公众号“丁点帮你”。

欢迎交流，欢迎投稿！