分享

一文搞懂“第二类错误、检验功效、样本量计算”的内在逻辑

 liyu_sun 2020-09-22
不知道你是否会有疑问:为啥题目中要把这三样放在一起?我们先不解释,顺着读下来就会明白:搞懂了第二类错误,检验功效和样本量的计算就“不攻自破”了。

1. 如何理解第二类错误(熟悉前文的同学,可快速浏览)
首先,我们先回顾一下这两类错误的具体含义。
比如我们想检验北京大学男生的平均身高是否为1.8米(H0:身高总体均数为1.8)。随机抽取100名男生测量其身高,我们知道这100名男生的身高就是一个样本,北京大学所有男生的身高就是样本所对应的总体。
当然,我还可以获得很多其他的样本,特别注意,这里的样本不是一个一个学生,而是一个由100个学生组成的集体。
假设检验的思路是,我们先假设北京大学男生身高的总体均数是1.8,然后通过我们抽中的样本来验证这个假设。
我们知道,每一组样本都会计算出一个样本均数,有的样本均数离假设的总体均数(这里就是1.8)近,而有的离1.8远。
当某个样本均数离1.8远的时候,即两者差异较大时,我们就会倾向拒绝H0假设,认为北京大学男生的平均身高不是1.8米;而两者差异不太大的时候,就倾向于不拒绝。
这个检验要犯第二类错误,首先意味着H0(总体平均身高为1.8米)是假的,即实际总体身高的平均值可能是1.85米或者1.75米,但是,根据抽中的样本所计算的样本均数却与1.8更接近,比如1.78,因此,可能因为抽样误差我们得出不拒绝H0的结论。
虽然“不拒绝H0”不等同于“接受H0”,可是在实际生活中,我们其实是默认这两者是一个意思,而由于H0是假的,我们没有拒绝它,反而接受它,所以就犯错了,这就是第二类错误。
这里要指出的是,我们说犯第二类错误,其实是在默认你“接受H0假设”的前提下说的。而如果你非要说,我没有接受,只是说“不能拒绝”,那实际上你不会犯第二类错误。
仔细品这里的“不能拒绝”,它实际上不是一个科学的判断(不能被证伪),即“它没说对,也没说错”,潜台词是“无法判断”,既然无法判断,它也就不会犯错。
因此,我们通常说犯第二类错误,实际上是把“不能拒绝”等同于“直接接受”,即第二类错误是“当H0为假,而接受H0”的错误。

2. 第二类错误怎么算
犯第二类错误,意味着H0为假,我们却接受H0。继续看上文身高的例子,H0为假意味着北京大学男生的平均身高不是1.8米,不是1.8那会是多少呢?我们不知道。
在这种情况下,如果要求第二类错误的概率,就必须要能先估计真实的总体均数,比如,我们再开一次上帝视角,知道了北京大学男生身高的总体均数实际是1.85。只有获得了这个信息,我们才能来计算第二类错误的概率
其中的逻辑,我们对照下面这图再仔细说一遍。
如上图,有两条正态分布曲线,横轴代表“样本均数”,左边表示H0总体,右边表示H1总体;在本例中,左边表示总体均数为1.8的总体;右边代表总体均数为1.85的总体。当H0为假时,意味着样本数据实际上来自于右边这个总体。
这里特别费解的一点是,事先我们并不知道,H0到底对不对,只能假设它对,然后根据假设检验来判断。我们进行判断是否有差异用的是左边的总体(H0成立):如果算出来的P值大于0.05(设检验水准是0.05),就不拒绝H0;如果小于0.05就拒绝。
也就是说我们需要依据左边总体的分布来计算检验统计量并判断是否要拒绝原假设,因为我们假设所获得的这个样本是来自于左边这个总体的。
但是,计算犯错概率时,我们要用的是右边的实际总体(H0不成立):在这个实际的总体中,会有多少样本导致在上一步计算检验统计量时不拒绝H0,即上图就是蓝色的部分:
根据蓝色部分的样本均数计算的P值都会大于0.05(因为它们都不在拒绝域,即红色区域内),可是因为,它们实际上来自于右边这个总体,所以,当计算犯第二类错误概率时,就是计算蓝色部分在右边这个正态图形下的面积。
以上便是第二类错误的计算思路。
3. 检验功效和样本量计算
相比第二类错误,在实际应用中,我们关注更多的是“检验功效”(power)。
所谓“检验功效”,数学表达式是:1-β,即1-第二类错误的概率,表示在一定的检验水准下,当H1为真时,意味着H0为假,假设检验能够拒绝H0的概率。
很难理解吧,不急,下面我们通过一个完整、带计算的例子来实战一下,你就会弄懂这一切。
首先,我们看看一般涉及这种问题时,怎么把题目转变成统计语言。
问题:某个研究团队想知道跑步是否会增加骨密度,基于前期的研究,他们发现6个月的跑步,人骨密度变化百分比的标准差是2(%),而根据专业知识,只有骨密度增加1(%)时才认为有实际意义,现在研究者希望有一个较高的概率能够探测到1(%)这个变化。那么对于该项研究,25例样本的检验功效是多少?
我开始看到这个题目的时候,也是一脸懵逼。
下面我们一步一步来理清和弄懂解决这类问题的基本逻辑。
首先,针对这个题目,要清楚什么是我们关注的重点?是人的骨密度吗?不是!是骨密度的变化情况,准确的说骨密度变化的百分比才是我们关注的重点。
我们大致“脑补”一下这个研究实施的具体过程:随机抽取一组样本,先测一下每个人的骨密度,要求他们坚持6个月的跑步训练,6个月之后再测其骨密度,然后计算每个人骨密度变化的百分比。
因此,我们这里研究的实际上是一个百分数,记为X(%),衡量的是骨密度的变化水平。
既然是变化水平,那么我们能够猜测X的取值有三种:负(骨密度变小)、零(没变)、正(变大)。
从专业的角度判断,跑步有利于骨密度的增加,所以我们估计大多数的人骨密度前后变化的百分比是正的,由此得到的样本均数大概率是正数。
但这都是通过专业知识进行的推断,实际情况如何还有待检验。
于是,对于整个人群而言,我们用μ表示“跑步后骨密度变化百分比的总体均数”;如果μ= 0,则意味着,总体来看,跑步对骨密度的提升没有作用,既没有增加,也没有降低。
所以,如果用假设检验来验证跑步对骨密度的变化是否有影响,H0假设是:μ= 0。
相对应的,H1,备择假设就是:μ> 0,表示根据专业知识和历史研究大概率推测跑步有助于增加骨密度。
最后,把检验水准设为0.05。所以,这便转变为一个单侧假设检验的问题:
理清这些后,我们回到上面的问题。
题目中可能最费解的就是这句话——“专业上认为只有骨密度增加1(%)才有实际意义,现在研究者希望有一个较高的概率能够探测到1(%)这个变化。”
请大家先思考一分钟这里的“1”是什么意思?
这里1(%)表示,根据专业知识判断,跑步6个月,人体骨密度大概会平均增加1%,也就是说,把所有跑步6个月的人作为一个总体,测量这个总体跑步前后的骨密度变化率,其总体均数为1(%)。
更进一步,这里的“1”告诉我们:如果假设检验拒绝H0,接受H1时,H1所代表的的总体,其总体均数等于1,即  。相对应的,如果把H0代表的总体均数称作  ,那  等于多少呢?  。
所以,把这个问题说的更直白一些:因为我们预期跑步能明显地提高骨密度,所以,上面的假设检验大概率会得到“拒绝H0”的结果。但是,即便跑步有十分明显的效果,如果我们纳入研究的样本量不够,很有可能还是会得出阴性结果,“即不拒绝H0”。比如,如果只研究一个人,直觉上就觉得不靠谱。
因此,在既想少纳入研究对象,但又不想得到阴性结果的权衡下,我们需要考虑检验功效的问题。
上文说了,检验功效是指“H0为假而拒绝H0的概率”。现在对照下图,仔细来看一看。
图1
A、B两图的横轴代表“骨密度变化百分比”的样本均数(注意,这里是样本均数),这两条曲线表示样本均数的正态分布(这里觉得难理解的,可复习前文“抽样和抽样分布”)。
A代表H0总体;B代表H1总体,也就是说,如果跑步不会增加骨密度,则其变化百分比的样本均数服从A图的正态分布;如果跑步有正向作用,而且,我们认为其可能使骨密度平均增加1(%),则样本均数服从B图。
事前,我们不确定到底A、B哪个图更符合实际,所以,先假设服从A。如此,如果我们希望它能拒绝H0,那么样本均数应该要出现在哪里呢?
看图A的阴影部分,没错,如果样本均数大于图中所示的0.65(具体如何计算的,后面再讲),则我们就会得出“拒绝H0假设”的结论。
既然拒绝H0假设,那意味着,跑步后骨密度增加的总体均数不是0,即样本均数不应该服从A,而是服从一个总体均数为正的正态分布。
这里简单提一句,之所以,图B的总体均数画在“1”处,是根据题意说“想探测1(%)的变化”。很自然,如果我们想探测“2(%)的变化”,就应该假设H1总体均数是2。
这里透露出一个重要的信息,检验功效或样本量的计算是依赖给定的H1总体均数的。现实中,我们更常用的是所谓的“效应值”,这里的“1”就是一个例子,表示“跑步对骨密度的平均效应是正的1%”。
因此,效应值、检验功效和样本量,这三者是紧密相连的,其中之一发生变化,如果保持另一个不变,则第三个变量必定变化。
回到我们的问题,对于图A,只要样本均数大于0.656,我们就会得到拒绝H0的结论。由于实际上,样本均数是服从于图B的,因此,要计算检验功效,实际是在图B中计算“样本均数大于0.656”的概率,也就是B图中阴影部分的面积。
再反过来想一想,如果实际上样本均数服从B图,那么从B图阴影部分抽取的样本均数,在图A中进行假设检验,则都会得到拒绝H0假设的结论。
现在,你再结合检验功效的定义——“H0为假而拒绝H0的概率”,是不是很贴切?
明白了这其中的整套逻辑,我们来看看具体的计算过程。

这里我们会用到z检验,顺便说一句,前两天有小伙伴在后台问我,什么是z检验?可能大家更熟悉t检验,把z检验倒忘记了。
这里我简单提一下,z检验(也称u检验),对应标准正态分布,是假设检验中最简单的一种,主要用于样本量较大和总体标准差已知的情况下,它与t检验的区别可见下图:
当样本量大于50时,t检验实际上可以完全近似为z检验,好处就是,我们不需要根据自由度查t分布表,而是直接根据标准正态分布来进行计算和判断P值。
本例,我们就采用z检验的思路,来计算检验功效。
(1)第一步
我们需要结合图1中A来判断在什么情况下我们会拒绝H0。因为本题是一个单侧检验(H1:μ> 0是单侧的;如果H1表示为μ≠0,则称双侧检验),在以0.05为检验水准的情况下,当  时,  (如下图):
单侧z检验临界值
因此,结合z检验的计算公式可得:
其中, 
所以,当样本均数  时,上述假设检验会得到拒绝  的结果
2. 第二步
计算在H1总体下,  的概率,即 
此时, 
在正态分布那一讲中我们学习过如何计算一个服从正态分布的随机变量的概率,因为  服从正态分布,从而对其进行z变换、求概率:
 
从而,该假设检验的检验效能为  ,意味着当跑步能使骨密度实际增加 1(%)时,该假设检验(样本量为25)有81%的可能性拒绝错误的  假设。换言之,该检验犯第二类错误的概率为19%  。

以上就是本例的详细计算过程,相信现在再看上面的图1会一目了然。我们简单回顾一下整个过程:要计算检验功效(或第二类错误的概率),首先需要计算当拒绝  时样本均数的取值范围;得到这个取值范围后,计算在H1总体下,该取值范围的概率,从而得到检验功效。
你会发现其实整个计算过程并不复杂,主要用到的数学知识点其实就两个:一是样本均数近似服从正态分布;二是服从正态分布的随机变量如何求概率。这也是为什么我们前期不断强调大家掌握这些基础内容的原因。
弄懂计算过程,相信你对第二类错误、检验功效和样本量计算这三者之间的联系或许有些感觉了。比如,在这个问题中,如果问题改变为:“要保证81%的检验功效,至少需要多少样本量?”
解题思路几乎没有任何变化,只是现在我们知道了检验功效,要求样本量,就相当于把上面计算过程中的 当做一个未知数,直接将已知的检验功效上式,即可解出  ,这其实就是样本量计算的基本逻辑。
所以,检验功效和样本量是可以相互转化的,知道了其一就可以推算其二。这里要提醒一点,上述计算过程是建立在确定的检验水准  和相应的效应值的基础上(本例即  )进行的,所以实际操作中,这两个变量也需要事先确定。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多