分享

为什么说置信区间跨1,假设检验就没有统计学意义

 liyu_sun 2020-07-28
想必你肯定听过这样的说法:“这个置信区间跨1了(有时是跨0了),所以P值没意义(P>0.05)。”
置信区间啥时候和P值扯上关系了,更准确的说,置信区间和假设检验怎么联系起来了?
要明白其中的奥秘,我们得从下面这道题目讲起:
为估计某高校全部男生的平均身高,随机抽取500名该校男生,计算其平均身高,结果为168.5cm。
假设已知该高校男生总体身高的标准差为3cm,从而估计出该样本所对应的总体身高的置信区间为[165.24, 168.76](具体计算过程,下文会详述.
根据以上信息,判断以下哪项说法正确:
A.我们不能拒绝该高校男生总体身高均数为170cm的零假设
B.我们可以拒绝该高校男生总体身高均数为170cm的零假设
思考一分钟,再开始看下面的内容。

直觉上你可能会比较三个东西:168.5,170,以及上述的95%置信区间[165.24, 168.76]。可能说不出来为什么,但思路应该没错。比完发现,170没有在这个区间内,好像选B。
问题是为什么置信区间没有包括170,就可以拒绝零假设呢?
首先,我们要简单回顾一下置信区间的内容。
在本例中,样本均数为  ,总体标准差为  ,根据抽样分布的知识,我们知道,在重复抽样中,样本均数  将近似服从正态分布  。
此正态分布以未知的身高的总体均数  为中心,以  为标准差,称为样本均数的标准差(也称“标准误”)。
根据正态分布68-95-99.7法则,95%的样本均数都落在总体均数  ,这里的0.26是上述样本均数标准差0.13的2倍(严格而言应该是1.96倍)。由此,我们反推出总体均数μ的95%置信区间为: 
(对上述过程不熟悉的同学,请翻看怎样全面理解95%置信区间一文)
如下图,样本均数  的抽样分布:
样本均数的抽样分布,横轴表示其所有可能的取值,其中μ为其对称点
仔细看上图,这里把样本均数看成一个变量:如果样本均数落到了两端的阴影区域,则计算出来的置信区间  就不会包括总体均数  ,反之,从中间空白区域任意抽取的一个样本均数,计算的置信区间都将包括总体均数。
正因为这些空白区域的样本均数占比为95%,因此,从整个数轴抽取一个样本均数,其能包括总体均数的可能性为95%,所以才叫95%置信区间。
由此,置信区间,是在样本均数已知,而总体均数未知的情况下,用样本推断总体,注意这里虽然总体均数未知,但它是一个确定的值,而我们根据样本计算的置信区间要么包括总体均数,要么不包括。
这与假设检验的区别在于,假设检验先给你一个总体均数(即零假设的情况),然后需要你判断这个总体均数对不对。
比如,在本题中,问170cm能不能被拒绝,展开来说就是想知道:如果我们假设总体均数是170,结合现在获得的168.5的样本以及总体标准差已知为3cm的情况下,进行假设检验P值的大小;如果P>0.05,则不拒绝,若P≤0.05则拒绝。
具体如何判断呢?依照假设检验的思路,既然要检验170是否被拒绝,那我们不妨就先假设总体均数真的为170,看看会出现什么情况?
同样地,我们知道,95%的样本均数都会落在总体均数μ±0.26的范围内,现在假设μ=170,从而计算出该范围为:[169.74, 170.26]。很快就能发现,样本168.5没有在这个范围内。
结合上图,我们知道,在μ=170的情况下,样本均数如果等于168.5,则它会落在左边阴影部分,因为168.5<μ-0.26。
这意味着,如果我们进行假设检验,就会得到拒绝零假设的结论。所以,B选项正确,即如果置信区间为[165.24, 168.76],则假设总体均数为170的零假设会被拒绝。
实际上,不仅170会被拒绝,只要零假设是置信区间以外的值,都会被拒绝!

为了更好地理解,这里需要换个看置信区间的角度。
置信区间虽然是一个区间,但本质上,它是一个样本均数加减一个区间长度,本例中的区间长度为0.26。这个区间长度实际代表了当零假设成立时总体均数与样本均数的最大允许差距。
如果待检验的某个总体数值,落入了置信区间(比如落入[165.24, 168.76]),则意味着,该值与所得的样本均数(168.5)的差距较小,而且小于0.26,反映在上图就意味着,样本均数落在了空白区域,则其在假设检验中就不会被拒绝。
如果待检验的总体值不在区间内时,比如本例中的170,则意味着假设的总体均数与样本均数差距过大,大于0.26,反映在上图就意味着,样本均数168.5将落在阴影部分,则其在假设检验中就会被拒绝。
总结来看,无论是假设检验还是置信区间,我们始终要秉持一个观点:总体均数只有一个,虽然未知,但它总是固定不变的,而样本均数是可以变化的
判断置信区间能否包括某个假设的总体均数,或者判断某个假设的总体均数是否会被拒绝,本质上,其实是在衡量这个假设的总体值与所获得样本值的差距
如果两者差距过大,超过允许的最大误差(本例中为0.26,通过正态分布95%法则计算得出),则零假设会被拒绝,而且置信区间也不会将其包括,反之亦然。
明白了置信区间和假设检验的这种联系,会自然提出一个这样的问题:为什么大多数论文都要求同时报告P值和置信区间呢,从P值不就可以知道统计是否有意义了吗?
这是因为,置信区间还可以提供假设检验所不能提供的信息,置信区间在回答差别有无统计学意义时,还可以提示差别是否具有实际意义
例如,降血压药至少要使血压平均降低10mmHg以上才认为具有临床治疗意义,因此,10mmHg是具有实际意义的值。
这意味着当比较两种药物降血压效果是否有差异时,虽然统计上只要两者差距不为0(P<0.05),就认为有统计学意义,可是从临床医学的角度来看,即便这两者差距大于0,但如果小于10,则也会被认为没有太大的实际意义。
如下图,置信区间(a)~(c)均不包含原假设H0,表示相应的差异具有统计学意义,但在结果是否有实际意义方面却有差异:
置信区间所能提供的信息
(a)提示差异具有实际意义;(b)提示可能具有实际意义;(c)表示实际意义不大;(e)表示无实际意义,也无统计学意义;最奇怪的是(d),它同时跨越了H0和实际意义的值,提示可能样本量不足。
由此看来,置信区间和假设检验结合起来才能为统计推断提供更加全面的信息,其中需要特别注意置信区间所隐含具有实际意义的值。

注:文章参考来源为《卫生统计学》(人卫第八版)

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多