生物_医药_科研 / 画说统计 / 画说统计 | 可信区间估计帮你雾里看花认识...

分享

   

画说统计 | 可信区间估计帮你雾里看花认识真实的世界

2018-12-29  生物_医药...

平均值与标准差是描绘正态分布的重要参数。


但是,在现实世界中,我们往往没有可能去直接认识这个传说中的总体,而是只能通过抽样研究,依靠样本来间接认识总体。


并通过样本的平均值与标准差间接的了解总体特征:


但抽样过程中,抽样误差无法避免,显然仅仅用样本的均值作为总体均值的代表,虽然已经“相对准确”了。但是显然还没有“淋漓尽致”。


如何能够把误差的特征给与更准确的描述呢?让我们先来看看样本均数和总体的关系吧。

假定我们对同一个总体完成样本量为1,10和100的三种抽样:


于是可见:每一次抽样的均值都不会完全相同:


而且,样本量越大的时候样本平均值的离散程度越小,也越接近总体平均值:


当我们“无限重复“抽样过程的时候,我们可以对样本均数所构成的分布函数进行如下描绘:


由此可见样本均数同样服从正态分布,且与其来源的总体具有相同的平均值,只是离散趋势会随着样本量的增大而逐渐缩小。也就是样本量越大的时候,我们计算的样本均数越容易接近总体均数的真值。


总体分布的离散特征-标准差和样本均数分布的离散特征-标准误之间的关系如下:


当我们通过一个样本来描述总体特征时,我们会用样本均数和标准差(SD)描述样本特征;用样本均数和标准误(SE)描述均值特征。且在给定标准差的情况下,样本量越大标准误就越小,均值的估算也就越准确。


再次友情提示:不少同学在描述样本的时候,由于”嫌弃“过大的标准差,就改用标准误作样本描述,殊不知这样一来,我们已经不是在描述样本特征而是在描述均值特征了


那么可信区间又是什么呢?这还要从正态分布概率密度函数的特征说起。


正态分布概率密度函数的曲线下面积代表概率,总面积为1,通过计算可知,在均值±1.96倍标准差的区间内其曲线下面积为0.95。也就是说数据落于在此区间外的概率仅有0.05,是小概率事件。这也构成了我们计算95%可信区间的依据。


在针对某特定总体完成一次抽样时,我们会以所获得的样本均数来估算总体均值,这个样本均数被称为总体均数的点估计值。同时我们可以通过计算:

      (均值-1.96标准误,均值+1.96标准误)

   来完成针对总体均数的可信区间估计。


从图中可见,来自样本的点估计值与总体均数较为接近,但并不重合。通过区间估计,我们可以看到样本的均数落于区间估计的范畴之内


如果完成了多次抽样,我们可以看到,虽然每一次所获得样本均数都不相同但通过区间估计,总体均数都落在了相应的区间估计之内。


因而,区间估计的意义在于:虽然通过样本研究无法直接知道总体均数的真值,但借助区间估计我们可以推知真值会处于区间中的某个位置。

那么真值有没有可能跑到区间以外呢?当然有可能啊,只是这样的区间比较少,少到仅有5%,是可以接受的小概率事件。


因此样本均数95%可信区间的含义在于:在特定条件的样本分析中,会有95%的区间会包括总体均数的真值,而另外5%则未能将真值囊括其中。



计算举例:

例如,在针对100例新生正常女婴的身高调查中,发现女婴出生时的身高为:

 49.8 ± 1.6cm

则平均身高的95%可信区间上限及下限值分别为:


则针对新生正常女婴平均身高的点估计值及其95%可信区间可表示为:

49.849.5, 50.1 





    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。如发现有害或侵权内容,请点击这里 或 拨打24小时举报电话:4000070609 与我们联系。

    0条评论

    发表

    请遵守用户 评论公约

    类似文章
    喜欢该文的人也喜欢 更多

    ×
    ×

    ¥.00

    微信或支付宝扫码支付:

    开通即同意《个图VIP服务协议》

    全部>>