分享

标准误和标准差,傻傻分不清?

 钟山紫竹林 2019-05-23

在之前的推送中,我们已经了解了正态分布标准分数及其应用,以及中心极限定理

在介绍中心极限定理时,我们知道:在大样本情况下,如果已知总体的标准差σ,那么样本均值分布的标准差为σ/√n,称为样本均值的标准差(StandardDeviation)。

因此,我们可以用总体的标准差σ估计样本均值分布的标准差。

但,现实生活中考察的总体通常都会很大,调查总体中的每一个个体不太现实,并且成本巨大。因此,我们很少能知道真实的总体均值μ和总体标准差σ,而且还考虑通过样本的均值和标准差来估算总体的均值。

我们可以很容易地在总体中抽取到一个样本,但它并不能完全代表总体。如果进行随机抽样模拟实验会发现,在总体和样本量相同的情况下,每次抽取得到的样本都可能不同;样本均值虽然与总体均值近似,但样本均值与总体均值不同。

阅读下方的“正态总体与其样本均值的抽样分布图”,中间紫色的正态分布表示的是从总体中抽取的样本均值的分布,总体均值可能落在紫色正态分布图中的任意一点。

正态总体与其样本均值的抽样分布

在σ未知的情况下,可以用样本的标准差来估计样本均值分布的标准差

称为样本均值的标准误(Standard Error)

但用样本均值估计总体均值会存在一定的误差,所以我们下一步就是计算误差的范围,以及构建置信区间——区间估计

根据正态分布的性质,与90%,95%,99%的概率区间对应的标准差倍数分别应该为:1.645, 1.96, 2.575。其中,大约有95%的数值落在距均值1.96个标准差的区间内。

正态分布的3σ原则

因此,当用样本均值作为总体均值的估计时,95%的置信区间是:

我们估计,所有可能的样本中,95%的样本均值都在总体均值约2个标准差以内。因此,如果多次重复抽样以及构建置信区间,那么95%的置信区间将会包含总体均值,而5%的则不包含。

上图很好的描述了样本均值95%的置信区间的含义。在大部分的情况下,总体真实的均值都是落在样本均值的置信区间内的,只有少数的样本均值的置信区间没有包含总体真实的均值。

  小案例:

根据上述对标准误和置信区间的解释,我们来分析一个与中国家庭收入调查有关的数据:

在2013年进行了中国家庭收入调查,总共调查了n=16907个家庭,数据显示:2013年家庭收入的平均值为55329.19元,标准差为s=53794.82。请基于此数据估计全国居民家庭收入的平均值。

阅读完整篇文章后,我们可以轻松地根据样本均值和样本量计算出样本的标准误;

再根据,95%的置信区间公式,

计算得到2013年全国居民的家庭平均收入95%的置信区间为[54518.30, 56140.08]。

在这篇推文中,我们重点需要了解的知识点是标准误和标准差的区别,如何计算样本均值的误差范围,以及如何构建置信区间。

如果之前对正态分布、标准分布和中心极限定理等知识点了解得不够透彻,可能会被绕晕,建议大家先回过头去补补课。

我之前的推文中已经积累了很多有关统计学的基础介绍,大家可以翻阅。我发布的内容主要参考了松鼠的《妙趣横生的统计学》课程,你也可以和我一样,直接学习视听课程,学习会更系统更高效。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多