在之前的推送中,我们已经了解了正态分布、标准分数及其应用,以及中心极限定理。 在介绍中心极限定理时,我们知道:在大样本情况下,如果已知总体的标准差σ,那么样本均值分布的标准差为σ/√n,称为样本均值的标准差(StandardDeviation)。 因此,我们可以用总体的标准差σ估计样本均值分布的标准差。 但,现实生活中考察的总体通常都会很大,调查总体中的每一个个体不太现实,并且成本巨大。因此,我们很少能知道真实的总体均值μ和总体标准差σ,而且还考虑通过样本的均值和标准差来估算总体的均值。 我们可以很容易地在总体中抽取到一个样本,但它并不能完全代表总体。如果进行随机抽样模拟实验会发现,在总体和样本量相同的情况下,每次抽取得到的样本都可能不同;样本均值虽然与总体均值近似,但样本均值与总体均值不同。 阅读下方的“正态总体与其样本均值的抽样分布图”,中间紫色的正态分布表示的是从总体中抽取的样本均值的分布,总体均值可能落在紫色正态分布图中的任意一点。 正态总体与其样本均值的抽样分布 在σ未知的情况下,可以用样本的标准差来估计样本均值分布的标准差: 称为样本均值的标准误(Standard Error)。 但用样本均值估计总体均值会存在一定的误差,所以我们下一步就是计算误差的范围,以及构建置信区间——区间估计。 根据正态分布的性质,与90%,95%,99%的概率区间对应的标准差倍数分别应该为:1.645, 1.96, 2.575。其中,大约有95%的数值落在距均值1.96个标准差的区间内。 正态分布的3σ原则 因此,当用样本均值作为总体均值的估计时,95%的置信区间是: 我们估计,所有可能的样本中,95%的样本均值都在总体均值约2个标准差以内。因此,如果多次重复抽样以及构建置信区间,那么95%的置信区间将会包含总体均值,而5%的则不包含。 上图很好的描述了样本均值95%的置信区间的含义。在大部分的情况下,总体真实的均值都是落在样本均值的置信区间内的,只有少数的样本均值的置信区间没有包含总体真实的均值。 小案例: 根据上述对标准误和置信区间的解释,我们来分析一个与中国家庭收入调查有关的数据: 在2013年进行了中国家庭收入调查,总共调查了n=16907个家庭,数据显示:2013年家庭收入的平均值为55329.19元,标准差为s=53794.82。请基于此数据估计全国居民家庭收入的平均值。 阅读完整篇文章后,我们可以轻松地根据样本均值和样本量计算出样本的标准误; 再根据,95%的置信区间公式, 计算得到2013年全国居民的家庭平均收入95%的置信区间为[54518.30, 56140.08]。 在这篇推文中,我们重点需要了解的知识点是标准误和标准差的区别,如何计算样本均值的误差范围,以及如何构建置信区间。 如果之前对正态分布、标准分布和中心极限定理等知识点了解得不够透彻,可能会被绕晕,建议大家先回过头去补补课。 我之前的推文中已经积累了很多有关统计学的基础介绍,大家可以翻阅。我发布的内容主要参考了松鼠的《妙趣横生的统计学》课程,你也可以和我一样,直接学习视听课程,学习会更系统更高效。 |
|