标准误和标准差，傻傻分不清？

钟山紫竹林 2019-05-23

展开全文

在之前的推送中，我们已经了解了正态分布、标准分数及其应用，以及中心极限定理。

在介绍中心极限定理时，我们知道：在大样本情况下，如果已知总体的标准差σ，那么样本均值分布的标准差为σ/√n，称为样本均值的标准差（StandardDeviation）。

因此，我们可以用总体的标准差σ估计样本均值分布的标准差。

但，现实生活中考察的总体通常都会很大，调查总体中的每一个个体不太现实，并且成本巨大。因此，我们很少能知道真实的总体均值μ和总体标准差σ，而且还考虑通过样本的均值和标准差来估算总体的均值。

我们可以很容易地在总体中抽取到一个样本，但它并不能完全代表总体。如果进行随机抽样模拟实验会发现，在总体和样本量相同的情况下，每次抽取得到的样本都可能不同；样本均值虽然与总体均值近似，但样本均值与总体均值不同。

阅读下方的“正态总体与其样本均值的抽样分布图”，中间紫色的正态分布表示的是从总体中抽取的样本均值的分布，总体均值可能落在紫色正态分布图中的任意一点。

正态总体与其样本均值的抽样分布

在σ未知的情况下，可以用样本的标准差来估计样本均值分布的标准差：

称为样本均值的标准误（Standard Error）。

但用样本均值估计总体均值会存在一定的误差，所以我们下一步就是计算误差的范围，以及构建置信区间——区间估计。

根据正态分布的性质，与90%，95%，99%的概率区间对应的标准差倍数分别应该为：1.645, 1.96, 2.575。其中，大约有95%的数值落在距均值1.96个标准差的区间内。

正态分布的3σ原则

因此，当用样本均值作为总体均值的估计时，95%的置信区间是：

我们估计，所有可能的样本中，95%的样本均值都在总体均值约2个标准差以内。因此，如果多次重复抽样以及构建置信区间，那么95%的置信区间将会包含总体均值，而5%的则不包含。

上图很好的描述了样本均值95%的置信区间的含义。在大部分的情况下，总体真实的均值都是落在样本均值的置信区间内的，只有少数的样本均值的置信区间没有包含总体真实的均值。

小案例：

根据上述对标准误和置信区间的解释，我们来分析一个与中国家庭收入调查有关的数据：

在2013年进行了中国家庭收入调查，总共调查了n=16907个家庭，数据显示：2013年家庭收入的平均值为55329.19元，标准差为s=53794.82。请基于此数据估计全国居民家庭收入的平均值。

阅读完整篇文章后，我们可以轻松地根据样本均值和样本量计算出样本的标准误；

再根据，95%的置信区间公式，

计算得到2013年全国居民的家庭平均收入95%的置信区间为[54518.30, 56140.08]。

在这篇推文中，我们重点需要了解的知识点是标准误和标准差的区别，如何计算样本均值的误差范围，以及如何构建置信区间。

如果之前对正态分布、标准分布和中心极限定理等知识点了解得不够透彻，可能会被绕晕，建议大家先回过头去补补课。

我之前的推文中已经积累了很多有关统计学的基础介绍，大家可以翻阅。我发布的内容主要参考了松鼠的《妙趣横生的统计学》课程，你也可以和我一样，直接学习视听课程，学习会更系统更高效。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：钟山紫竹林 > 《统计》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

钟山紫竹林

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换