为什么样本方差（sample variance）的分母是 n

taotao_2016 2019-05-06

展开全文

先把问题完整的描述下。

如果已知随机变量的期望为，那么可以如下计算方差：

上面的式子需要知道的具体分布是什么（在现实应用中往往不知道准确分布），计算起来也比较复杂。

所以实践中常常采样之后，用下面这个来近似：

其实现实中，往往连的期望也不清楚，只知道样本的均值：

那么可以这么来计算：

那这里就有两个问题了：

为什么可以用来近似？
为什么使用替代之后，分母是？

我们来仔细分析下细节，就可以弄清楚这两个问题。

1 为什么可以用来近似？

举个例子，假设服从这么一个正态分布：

即，，图形如下：

当然，现实中往往并不清楚服从的分布是什么，具体参数又是什么？所以我用虚线来表明我们并不是真正知道的分布：

很幸运的，我们知道，因此对采样，并通过：

来估计。某次采样计算出来的：

看起来比要小。采样具有随机性，我们多采样几次，会围绕上下波动：

用作为的一个估计量，算是可以接受的选择。

很容易算出：

因此，根据中心极限定理，的采样均值会服从的正态分布：

这也就是所谓的无偏估计量。从这个分布来看，选择作为估计量确实可以接受。

2 为什么使用替代之后，分母是？

更多的情况，我们不知道是多少的，只能计算出。不同的采样对应不同的：

对于某次采样而言，当时，下式取得最小值：

我们也是比较容易从图像中观察出这一点，只要偏离，该值就会增大：

所以可知：

可推出：

进而推出：

如果用下面这个式子来估计：

那么采样均值会服从一个偏离的正态分布：

可见，此分布倾向于低估。

具体小了多少，我们可以来算下：

其中：

所以我们接着算下去：

其中：

所以：

也就是说，低估了，进行一下调整：

因此使用下面这个式子进行估计，得到的就是无偏估计：

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： taotao_2016 > 《数学》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

taotao_2016

关注对话

TA的最新馆藏

常用的多传感器数据融合方法
很多人学不好“微分几何”，不是因为数学不行，而是选错了路径
素数，是如何统一“数学王国”的？这背后有让人“下跪”的联系
人类最早的数学欲望，解方程，膨胀了几千年，形成了一个数学帝国
什么是最小二乘？
脑启发的人工智能：全面综述

喜欢该文的人也喜欢更多

热门阅读换一换