【郑润泽的回答(16票)】: 如果只需要直觉理解,看1、2、3点即可。 如果不想了解数学过程,请直接看3举的例子,相信可以 大数定律都是在说,随着样本数n增大,样本均值趋近总体均值。 在应用上我们想要知道总体均值,但样本一般有限,所以以样本均值来估计总体均值。 1. 两者前提条件不同: 对于一个独立同分布iid的数列,弱大数定律只要求均值有限、方差可以是无穷大,而强大数定律要求均值与方差均为有限。 2. 条件不同导致结果不同,简单来说: 假如我们有一组独立同分布的随机序列{
},其公共的均值为
、公共的方差为
<
;另有一组独立同分布的随机序列{
},其公共的均值为
,方差不存在,即
=
. 因为两个序列都满足弱大数定律,所以样本均值
比
都会随着样本数n变大而趋近各自的总体均值
与
.
3. 举个例子帮助理解: 假设有两个正态分布的随机变量
与
,均值都是0,前者的方差是1,方差为无穷大大概不好理解,我们假设是1百万好(标准差1000)了。然后我们得到了一组大小为10的样本(用excel随机产生的):
={-1.1024, 1.5039, -0.2266, 1.4618, 0.4898, -0.5398, -0.6946, -2.7471, 0.9327, -1.1009}
={1610.8345, -584.8710, 217.0508, -338.7217, 817.0435, -1686.7596, -1727.3862, 24.8307, -965.5826, -1684.9082} 前者的样本均值为
=-0.2023,后者
=-431.8470。 很明显,
比
更接近总体均值0。也就是说,因为
的方差小,所以只需要一个较小的样本(这里只有10)样本均值
就很接近总体均值了——这个估计量是我们喜欢的;而对于方差非常大的
,如果样本只有10个的话,样本均值离总体均值还差得远呢,我们需要更多的样本,才能让
接近总体均值0(即收敛速度慢)。而如果
的方差扩大到无限大(即不存在),虽仍满足弱大数定律,即使样本数n很大,但
可能非常不稳定,这个估计量是我们不喜欢的。 4. 最后,两个大数定律及一些数学定义 4.1 定义:依概率收敛(convergence in probability) 若对任一实数
>0而言,有
则随机变量序列
依概率收敛至常数
. 简写为
. 4.2 辛钦弱大数定律(Kinchine's weak law of large numbers, WLLN) 对于独立同分布iid的随机变量序列 {
},若其平均值
是有限的,记
,则
. 4.3 定义:几乎确定地收敛(convergence almost surely) 或以概率1收敛 若对任一
>0而言,有
则我们说随机变量
几乎确定地收敛到随机变量
. 一般表达为
. 4.4 强大数定律(Kolmogorov's strong law of large numbers, SLLN) 对于独立的随机变量序列
,若其平均值分别为
,方差分别为
且满足
,记
,
则
. 4.5 最后:以上两个版本的大数定律都要求样本是彼此独立的,其实“独立”只是充分条件而非必要条件。更一般的大数定律可以将独立的假设放宽到一定程度的相关性,这个讨论起来很复杂,我就不写了。因为我是从计量经济学出发学到以上知识的,关于假设更宽的大数定律,可以参考 Hamilton(1994), Time Series Analysis, Chapter 7. 原文地址:知乎 |
|