强大数定律和弱大数定律的本质区别？

pgl147258 2015-03-09

展开全文

【郑润泽的回答(16票)】:

如果只需要直觉理解，看1、2、3点即可。

如果不想了解数学过程，请直接看3举的例子，相信可以

大数定律都是在说，随着样本数n增大，样本均值趋近总体均值。

在应用上我们想要知道总体均值，但样本一般有限，所以以样本均值来估计总体均值。

1. 两者前提条件不同：

对于一个独立同分布iid的数列，弱大数定律只要求均值有限、方差可以是无穷大，而强大数定律要求均值与方差均为有限。

2. 条件不同导致结果不同，简单来说：

假如我们有一组独立同分布的随机序列{

}，其公共的均值为

、公共的方差为

；另有一组独立同分布的随机序列{

}，其公共的均值为

，方差不存在，即

因为两个序列都满足弱大数定律，所以样本均值

比

都会随着样本数n变大而趋近各自的总体均值

与

的方差是

<

，是有限的，且随着样本数n增大而

的方差越来越小，其极限为0，也就是说

最终会趋近到一个值（就是

）；而

的方差因为不存在，所以即使样本数n很大，

的变异性仍然很大（认识到这一点很重要！），也就是说

对

的估计不如

对

的估计准确；
虽然两个样本的均值

比

都会分别收敛至各自的总体均值

与

，但因为

的方差是有限的，所以

的方差也是有限的，因此

收敛到总体均值的速度比

要快。

3. 举个例子帮助理解：

假设有两个正态分布的随机变量

与

，均值都是0，前者的方差是1，方差为无穷大大概不好理解，我们假设是1百万好（标准差1000）了。然后我们得到了一组大小为10的样本（用excel随机产生的）：

={-1.1024, 1.5039, -0.2266, 1.4618, 0.4898, -0.5398, -0.6946, -2.7471, 0.9327, -1.1009}

={1610.8345, -584.8710, 217.0508, -338.7217, 817.0435, -1686.7596, -1727.3862, 24.8307, -965.5826, -1684.9082}

前者的样本均值为

=-0.2023，后者

=-431.8470。

很明显，

比

更接近总体均值0。也就是说，因为

的方差小，所以只需要一个较小的样本（这里只有10）样本均值

就很接近总体均值了——这个估计量是我们喜欢的；而对于方差非常大的

，如果样本只有10个的话，样本均值离总体均值还差得远呢，我们需要更多的样本，才能让

接近总体均值0（即收敛速度慢）。而如果

的方差扩大到无限大（即不存在），虽仍满足弱大数定律，即使样本数n很大，但

可能非常不稳定，这个估计量是我们不喜欢的。

4. 最后，两个大数定律及一些数学定义

4.1 定义：依概率收敛(convergence in probability)

若对任一实数

>0而言，有

则随机变量序列

依概率收敛至常数

简写为

4.2 辛钦弱大数定律(Kinchine's weak law of large numbers, WLLN)

对于独立同分布iid的随机变量序列 {

}，若其平均值

是有限的，记

，则

4.3 定义：几乎确定地收敛(convergence almost surely) 或以概率1收敛

若对任一

>0而言，有

则我们说随机变量

几乎确定地收敛到随机变量

一般表达为

4.4 强大数定律(Kolmogorov's strong law of large numbers, SLLN)

对于独立的随机变量序列

，若其平均值分别为

，方差分别为

且满足

，记

，

则

4.5 最后：以上两个版本的大数定律都要求样本是彼此独立的，其实“独立”只是充分条件而非必要条件。更一般的大数定律可以将独立的假设放宽到一定程度的相关性，这个讨论起来很复杂，我就不写了。因为我是从计量经济学出发学到以上知识的，关于假设更宽的大数定律，可以参考 Hamilton(1994), Time Series Analysis, Chapter 7.

原文地址:知乎