分享

强大数定律和弱大数定律的本质区别?

 pgl147258 2015-03-09

【郑润泽的回答(16票)】:

如果只需要直觉理解,看1、2、3点即可。

如果不想了解数学过程,请直接看3举的例子,相信可以

大数定律都是在说,随着样本数n增大,样本均值趋近总体均值。

在应用上我们想要知道总体均值,但样本一般有限,所以以样本均值来估计总体均值。

1. 两者前提条件不同:

对于一个独立同分布iid的数列,弱大数定律只要求均值有限、方差可以是无穷大,而强大数定律要求均值与方差均为有限。

2. 条件不同导致结果不同,简单来说:

假如我们有一组独立同分布的随机序列{

},其公共的均值为

、公共的方差为

<

;另有一组独立同分布的随机序列{

},其公共的均值为

,方差不存在,即

=

.

因为两个序列都满足弱大数定律,所以样本均值

都会随着样本数n变大而趋近各自的总体均值

.

  • 的方差是

    <

    ,是有限的,且随着样本数n增大而

    的方差越来越小,其极限为0,也就是说

    最终会趋近到一个值(就是

    );而

    的方差因为不存在,所以即使样本数n很大,

    的变异性仍然很大(认识到这一点很重要!),也就是说

    的估计不如

    的估计准确;

  • 虽然两个样本的均值

    都会分别收敛至各自的总体均值

    ,但因为

    的方差是有限的,所以

    的方差也是有限的,因此

    收敛到总体均值的速度比

    要快。

3. 举个例子帮助理解:

假设有两个正态分布的随机变量

,均值都是0,前者的方差是1,方差为无穷大大概不好理解,我们假设是1百万好(标准差1000)了。然后我们得到了一组大小为10的样本(用excel随机产生的):

={-1.1024, 1.5039, -0.2266, 1.4618, 0.4898, -0.5398, -0.6946, -2.7471, 0.9327, -1.1009}

={1610.8345, -584.8710, 217.0508, -338.7217, 817.0435, -1686.7596, -1727.3862, 24.8307, -965.5826, -1684.9082}

前者的样本均值为

=-0.2023,后者

=-431.8470。

很明显,

更接近总体均值0。也就是说,因为

的方差小,所以只需要一个较小的样本(这里只有10)样本均值

就很接近总体均值了——这个估计量是我们喜欢的;而对于方差非常大的

,如果样本只有10个的话,样本均值离总体均值还差得远呢,我们需要更多的样本,才能让

接近总体均值0(即收敛速度慢)。而如果

的方差扩大到无限大(即不存在),虽仍满足弱大数定律,即使样本数n很大,但

可能非常不稳定,这个估计量是我们不喜欢的

4. 最后,两个大数定律及一些数学定义

4.1 定义:依概率收敛(convergence in probability)

若对任一实数

>0而言,有

则随机变量序列

依概率收敛至常数

.

简写为

.

4.2 辛钦弱大数定律(Kinchine's weak law of large numbers, WLLN)

对于独立同分布iid的随机变量序列 {

},若其平均值

是有限的,记

,则

.

4.3 定义:几乎确定地收敛(convergence almost surely) 或以概率1收敛

若对任一

>0而言,有

则我们说随机变量

几乎确定地收敛到随机变量

.

一般表达为

.

4.4 强大数定律(Kolmogorov's strong law of large numbers, SLLN)

对于独立的随机变量序列

,若其平均值分别为

,方差分别为

且满足

,记

.

4.5 最后:以上两个版本的大数定律都要求样本是彼此独立的,其实“独立”只是充分条件而非必要条件。更一般的大数定律可以将独立的假设放宽到一定程度的相关性,这个讨论起来很复杂,我就不写了。因为我是从计量经济学出发学到以上知识的,关于假设更宽的大数定律,可以参考 Hamilton(1994), Time Series Analysis, Chapter 7.

原文地址:知乎

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多