分享

强大数定律和弱大数定律的本质区别

 quasiceo 2017-12-01


首先是两种不同的收敛形式,即几乎必然收敛(converge almost surely, 简称a.s.收敛)依概率收敛(converge in probability, 简称i.p.收敛). 在概率空间中,a.s.收敛强于i.p.收敛.




现在来说大数定律. 大数定律所讨论的问题是,对于一个随机变量序列 \{X_n\} (没有要求i.i.d.),记 S_n=\sum_{k=1}^n X_k ,我们希望找到两个非随机实数列 \{a_n\},\{b_n\} ,使得 \frac{S_n}{b_n}-a_n \rightarrow 0.

如果这里的收敛性是a.s.收敛,就称为强大数律; 如果收敛性是i.p.收敛,就称为弱大数律.


如果任意给一列随机变量\{X_n\},显然我们并不一定能找到合适的 \{a_n\},\{b_n\} 使得 \frac{S_n}{b_n}-a_n \rightarrow 0 成立. 因此我们需要给 \{X_n\} 加上一定的的条件,来保证可以找到这样的 \{a_n\},\{b_n\} .而给 \{X_n\} 加上不同的条件,也就得到了不同的强/弱大数定律,它们通常用证明该定理的数学家名字来命名.


比较常用的是 \{X_n\} i.i.d.并且期望存在条件下的强大数定律,这时我们取 a_n=\mathrm{E}(X_1),b_n=n ,就有:

  • 强大数定律(Kolmogorov): 设有i.i.d.的随机变量序列 \{X_n\} ,并且期望存在,记为 \mu=\mathrm{E}(X_1) ,那么有 \frac{S_n}{n}-\mu \xrightarrow{a.s.}0 .

但是有时候独立同分布是很难办到的,往往我们只能得到独立序列,不能满足同分布,这时如果满足一些二阶矩条件,我们又有下面的强大数定律:

  • 强大数定律(Kolmogorov): 设有独立随机变量序列 \{X_n\} ,其期望和方差存在. 如果存在单调递增非随机正实数列 \{b_n\} 满足 b_n\uparrow +\infty 以及 \sum_{n=1}^{\infty}\frac{\mathrm{Var}(X_n)} {b_n^2}<+\infty ,那么有\frac{S_n-\mathrm{E}(S_n)}{b_n}\xrightarrow{a.s.}0 .

下面再给一个弱大数律的例子,它的条件相比前两个强大数律更弱了,甚至不要求期望存在,所以就只能得到依概率收敛.

强大数定律亦不要求方差有限,强大数定律和弱大数定律的条件完全相同,只是结论不同。要求方差有限的乃是中心极限定理。

下图截取自 Rick Durret 的概率论教材《Probability: Theory and Examples》第三版,世界图书出版公司, 2009年出版。

收录于 编辑推荐 ·

强弱大数定律都是在说:随着样本数的增大,用样本的平均数来估计总体的平均数,是靠谱的。

1. 强弱大数定律的前提条件一样:要求独立同分布iid的随机序列,要求其期望存在。
2. 强弱大数定律的结论不同(废话)。弱大数定律比较早被证明出来,弱大数定律表示样本均值“依概率收敛”于总体均值;而强大数定律是比较晚被证明出来的,它证明了样本均值可以“以概率为1收敛”于总体均值。简单的来说,就是数学家先证明了弱大数定律,后来在没有改变前提的情况下把弱大数定律推进了一步,得到了更厉害的强大数定律。


3. 弱大数定律和强大数定律的区别在于,前者是“依概率收敛(convergence in probability)”,后者是“几乎确定收敛(almost surely convergence)或以概率为1收敛、几乎处处收敛”。
后者比前者强,满足后者的必定满足前者,而满足前者的未必满足后者。

3.1 依概率收敛的例子:
考虑下图,图中的每条线都代表一个数列,虚线表示一个非常小的区间。总的来说每个数列都越来越趋近0,且大部分时候不会超过虚线所表示的小边界,但是,偶尔会有一两条线超过虚线、然后再回到虚线之内。而且我们不能保证,有没有哪一个数列会在未来再次超出虚线的范围然后再回来——虽然概率很小。注意虚线的范围可以是任意小的实数,此图中大约是\pm 0.04,可以把这个边界缩小到\pm 0.004, ,甚至\pm 4*10^{-10} ,随你喜欢,这个性质始终存在。

3.2 几乎处处收敛的例子:
图中的黑线表示一个随机数列,这个数列在大约n=200之后进入了一个我们定的小边界(用虚线表示),之后我们可以确定,它再也不会超出虚线所表示的边界(超出这个边界的概率是0)。跟上面的例子一样,虚线所表示的边界可以定得任意小,而一定会有一个n值,当这个数列超过了n值之后,超出这个边界的概率就是0了。

弱大数定律是较早被数学家最早证明的,即对于独立同分布的随机序列X_{1} ,X_{2} , X_{3} ,... X_{n}... ,只要总体均值\mu 存在,那么样本均值S_{n} =\frac{1}{n} \sum_{i=1}^{n}{X_{i} } 会随着n增大而“依概率收敛”到总体均值\mu ,就是弱大数定律。
但是弱大数定律/“依概率收敛”不够完美,随着n增大,样本均值有没有可能(即使概率很小)偶然偏离总体均值\mu 很多呢?后来数学家们证明了强大数定律,就是告诉我们不用担心,S_{n} =\frac{1}{n} \sum_{i=1}^{n}{X_{i} } 会“几乎处处收敛”到\mu .


参考:
1. De Micheaux P L, Liquet B. Understanding convergence concepts: A visual-minded and graphical simulation-based approach. The American Statistician, 2009, 63(2).
2. Convergence in probability vs. almost sure convergence
3. Papoulis A, Pillai S.U., Probability, Random Variables and Stochastic Process, McGraw Hill Education, 3e, 2010.

本来我强行回答的这篇文章举了2个生活化的例子,虽然直觉、有助于理解但不够恰当。经各位的批评删除了,哈哈~~
感谢 博士的指点,感谢 的批评。拜谢。

的答案已经说得很清楚了,这里我主要想结合公式谈一谈对这个问题的理解。

若干描述不正确的地方已经修改,感谢

的指正!

(另外知乎这个公式编辑器在编辑状态下,带有括号的公式老不显示,不知道啥情况,修改起来太麻烦了,编辑器也各种bug)

首先大数定律想要证明当对一个随机变量进行无限次采样时,得到的平均值会无限接近真实的期望值。 强大数定律想证明:采样的次数越多,平均值几乎一定越来接近真实期望值; 弱大数定律想证明:采样的次数越多,平均值接近真实期望值的可能性越来越大

首先用公式描述下强大数定律和弱大数定律。

问题是:

X_1,X_2,\ldots,X_n,\ldots这些变量相互独立,是服从同一分布的随机变量序列,E(X_k)=\mu

\mu_n={ \sum\limits_i^n X_i } /{ n }\mu_1,\mu_2,\ldots,\mu_n,\ldots是该随机变量序列。

强大数定律认为: \forall \epsilon > 0, P(\lim_{n\rightarrow\infty}|\mu_n - \mu|\leq\epsilon) = 1

弱大数定律认为:  \forall \epsilon > 0, \lim_{n\rightarrow\infty}P(|\mu_n-\mu|\leq\epsilon)=1



先用直观的语言来描述下,强大数定律和弱大数定律的区别主要在于:

强大数定律能证明当n \rightarrow \infty时,\mu_n几乎一定能不断接近真实的\mu,也就是说\mu_n几乎是不断朝着接近\mu的方向去的;

弱大数定律能证明当n \rightarrow \infty时,\mu_n接近真实的\mu可能性会越来越大,也就是说\mu_n是朝着接近\mu的方向去的可能性越来越大,但是也有极小的可能朝着反方向。

下面我们来说明下这两者的区别:

我们对比下上面的公式,一个lim写在P里面,一个lim写在P外边,只是变换下位置含义就不同。我们把公式极限的部分改写下,改写成下面的形式也许会更直观。

强大数定律:

\forall \epsilon>0, \exists N \in \mathbb{N^+},当n>N时, P(|\mu_n-\mu|<\epsilon)=1 ;

弱大数定律:

\forall \epsilon>0, \forall \delta >0 , \exists N \in \mathbb{N^+} , 当n>N时,  |P(|\mu_n - \mu|\leq\epsilon)-1| \leq \delta ;


下面照着上面去掉极限的公式看,我们来说明下这二者的含义。

强大数定律:

随着n不断增大,\forall \epsilon \ge 0, |\mu_n-\mu|\leq\epsilon这件事是必然发生的;

即随着n不断增大\mu_n几乎一定能不断接近真实的\mu

弱大数定律:

随着n不断增大,\forall \epsilon \ge 0, |\mu_n-\mu|\leq\epsilon这件事发生的概率是逐渐增大的;

随着 n 不断增大\mu_n有可能接近真实的\mu


提下收敛、几乎确定收敛、按概率收敛的概念,几乎确定收敛对应强大数定律,按概率收敛对应弱大数定律。

\mu_1,\mu_2,\ldots,\mu_n,\ldots是一个随机变量序列,\mu是一个常数,

收敛:

\lim_{n\rightarrow\infty} | \mu_n - \mu | = 0

\forall \epsilon>0, \exists N \in \mathbb{N^+},当n>N时,|\mu_n-\mu|<\epsilon

记作\mu_n \longrightarrow \mu,称\mu_n 收敛于\mu



几乎确定收敛

\[ \forall \epsilon > 0, P(\lim_{n\rightarrow\infty}|\mu_n - \mu|\leq\epsilon) = 1 \]

\forall \epsilon>0, \exists N \in \mathbb{N^+},当n>N时, P(|\mu_n-\mu|<\epsilon)=1 ;

记作 \mu_n \xrightarrow{a.s} \mu ,称 \mu_n 几乎确定收敛于 \mu



按概率收敛:

 \forall \epsilon > 0, \lim_{n\rightarrow\infty}P(|\mu_n-\mu|\leq\epsilon)=1

\forall \epsilon>0, \forall \delta >0 , \exists N \in \mathbb{N^+} , 当n>N时,  |P(|\mu_n - \mu|\leq\epsilon)-1| \leq \delta ;

我们又记作\mu_n \xrightarrow{P} \mu,我们又叫\mu_n 按概率收敛于\mu


弱大数定律就是实用版,依概率收敛在大多数情况下足够用了。
Song Yang 提到的强大数定律并不是最强的版本。Etemadi在1981年证明只要X1,X2,...两两独立并且同分布,期望存在,那么强大数定律就成立。见An elementary proof of the strong law of large numbers

依概率收敛:\lim_{n \to \infty} \text{P} \left( |X_n - X|  >  \varepsilon \right) = 0, \varepsilon 是任意常数

a.s.收敛:\lim_{n \to \infty} \text{P} \left( |X_n - X|  >  0 \right) = 0

弱大数律和强大数律只是按照收敛的方式区别的称法。

强大数律成立充要条件是X绝对值的期望存在。

弱大数律成立充要条件是x \text{P}( |X| >x ) < \infty \; \text{as} \; x \to \infty,极限行为是S_n /n - \mu_n \to 0 \;\text{in p}, \mu_n = \text{E} (X; |X|<n),同样在Durrett的书中可以找到该结论。最简单的服从弱大数律却不服从强大数律的例子为\text{P}(X>x) = 1/2x (x>1) , \text{P}(X<-x) = -1/2x (x<-1)

类似于\alpha = 1pareto分布。显然\mu_n = 0, 但X绝对值的期望是无穷

我也来凑个数。Runze 把强弱大数定理已经说得很清楚了。其实大数定理的证明并没有那么复杂。一旦证明了式子(3-42),恩,一切都豁然开朗。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多