怎样理解和区分中心极限定理与大数定律？

展开全文

概率论与数理统计教材上的解释，每次看过觉得懂了，之后用到还是很混乱。希望找到一个有启发性的解释！
大数定律说的是随机现象平均结果稳定性。
中心极限定理论证随机变量的和的极限分布是正态分布。

假设检验中经常用到某个统计量标准化（减期望再比方差）后的渐进分布是标准正态，这个应该是中心极限定理最常见的应用之一。在使用这一条的时候有什么限制吗？还是所有统计量都可以套用进来，只需要样本量不太小（比如30以上）？

试图从另一个角度给出一个还算启发性的答案。

题主学过微积分的泰勒展开吧，对一个连续可导的函数，在一点局部我们认为这个函数可以用线性函数来拟合，从而有
$f(x)\approx f(x_0)+f'(x_0)(x-x_0)+o(x-x_0)$ .
这里面 f(x_0)

是零阶项，

是一阶修正，

是高阶小量。

与此对应，我们可以试着对随机变量的进行“局部的泰勒展开”。假设 $X_1,X_2,\dots$ 是独立同分布的变量，那么根据大数定律和中心极限定理，我们有
$X_1+X_2+\cdots+X_n\approx n\cdot\mathbb{E} X_1+\sqrt{n}\,\mathrm{std}(X_1)\cdot \mathcal{N}(0,1)+o_p(\sqrt{n}\,\mathrm{std}(X_1))$ .
其中期望 $\mathbb{E}X_1$ 对应 f(x_0)

，标准差 $\mathrm{std}(X_1)$ 对应一阶导 f'(x_0)

，标准正态分布 $\mathcal{N}(0,1)$ 对应线性函数 x-x_0

， $o_p(\sqrt{n}\,\mathrm{std}(X_1))$ 是概率意义下的高阶小量。

通过这个类比我们可以这样理解大数定律和中心极限定理：
1、大数定律和中心极限定理可以看做随机变量的零阶和一阶“泰勒展开”，其中大数定律是随机变量的“零阶估计”，中心极限定理是在大数定律成立下的“一阶导数”，在极限下高阶小量可忽略。
2、大数定律负责给出估计——期望，中心极限定理负责给出大数定律的估计的误差——标准差乘以标准正态分布。
3、通过泰勒展开我们可以对中心极限定理的应用范围有一个直观的估计。为了使泰勒展开成立，我们假设了高阶小量 $o_p(\sqrt{n}\,\mathrm{std}(X_1))$ 在取平均（除以

后）是可以忽略的。为了使这一点成立，我们至少需要样本量和方差在同一量级上或者更小。
4、其实我们还可以进行更高阶的展开，貌似三阶展开对应的统计量叫做skewness，wiki上常用分布的词条都会给出这一数值。不过实际应用中中心极限定理已经足够，所以通常也就不需要了。

A1.大数定律成立的条件比中心极限定理宽松，前者只需要一阶矩存在，而后者需要前两阶矩都存在。
因为条件更强，中心极限定理的结论也更强，大数定律只是证明几乎处处收敛，却没有指明收敛的速度，而中心极限定理给出了收敛的极限分布和渐近方差。

A2. 中心极限定理有很多版本，最常见的版本要求（或假设）所有样本独立同分布，且他们共同服从的分布存在前两阶原点矩。
即 $EX < \infty$ , $E(X^2) < \infty$ . 由于 $E(X^2) < \infty$ 可以推出 $EX < \infty$ ，故在使用的时候只要保证二阶矩有限即可。对于并非独立同分布的情形，有较弱条件下的中心极限定理，亦称 The
Linderberg-Feller Theorem. 不详述了。

PS. 诚如题主所言，中心极限定理和强、弱大数定律是概率论的核心，历史悠久（不晚于1733年）研究者甚众【至少包括拉普拉斯(Laplace)、棣莫佛(de Movire)、林德伯格(Linderberg)、列维（Levy）、费勒（Feller）、李雅普诺夫（Lyapunov）、切比雪夫（Chebyshev）、马尔可夫（Markov）、科尔默格洛夫（Kolmogorov）、波若尔（Borel），坎泰利（Cantelli）等巨擘】，各种版本（比如随即过程的中心极限定理、三角级数的中心极限定理等等）和推广也不少，很难一两句话讲清，水平有限，草草。

教授这周刚讲完这两个定理。先说中心极限定理。
中心极限定理：
大量相互独立的随机变量，其均值（或者和）的分布以正态分布为极限（意思就是当满足某些条件的时候，比如Sample Size比较大，采样次数区域无穷大的时候，就越接近正态分布）。而这个定理amazing的地方在于，无论是什么分布的随机变量，都满足这个定理。

比如现在有一个奇形怪状的六面骰子，并且六面上的点数分别为1,1,2,3,3,5。
我们现在开始掷这个骰子（可视为一个随机过程），然后记录下每次朝上的点数（每次扔骰子可视为一个随机变量）。先扔6次好了。
第一次：
$S_{1} = [ 1,1,1,1,2,5]$
那么第一次结果的均值
$\bar{S} _{1} = \frac{11}{6}$

然后你再掷五次，分别求得每次结果的均值，于是你得到了
$\bar{S}_{1} ,\bar{S}_{2},\bar{S}_{3}, \bar{S}_{4},\bar{S}_{5},\bar{S}_{6}$
现在神奇的地方是，这六个值的分布，有点像是正态分布。

然后你再继续疯狂的掷这个奇形怪状的骰子，掷了n次，并且分别对每次的结果都求了均值，这时候你得到了
$\bar{S}_{1} ,\bar{S}_{2},\bar{S}_{3},...\bar{S}_{n}$
当n越大，这n个值的分布就越接近正态分布，而当n趋向正无穷时，这无穷个均值的分布就是正态分布了！并且！这还没有结束！！
并且！这个正态分布的均值 $\mu$ 和投掷奇形怪状骰子并记录朝上的点数这个随机过程的均值是一！样！的！
这样，因为我们没有办法得到这个奇形怪状骰子的分布函数，就没有办法直接通过求期望的公式得到这个随机过程的期望。而运用中心极限定理，我们就能够得到这个随机过程的期望了。

大数定理
简单的可以描述为，如果有一个随机变量X，你不断的观察并且采样这个随机变量，得到了n个采样值， $X_{1} , X_{2} , X_{3}....X_{n}$ ，然后求得这n个采样值得平均值 $\bar{X_{n}}$ ，当n趋向于正无穷的时候，这个平均值就收敛于这个随机变量X的期望。
公式为
$\lim_{n \rightarrow \infty } \frac{1}{n}\sum_{i=1}^{n}{X_{i}} =\mu$
举个例子。
比如你有一个盒子，盒子里面有100个硬币，你每次摇晃盒子然后数一数有多少硬币正面朝上。很容易算出这个随机变量的期望为50。
第一次摇，数出有55个硬币正面朝上， $\bar{X_{n}}$ =55
第二次摇，数出有65个硬币正面朝上， $\bar{X_{n}}$ =（55+65）/2=60
第三次摇，数出有70个硬币正面朝上， $\bar{X_{n}}$ =（55+65+70）/3=
…………
当你摇的次数足够多（无数次）时，最终这个平均值 $\bar{X_{n}}$ 就会等于50。

楼主的问题让我想起了当年自己也对这俩东西闹不明白的时候，想象一下当年的自己，然后看了下大家的答案，感觉好像回答的都不够直接，于是我再无邀自答一下。

简单来说，大数定律（LLN）和中心极限定理（CLT）的联系与区别在于：

共同点：都是用来描述独立同分布（i.i.d）的随机变量的和的渐进表现（asymptotic behavior)
区别：首先，它们描述的是在不同的收敛速率（convergence rate）之下的表现，其次LLN前提条件弱一点： $E(X)<\infty$ , CLT成立条件强一点： $E(X^2)<\infty$

多说一句关于收敛速率，假设有 n 个 i.i.d 的随机变量，令它们的和为 $S_n = \sum_{i=1}^n X_i$

大数定律（以其中弱大数定律为例）说的是 $\frac{1}{n}S_n -E(X) \xrightarrow{P} 0$ ~~~~~~~~~~~~ (1)
中心极限定理说的是 $\sqrt{n}(\frac{S_n}{n}-E(X)) \xrightarrow{D} N(0,\Sigma)$ ~~~~~~~~~~~ (2)

注意表达式（1）和表达式（2）差了个 $\sqrt{n}$ 有没有！
所以你就记住这条就不会混乱了，来，跟我念一遍：“差了个 $\sqrt{n}$ ！”

比如现在你穿越回17世纪，与帕斯卡兄弟和费马大爷相遇。看到他们法国宫廷正在玩：掷硬币。

第一回合(老帕掷)：掷硬币10次，正面出现7次。老帕得出结论～任意掷一次硬币出现正面的概率是0.7

第二回合(费马掷)：掷硬币50次，正面出现30次。费马得出结论～任意掷一次硬币出现正面的概率是0.6

第三回合(老帕掷)：掷硬币100次，正面出现65次。老帕得出结论～任意掷一次硬币出现正面的概率是0.65

第四回合(费马掷)：掷硬币200次，正面出现110次。老帕得出结论～任意掷一次硬币出现正面的概率是0.55

……
第九十九和一百回合(老帕和费马单独掷)：分别掷硬币1000次，正面出现分别为505次和498次。老帕和费马得出结论～任意掷一次硬币出现正面的概率是0.505和0.498
……
这时兄弟你就可以跳出来，告诉法国国王说：女士们，先生们，现在我们宣布两个定理。
定理一：当我们把掷硬币的次数扩大到无限时，会发现出现正面的概率会趋向于0.5～～此乃大数定律。

定理二：我们绘制一个直角坐标，
X轴表示这一百回合我们每次掷的次数：即10，20，100，200……，1000，1000。
Y轴表示每一回合正面出现的概率：即0.7，0.6，0.65，0.55……0.505，0.498。
把这一百个点连接起来，会发现它的形状非常像正态曲线～～此乃中心极限定理。

在无数次独立同分布的随机事件中，事件的频率趋于一个稳定的概率值，这是大数定律；

而同样的无数次独立同分布的随机事件中，事件的分布趋近于一个稳定的正态分布，而这个正太分布的期望值u，正是大数定律里面的概率值，这是中心极限定理所描述的。

所以，中心极限定理比大数定律揭示的现象更深刻，同时成立的条件当然也要相对来说苛刻一些。

大数定理说的是均值，摇骰子，摇100万次，均值趋近3.5；中心极限定理说的是分布，每次4颗骰子一起扔，每次都记下4颗的均值，扔100万次，这些均值服从正态分布

我来用两句话总结这两个定理
大数定理：当样本容量逐渐增大，无限逼近总体容量时，样本均值也是无限逼近于总体均值（即教材上讲的是样本期望收敛于真实的期望）
中心极限定理：对于N个相互独立的分布函数未知但期望和方差已定的随机变量，选样本容量为m抽样无数次，抽样的均值是满足正态分布的（比如说生产一箱货，每箱重量的均值和方差确定但是任意一一箱的重量是随机的，把货不断装进很多货车上，这时候每箱货是满足正态分布的，定理描述的是随机变量的和）

本来是斗兽场，却以为是元老院。

大数定理比较好理解。主要是中心极限定理的理解：
无论进行抽样的分布函数是不是正态分布，总会有这样的事实：抽到某些情况的概率很低，比如投六次6次骰子都是6，对应取到均值6的概率就很低。再比如抽到1、2、5、7、3、4的情况的概率比较高，对应取到均值3.667的概率就比较大，当然取到1、2、5、6、4、4的情况也算，因为均值同样为3.667。单次抽样，取到某一种结果的概率与样本的总体分布情况有关；多次抽样，全部抽样样本的情况实际上明显地表现出“普遍的高特殊的少”，这样是不是有一点正态分布的感觉。
具体的证明我不会，但这样想，不会有那种“这个定理只能推出来，无法直观理解”的感觉。

知识工作者

中心极限定理有3点：期望值、标准差 σ/√N、正态分布；大数定律只是其中第一点。

呀这个问题！

卯诗松的概率论与数理统计上说

大数定律研究的是在什么条件下，这组数据依概率收敛于他们的均值。

中心极限定理研究的是在什么条件下，这些样本依分布收敛于正太分布。

依概率收敛就是强收敛，随机过程中成为强平稳。依分布收敛就是弱收敛，随机过程中成为弱平稳。

认为上面高票答案关于中心极限定理说的不对。
比如掷两枚硬币，设正面为1反面为0，那么每次掷出现的结果的均值可能为1、0.5和0，掷无穷次，显然结果只会出现在这三个点，何来正态之说？这里可以将每次的均值看作一个随机变量X，符合P（X = 1）= 1/4,P(X=0.5) = 1/2,P(X = 0) = 1/4的分布，重复n次实验得到n个X，则∑X符合正态分布，期望为0.5n，同样∑X的均值也符合正态分布。中心极限定理的意义是对任意一个随机变量X，期望为μ，方差为D，如果进行n→无穷次实验（可以看成n个同分布的Xi），可以得出∑X符合期望为nμ，方差为nD的正态分布，因此当我们知道μ和D，需要研究一个实验重复n次所带来的结果的概率的时候，就可以用正态分布来近似。