(史上最全总结)总体方差，样本方差，标准差，抽样方差，标准误差，均方误差，协方差...........

新用户51207639 2023-02-14 发布于广东

展开全文

文章目录

数学期望 \color{blue}数学期望数学期望

总体和样本 \color{blue}总体和样本总体和样本

方差 \color{blue} 方差方差

1. 总体方差 \color{blue}1.总体方差 1.总体方差

2. 样本方差 \color{blue}2.样本方差 2.样本方差

3. 标准差 \color{blue}3.标准差 3.标准差

4. 抽样方差 \color{blue}4.抽样方差 4.抽样方差

5. 标准误差 \color{blue}5.标准误差 5.标准误差

6. 均方差 \color{blue}6.均方差 6.均方差

7. 均方误差 \color{blue}7.均方误差 7.均方误差

8. 均方根误差 \color{blue}8.均方根误差 8.均方根误差

9. 协方差 \color{blue}9.协方差 9.协方差

10. 极差 \color{blue}10.极差 10.极差

数学期望 \color{blue}数学期望数学期望

1.概念:

在概率论和统计学中，数学期望 (mean)（或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和，是最基本的数学特征之一。它反映随机变量 平均取值 的大小。

需要注意的是，期望值并不一定等同于常识中的“期望”——“期望值”也许与每一个结果都不相等。期望值是该变量输出值的 平均数 。期望值并不一定包含于变量的输出值集合里。

大数定律 规定，随着重复次数接近无穷大，数值的算术平均值几乎肯定地收敛于期望值

2. 离散型随机变量的期望：

离散型随机变量的一切可能的取值 X i X_i Xi 与对应的概率 p ( X i ) p(X_i) p(Xi) 乘积之和称为该离散型随机变量的数学期望(若该求和绝对收敛)，则记为 E ( X ) E(X) E(X)。

若离散型随机变量 X X X 的取值为 X 1 X_1 X1 , X 2 X_2 X2 , X 3 X_3 X3 , … \ldots … , X i X_i Xi ， … \ldots … ； p ( X 1 ) p(X_1) p(X1) , p ( X 2 ) p(X_2) p(X2) , p ( X 3 ) p(X_3) p(X3) , … \ldots … , p ( X i ) p(X_i) p(Xi) , … \ldots … 则为 X X X 对应取值的概率。

E ( X ) = X 1 ∗ p ( X 1 ) + X 2 ∗ p ( X 2 ) + X 3 ∗ p ( X 3 ) + … + X i ∗ p ( X i ) E(X) = X_1*p(X_1)+X_2*p(X_2)+X_3*p(X_3)+\ldots+X_i*p(X_i) E(X)=X1∗p(X1)+X2∗p(X2)+X3∗p(X3)+…+Xi∗p(Xi)

E ( X ) = ∑ i = 1 ∞ X i ∗ p ( X i ) \color{red}{E(X) = \sum_{i=1}^\infty X_i*p(X_i)} E(X)=i=1∑∞Xi∗p(Xi)

3. 连续型随机变量的期望：

设连续性随机变量X的概率密度函数为 f ( x ) f(x) f(x)，若积分绝对收敛，则称积分的值 ∫ − ∞ ∞ x f ( x ) d x \int_{-\infty}^{\infty} {xf(x)} \,{\rm d}x ∫−∞∞xf(x)dx 为随机变量的数学期望，记为 E ( X ) E(X) E(X)。

E ( X ) = ∫ − ∞ ∞ x f ( x ) d x \color{red}{E(X) = \int_{-\infty}^{\infty} {xf(x)} \,{\rm d}x} E(X)=∫−∞∞xf(x)dx

若随机变量 X 的分布函数 F ( x ) F(x) F(x) 可表示成一个非负可积函数 f ( x ) f(x) f(x) 的积分，则称 X X X 为连续性随机变量， f ( x ) f(x) f(x) 称为 X X X 的概率密度函数。

参考百度百科：https://baike.baidu.com/item/%E6%95%B0%E5%AD%A6%E6%9C%9F%E6%9C%9B

总体和样本 \color{blue}总体和样本总体和样本

在这里插入图片描述
这里介绍了下基本概念，过多的性质这里就不介绍了，大家感兴趣的话，可以自己去查资料或者看课本。

方差 \color{blue}方差方差

概率论中方差用来度量随机变量和其数学期望（均值）之间的偏离程度。
统计中的方差（样本方差）是每个样本值与全体样本值的平均数之差的平方值的平均数。

方差用 V a r ( X ) Var(X) Var(X) 或者 D ( X ) D(X) D(X) 表示：

D ( X ) = E [ X − E ( X ) ] 2 = E [ X 2 − 2 X E ( X ) + ( E X ) 2 ] = E ( X 2 ) − 2 ( E X ) 2 + ( E X ) 2 = E ( X 2 ) − ( E X ) 2 (1) \color{red}

\begin{aligned} D(X) &= E[X-E(X)]^2 \\ &= E[X^2-2XE(X)+(EX)^2] \\ &= E(X^2)-2(EX)^2+(EX)^2 \\ &= E(X^2)-(EX)^2\tag{1} \end{aligned}

D(X)=E[X−E(X)]2=E[X2−2XE(X)+(EX)2]=E(X2)−2(EX)2+(EX)2=E(X2)−(EX)2(1)

① . 总体方差（有偏估计） \color{blue}①. 总体方差（有偏估计） ①.总体方差（有偏估计）

σ 2 = ∑ i = 1 N ( X i − μ ) 2 N \color{red}\sigma^2 = \frac{\sum_{i=1}^N(X_i-\mu)^2}{N} σ2=N∑i=1N(Xi−μ)2

σ 2 \sigma^2 σ2 为总体方差， N N N 为总体的个数， X i X_i Xi为变量， μ \mu μ 为总体均值。

我们中学其实就已经学到了这个标准定义的方差，除数为总体样例的个数 n n n。

② . 样本方差（无偏估计） \color{blue}②. 样本方差（无偏估计） ②.样本方差（无偏估计）

S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 \color{red}{S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2} S2=n−11i=1∑n(Xi−X)2

S 2 S^2 S2 为样本方差， n （ n < < N ） n（n<<N） n（n<<N）为样本的个数， X i X_i Xi 为变量， X ‾ \overline{X} X 为样本均值。

在实际工作中总体方差 σ 2 \sigma^2 σ2 几乎算不出来，我们一般用 S 2 S^2 S2代替 σ 2 \sigma^2 σ2。

这里 μ 为什么要用 X ‾ 代替呢？ \color{fuchsia}这里 \mu为什么要用 \overline{X}代替呢？这里μ为什么要用X代替呢？

同理总体均值 μ \mu μ 也很难得到，所以只能使用样本均值 X ‾ \overline{X} X 代替，但是这样肯定就会有误差，那么误差是大还是小？又差多少呢？这就是下面的问题了。

为什么样本方差的除数不是 n , 而是 ( n − 1 ) 呢？ \color{fuchsia}{为什么样本方差的除数不是n,而是 (n-1)呢？} 为什么样本方差的除数不是n,而是(n−1)呢？

简单的来说， X ‾ \overline{X} X 是用 n n n 个样本所求到的平均数，因此样本平均数 X ‾ \overline{X} X 一旦确定下来，就只有 n − 1 n-1 n−1 个数不受约束，第 n n n 个数已经可以被均值和前面 n − 1 n-1 n−1 个数确定下来了，所以第 n n n 个数也就没有啥信息量了，没用了（自由度由 n n n 变成了 n − 1 n-1 n−1）。

证明：

首先我们并不知道样本方差与总体方差之间具体相差多少, 这里便使用下式来对 σ 2 \sigma^2 σ2 进行估计：
S 2 = 1 n ∑ i = 1 n ( X i − X ‾ ) 2 = 1 n ∑ i = 1 n [ ( X i − μ ) − ( X ‾ − μ ) ] 2 = 1 n ∑ i = 1 n [ ( X i − μ ) 2 − 2 ( X i − μ ) ( X ‾ − μ ) + ( X ‾ − μ ) 2 ] = 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 n ( X ‾ − μ ) ∑ i = 1 n ( X i − μ ) + 1 n ∑ i = 1 n ( X ‾ − μ ) 2 (2) \color{red}

\begin{aligned} S^2 & =\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2 \\ & = \frac{1}{n}\sum_{i=1}^n[(X_i-\mu)-(\overline{X}-\mu)]^2 \\ & = \frac{1}{n}\sum_{i=1}^n[(X_i-\mu)^2-2(X_i-\mu)(\overline{X}-\mu)+(\overline{X}-\mu)^2] \\ & = \frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-\frac{2}{n}(\overline{X}-\mu)\sum_{i=1}^n(X_i-\mu)+\frac{1}{n}\sum_{i=1}^n(\overline{X}-\mu)^2 \tag{2} \end{aligned}

S2=n1i=1∑n(Xi−X)2=n1i=1∑n[(Xi−μ)−(X−μ)]2=n1i=1∑n[(Xi−μ)2−2(Xi−μ)(X−μ)+(X−μ)2]=n1i=1∑n(Xi−μ)2−n2(X−μ)i=1∑n(Xi−μ)+n1i=1∑n(X−μ)2(2)

其中 ( X ‾ − μ ) \color{red}(\overline{X}-\mu) (X−μ) 为常数，并且
( X ‾ − μ ) = 1 n ∑ i = 1 n X i − μ = 1 n ∑ i = 1 n X i − 1 n ∑ i = 1 n μ = 1 n ∑ i = 1 n ( X i − μ ) (3) \color{red}(\overline{X}-\mu) = \frac{1}{n}\sum_{i=1}^nX_i-\mu = \frac{1}{n}\sum_{i=1}^nX_i-\frac{1}{n}\sum_{i=1}^n\mu = \frac{1}{n}\sum_{i=1}^n(X_i-\mu) \tag{3} (X−μ)=n1i=1∑nXi−μ=n1i=1∑nXi−n1i=1∑nμ=n1i=1∑n(Xi−μ)(3)

所以
S 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 ( X ‾ − μ ) 2 + 1 n ( X ‾ − μ ) 2 ∑ i = 1 n 1 = 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 ( X ‾ − μ ) 2 + ( X ‾ − μ ) 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 − ( X ‾ − μ ) 2 (4) \color{red}

\begin{aligned} S^2 & = \frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-2(\overline{X}-\mu)^2+\frac{1}{n}(\overline{X}-\mu)^2\sum_{i=1}^n1 \\ & = \frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-2(\overline{X}-\mu)^2+(\overline{X}-\mu)^2 \\ & = \frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-(\overline{X}-\mu)^2 \tag{4} \end{aligned}

S2=n1i=1∑n(Xi−μ)2−2(X−μ)2+n1(X−μ)2i=1∑n1=n1i=1∑n(Xi−μ)2−2(X−μ)2+(X−μ)2=n1i=1∑n(Xi−μ)2−(X−μ)2(4)

如果总体均值 μ 已知，则样本方差 [ 1 n ∑ i = 1 n ( X i − μ ) 2 ] 的期望等于总体方差 σ 2 \color{fuchsia}{如果总体均值 \mu 已知，则样本方差 [\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2] 的期望等于总体方差 \sigma^2} 如果总体均值μ已知，则样本方差[n1∑i=1n(Xi−μ)2]的期望等于总体方差σ2

因此
E ( S 2 ) = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 − ( X ‾ − μ ) 2 ] = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 ] − E [ ( X ‾ − μ ) 2 ] = σ 2 − E [ ( X ‾ − μ ) 2 ] (5) \color{red}

\begin{aligned} E(S^2) & = E[\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-(\overline{X}-\mu)^2] \\ & = E[\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2]-E[(\overline{X}-\mu)^2] \\ & = \sigma^2-E[(\overline{X}-\mu)^2] \tag{5} \end{aligned}

E(S2)=E[n1i=1∑n(Xi−μ)2−(X−μ)2]=E[n1i=1∑n(Xi−μ)2]−E[(X−μ)2]=σ2−E[(X−μ)2](5)

从上式可得，只有当样本均值 X ‾ 等于总体均值 μ 时，样本方差的期望才等于总体方差 \color{fuchsia}{从上式可得，只有当样本均值\overline{X}等于总体均值\mu时，样本方差的期望才等于总体方差} 从上式可得，只有当样本均值X等于总体均值μ时，样本方差的期望才等于总体方差

最终可推出
E ( S 2 ) = E [ 1 n ∑ i = 1 n ( X i − X ‾ ) 2 ] < = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 ] = σ 2 \color{red}

\begin{aligned} E (S^{2}) & = E [\frac{1}{n} \sum_{i = 1}^{n} (X_{i} - \bar{X})^{2}] <= E [\frac{1}{n} \sum_{i = 1}^{n} (X_{i} - μ)^{2}] = σ^{2} \end{aligned}

E(S2)=E[n1i=1∑n(Xi−X)2]<=E[n1i=1∑n(Xi−μ)2]=σ2

由此可见用样本方差估计的话，会低估 ( 小于 ) 总体方差，那又会低估多少呢？ \color{fuchsia}{由此可见用样本方差估计的话，会低估(小于)总体方差，那又会低估多少呢？} 由此可见用样本方差估计的话，会低估(小于)总体方差，那又会低估多少呢？

E ( S 2 ) = σ 2 − E [ ( X ‾ − μ ) 2 ] (由(5)式可得) \color{red}

\begin{aligned} E(S^2) & = \sigma^2-E[(\overline{X}-\mu)^2] \tag{由(5)式可得} \end{aligned}

E(S2)=σ2−E[(X−μ)2](由(5)式可得)

由于样本均值的期望等于总体均值，则可推出 \color{fuchsia}{由于样本均值的期望等于总体均值，则可推出} 由于样本均值的期望等于总体均值，则可推出

E [ ( X ‾ − μ ) 2 = E [ ( X ‾ − E ( X ‾ ) ) 2 = D ( X ‾ ) = D [ 1 n ∑ i = 1 n X i ] = 1 n 2 D [ ∑ i = 1 n X i ] = 1 n 2 ∑ i = 1 n D ( X i ) = n σ 2 n 2 = σ 2 n (由(1)式可得) \color{red}

\begin{aligned} E[(\overline{X}-\mu)^2 & = E[(\overline{X}-E(\overline{X}))^2 \\ & = D(\overline{X}) \\ & = D[\frac{1}{n}\sum_{i=1}^nX_i] \\ & = \frac{1}{n^2}D[\sum_{i=1}^nX_i] \\ & = \frac{1}{n^2}\sum_{i=1}^nD(X_i) \\ & = \frac{n\sigma^2}{n^2} \\ & = \frac{\sigma^2}{n} \tag{由(1)式可得} \end{aligned}

E[(X−μ)2=E[(X−E(X))2=D(X)=D[n1i=1∑nXi]=n21D[i=1∑nXi]=n21i=1∑nD(Xi)=n2nσ2=nσ2(由(1)式可得)
最终可推出

E ( S 2 ) = σ 2 − σ 2 n = n − 1 n σ 2 \color{red}

\begin{aligned} E (S^{2}) = σ^{2} - \frac{σ^{2}}{n} = \frac{n - 1}{n} σ^{2} \end{aligned}

E(S2)=σ2−nσ2=nn−1σ2

由此可见低估了 1 n σ 2 \color{fuchsia}{由此可见低估了\frac{1}{n}\sigma^2} 由此可见低估了n1σ2

再将上面式子进行恒等变形

n n − 1 E ( S 2 ) = σ 2 n n − 1 ∗ E [ 1 n ∑ i = 1 n ( X i − X ‾ ) 2 ] = σ 2 E [ 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 ] = σ 2 \color{red}

\begin{aligned} \frac{n}{n - 1} E (S^{2}) = σ^{2} \\ \frac{n}{n - 1} * E [\frac{1}{n} \sum_{i = 1}^{n} (X_{i} - \bar{X})^{2}] = σ^{2} \\ E [\frac{1}{n - 1} \sum_{i = 1}^{n} (X_{i} - \bar{X})^{2}] = σ^{2} \end{aligned}

n−1nE(S2)=σ2n−1n∗E[n1i=1∑n(Xi−X)2]=σ2E[n−11i=1∑n(Xi−X)2]=σ2

因此可以用以下式子对总体方差进行估算，也就是最终样本方差的除数是 n − 1 n-1 n−1 的原因
S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 \color{red}

\begin{aligned} S^{2} = \frac{1}{n - 1} \sum_{i = 1}^{n} (X_{i} - \bar{X})^{2} \end{aligned}

S2=n−11i=1∑n(Xi−X)2

参考链接：https://www.zhihu.com/question/20099757
https://blog.csdn.net/Frankgoogle/article/details/80260969

上面谈到的有偏估计和无偏估计怎么理解，这里就不细说了，有兴趣的可以看看这个链接：https://www.zhihu.com/question/22983179

在这里插入图片描述

③ . 标准差（均方差，记作 S D ） \color{blue}③.标准差（均方差，记作SD） ③.标准差（均方差，记作SD）

随机变量 X X X 标准差定义

σ = E [ X − E ( X ) ] 2 = E ( X 2 ) − ( E X ) 2 \color{red}\sigma = \sqrt{E[X-E(X)]^2} = \sqrt{E(X^2)-(EX)^2} σ=E[X−E(X)]2 =E(X2)−(EX)2
总体方差对应的标准差

σ = ∑ i = 1 N ( X i − μ ) 2 N \color{red}\sigma = \sqrt{\frac{\sum_{i=1}^N(X_i-\mu)^2}{N}} σ=N∑i=1N(Xi−μ)2

样本方差对应的标准差

S = ∑ i = 1 n ( X i − X ‾ ) 2 n − 1 \color{red}S = \sqrt{\frac{\sum_{i=1}^n(X_i-\overline{X})^2}{n-1}} S=n−1∑i=1n(Xi−X)2
在这里插入图片描述

④ . 抽样方差（样本均值的方差） \color{blue}④.抽样方差（样本均值的方差） ④.抽样方差（样本均值的方差）

假如我们的总体容量为 N N N，我们将分成 k k k 个样本，设其中一个样本的容量为 n n n 。

我们前面讲到的样本方差是将容量为 n n n 的样本作为一个整体，样本中的第 1 , 2 , 3 , … , n 1,2,3,\ldots,n 1,2,3,…,n 个体作为变量所求的方差。

这里我们则是将一个样本的均值定义为一个变量（样本均值记为 Y ‾ \overline{Y} Y， Y ‾ \overline{Y} Y 做为一个随机变量）， k k k 个样本均值作为一个整体，最后求到 Y ‾ \overline{Y} Y 的总体方差，也就是抽样方差。

⑤ . 标准误差（标准误，样本均值的标准误差） \color{blue}⑤.标准误差（标准误，样本均值的标准误差） ⑤.标准误差（标准误，样本均值的标准误差）

Y ‾ \overline{Y} Y 的总体标准差称为标准误差（就是抽样方差开个根号），记作 S E ( Y ‾ ) SE(\overline{Y}) SE(Y)。

抽样方差和总体方差的关系:

如果已知总体的标准差 ( σ 2 ) ，那么抽取无限多份大小为 n 的样本 , \color{fuchsia}如果已知总体的标准差(\sigma^2)，那么抽取无限多份大小为 n 的样本, 如果已知总体的标准差(σ2)，那么抽取无限多份大小为n的样本,

每个样本各有一个平均值，所有样本平均值的方差可证明为 \color{fuchsia}每个样本各有一个平均值，所有样本平均值的方差可证明为每个样本各有一个平均值，所有样本平均值的方差可证明为

（注意！不是一份样本里观察值的方差（那是 S 2 ）） \color{fuchsia}（注意！不是一份样本里观察值的方差（那是 S^2 ））（注意！不是一份样本里观察值的方差（那是S2））

σ Y ‾ 2 = σ 2 n \color{red}\sigma_{\overline{Y}}^2 = \frac{\sigma^2}{n} σY2=nσ2

在现实中人们更喜欢用两边的算术平方根

S D ( Y ‾ ) = σ Y ‾ = σ n \color{red}SD(\overline{Y}) = \sigma_{\overline{Y}} = \frac{\sigma}{\sqrt{n}} SD(Y)=σY=n σ

由于 σ \sigma σ 在现实中往往很难得到，所以通常用 S S S（样本的标准差）来代替

S E ( Y ‾ ) = S n \color{red}SE(\overline{Y}) = \frac{S}{\sqrt{n}} SE(Y)=n S

σ Y ‾ 2 : 样本均值的方差 \sigma_{\overline{Y}}^2 : 样本均值的方差 σY2:样本均值的方差

S D ( Y ‾ ) : 样本均值的标准“差” SD(\overline{Y}) : 样本均值的标准“差” SD(Y):样本均值的标准“差”

S E ( Y ‾ ) : 样本均值的标准“误” SE(\overline{Y}) : 样本均值的标准“误” SE(Y):样本均值的标准“误”

参考：https://zhuanlan.zhihu.com/p/106706044
https://zh./zh-hans/%E6%A0%87%E5%87%86%E8%AF%AF%E5%B7%AE

总结一下

因为每进行一次抽样就能得到一个样本均值 Y ‾ ，所以 Y ‾ 同样是一个随机变量。 \color{fuchsia}因为每进行一次抽样就能得到一个样本均值 \overline{Y}，所以 \overline{Y} 同样是一个随机变量。因为每进行一次抽样就能得到一个样本均值Y，所以Y同样是一个随机变量。

这个新随机变量的总体方差叫做“抽样方差”（ S a m p l i n g V a r i a n c e ） \color{fuchsia}这个新随机变量的总体方差叫做“抽样方差”（Sampling Variance）这个新随机变量的总体方差叫做“抽样方差”（SamplingVariance）

这个新随机变量的总体标准差叫做“标准误”（ S t a n d a r d E r r o r ） \color{fuchsia}这个新随机变量的总体标准差叫做“标准误”（Standard Error）这个新随机变量的总体标准差叫做“标准误”（StandardError）

具体怎么应用这里就不细说 … \ldots … 篇幅有限，大家有兴趣的话可以自己去去找找资料。
在这里插入图片描述

⑥ . 均方差（也称标准差，上面说过了） \color{blue}⑥.均方差（也称标准差，上面说过了） ⑥.均方差（也称标准差，上面说过了）

⑦ . 均方误差（记作： M S E ） \color{blue}⑦.均方误差（记作：MSE） ⑦.均方误差（记作：MSE）

均方误差：各个数据估计值偏离数据真实值的平方和的平均数（误差平方和的平均数）

M S E = ∑ i = 1 n ( X i − x i ) 2 n \color{red}MSE = \frac{\sum_{i=1}^n(X_i-x_i)^2}{n} MSE=n∑i=1n(Xi−xi)2

X i : 数据的估计值 X_i: 数据的估计值 Xi:数据的估计值

x i : 数据的真实值 x_i: 数据的真实值 xi:数据的真实值

均方误差在机器学习中可以当作模型的损失函数，用来预测和回归。均方误差越小，模型预测的正确率越高，反之正确率则越低。

⑧ . 均方根误差（记作： R M S E ） \color{blue}⑧.均方根误差（记作：RMSE） ⑧.均方根误差（记作：RMSE）

均方误差的算术平方根

R M S E = ∑ i = 1 n ( X i − x i ) n \color{red}RMSE = \sqrt{\frac{\sum_{i=1}^n(X_i-x_i)}{n}} RMSE=n∑i=1n(Xi−xi)

⑨ . 协方差 \color{blue}⑨.协方差 ⑨.协方差

维基百科定义：在概率论和统计学中，协方差（Covariance）用于衡量两个随机变量的联合变化程度。而方差是协方差的一种特殊情况，即变量与自身的协方差。

为什么说方差是协方差的特殊情况呢？

前面我们讲到了方差的表达式

D ( X ) = E [ X − E ( X ) ] 2 = E [ X − E ( X ) ] [ X − E ( X ) ] \color{red}D(X)=E[X-E(X)]^2 = E[X-E(X)][X-E(X)] D(X)=E[X−E(X)]2=E[X−E(X)][X−E(X)]

根据定义，协方差是衡量两个随机变量的联合变化程度，设两个随机变量分别为 X , Y X,Y X,Y。
协方差为

C o v ( X , Y ) = E [ X − E ( X ) ] [ Y − E ( Y ) ] \color{red}Cov(X,Y) = E[X-E(X)][Y-E(Y)] Cov(X,Y)=E[X−E(X)][Y−E(Y)]

协方差表示的是两个变量的总体的误差；当 X = Y X=Y X=Y 时，表示的就是只有一个变量总体的误差的方差，所以方差是协方差中两个随机变量相等时的一种特殊情况。

C o v ( X , Y ) = E [ X − E ( X ) ] [ Y − E ( Y ) ] = E [ X Y − X E ( Y ) − Y E ( X ) + E ( X ) E ( Y ) ] = E ( X Y ) − E ( X ) E ( Y ) − E ( X ) E ( Y ) + E ( X ) E ( Y ) = E ( X Y ) − E ( X ) E ( Y ) \color{red}

\begin{aligned} C o v (X, Y) & = E [X - E (X)] [Y - E (Y)] \\ = E [X Y - X E (Y) - Y E (X) + E (X) E (Y)] \\ = E (X Y) - E (X) E (Y) - E (X) E (Y) + E (X) E (Y) \\ = E (X Y) - E (X) E (Y) \end{aligned}

Cov(X,Y)=E[X−E(X)][Y−E(Y)]=E[XY−XE(Y)−YE(X)+E(X)E(Y)]=E(XY)−E(X)E(Y)−E(X)E(Y)+E(X)E(Y)=E(XY)−E(X)E(Y)

一般我们都会用 E ( X Y ) − E ( X ) E ( Y ) E(XY)-E(X)E(Y) E(XY)−E(X)E(Y) 来计算协方差

性质：

1. C o v ( X , X ) = D ( X ) \color{fuchsia}1.Cov(X,X) = D(X) 1.Cov(X,X)=D(X)

2. C o v ( X , Y ) = C o v ( Y , X ) \color{fuchsia}2.Cov(X,Y) = Cov(Y,X) 2.Cov(X,Y)=Cov(Y,X)

3. C o v ( a X , b Y ) = a b C o v ( X , Y ) \color{fuchsia}3.Cov(aX,bY) = abCov(X,Y) 3.Cov(aX,bY)=abCov(X,Y)

对于随机变量序列 X 1 , . . . , X n X_1, ..., X_n X1,...,Xn 与 Y 1 , . . . , Y m Y_1, ..., Y_m Y1,...,Ym，有

4. C o v ( ∑ i = 1 n X i , ∑ j = 1 n Y j ) = ∑ i = 1 n ∑ j = 1 n C o v ( X , Y ) \color{fuchsia}4.Cov(\sum_{i=1}^nX_i,\sum_{j=1}^nY_j) = \sum_{i=1}^n\sum_{j=1}^nCov(X,Y) 4.Cov(∑i=1nXi,∑j=1nYj)=∑i=1n∑j=1nCov(X,Y)

5. C o v ( X , k 1 Y 1 + k 2 Y 2 + … + k n Y n ) = k 1 C o v ( X , Y 1 ) + ⋯ + k n C o v ( X , Y n ) \color{fuchsia}5.Cov(X,k_1Y_1+k_2Y_2+\ldots+k_nY_n) = k_1Cov(X,Y_1)+\dots+k_nCov(X,Y_n) 5.Cov(X,k1Y1+k2Y2+…+knYn)=k1Cov(X,Y1)+⋯+knCov(X,Yn)

6. X , Y 变化方向相同时（比如同时变大或者同时变小） , 协方差为正。 \color{fuchsia}6.X,Y变化方向相同时（比如同时变大或者同时变小）,协方差为正。 6.X,Y变化方向相同时（比如同时变大或者同时变小）,协方差为正。

7. X , Y 变化方向不相同时（比如同一个变大，另一个变小） , 协方差为负。 \color{fuchsia}7.X,Y变化方向不相同时（比如同一个变大，另一个变小）,协方差为负。 7.X,Y变化方向不相同时（比如同一个变大，另一个变小）,协方差为负。

8. 当 X , Y 独立时， C o v ( X , Y ) = 0 \color{fuchsia}8.当 X,Y 独立时，Cov(X,Y) = 0 8.当X,Y独立时，Cov(X,Y)=0

因为当 X , Y X,Y X,Y 独立时，则有 E ( X Y ) = E ( X ) E ( Y ) E(XY) = E(X)E(Y) E(XY)=E(X)E(Y)，所以 C o v ( X , Y ) = 0 Cov(X,Y) = 0 Cov(X,Y)=0。但是反过来协方差等于 0 ， X , Y X,Y X,Y 并不一定独立。

⑩ . 极差（全距） \color{blue}⑩.极差（全距） ⑩.极差（全距）

这个最简单了，就是最大值减去最小值的差值
在这里插入图片描述
有什么遗漏或者错误的地方欢迎大家指正！！！（有点标题党了哈哈哈）

在这里插入图片描述

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：新用户51207639 > 《统计》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

新用户51207639

关注对话

TA的最新馆藏

AXmath下载与安装
微信读书电子书下载的方法 – 码中人的博客
Python爬取b站热门视频信息并导入Excel表格
LaTeX 使用指南：从入门到精通
扎根理论文献导读之The Discovery of Grounded Theory
将评分量规分数转换为成绩

喜欢该文的人也喜欢更多

热门阅读换一换

(史上最全总结)总体方差，样本方差，标准差，抽样方差，标准误差，均方误差，协方差...........

文章目录

数学期望 \color{blue}数学期望 数学期望

总体和样本 \color{blue}总体和样本 总体和样本

方差 \color{blue} 方差 方差

1. 总体方差 \color{blue}1.总体方差 1.总体方差

2. 样本方差 \color{blue}2.样本方差 2.样本方差

3. 标准差 \color{blue}3.标准差 3.标准差

4. 抽样方差 \color{blue}4.抽样方差 4.抽样方差

5. 标准误差 \color{blue}5.标准误差 5.标准误差

6. 均方差 \color{blue}6.均方差 6.均方差

7. 均方误差 \color{blue}7.均方误差 7.均方误差

8. 均方根误差 \color{blue}8.均方根误差 8.均方根误差

9. 协方差 \color{blue}9.协方差 9.协方差

10. 极差 \color{blue}10.极差 10.极差

数学期望 \color{blue}数学期望 数学期望

1.概念:

2. 离散型随机变量的期望：

3. 连续型随机变量的期望：

总体和样本 \color{blue}总体和样本 总体和样本

方差 \color{blue}方差 方差

方差用 V a r ( X ) Var(X) Var(X) 或者 D ( X ) D(X) D(X) 表示：

① . 总体方差（有偏估计） \color{blue}①. 总体方差 （有偏估计） ①.总体方差（有偏估计）

② . 样本方差（无偏估计） \color{blue}②. 样本方差 （无偏估计） ②.样本方差（无偏估计）

在实际工作中总体方差 σ 2 \sigma^2 σ2 几乎算不出来，我们一般用 S 2 S^2 S2代替 σ 2 \sigma^2 σ2。

这里 μ 为什么要用 X ‾ 代替呢？ \color{fuchsia}这里 \mu为什么要用 \overline{X}代替呢？ 这里μ为什么要用X代替呢？

为什么样本方差的除数不是 n , 而是 ( n − 1 ) 呢？ \color{fuchsia}{为什么样本方差的除数不是n,而是 (n-1)呢？} 为什么样本方差的除数不是n,而是(n−1)呢？

证明：

由于样本均值的期望等于总体均值，则可推出 \color{fuchsia}{由于样本均值的期望等于总体均值，则可推出} 由于样本均值的期望等于总体均值，则可推出

由此可见低估了 1 n σ 2 \color{fuchsia}{由此可见低估了\frac{1}{n}\sigma^2} 由此可见低估了n1​σ2

③ . 标准差（均方差，记作 S D ） \color{blue}③.标准差（均方差，记作SD） ③.标准差（均方差，记作SD）

④ . 抽样方差（样本均值的方差） \color{blue}④.抽样方差（样本均值的方差） ④.抽样方差（样本均值的方差）

⑤ . 标准误差（标准误，样本均值的标准误差） \color{blue}⑤.标准误差（标准误，样本均值的标准误差） ⑤.标准误差（标准误，样本均值的标准误差）

如果已知总体的标准差 ( σ 2 ) ，那么抽取无限多份大小为 n 的样本 , \color{fuchsia}如果已知总体的标准差(\sigma^2)，那么抽取无限多份大小为 n 的样本, 如果已知总体的标准差(σ2)，那么抽取无限多份大小为n的样本,

每个样本各有一个平均值，所有样本平均值的方差可证明为 \color{fuchsia}每个样本各有一个平均值，所有样本平均值的方差可证明为 每个样本各有一个平均值，所有样本平均值的方差可证明为

（注意！不是一份样本里观察值的方差（那是 S 2 ）） \color{fuchsia}（注意！不是一份样本里观察值的方差（那是 S^2 ）） （注意！不是一份样本里观察值的方差（那是S2））

σ Y ‾ 2 : 样本均值的方差 \sigma_{\overline{Y}}^2 : 样本均值的方差 σY2​:样本均值的方差

S D ( Y ‾ ) : 样本均值的标准“差” SD(\overline{Y}) : 样本均值的标准“差” SD(Y):样本均值的标准“差”

S E ( Y ‾ ) : 样本均值的标准“误” SE(\overline{Y}) : 样本均值的标准“误” SE(Y):样本均值的标准“误”

这个新随机变量的总体方差叫做“抽样方差”（ S a m p l i n g V a r i a n c e ） \color{fuchsia}这个新随机变量的总体方差叫做“抽样方差”（Sampling Variance） 这个新随机变量的总体方差叫做“抽样方差”（SamplingVariance）

这个新随机变量的总体标准差叫做“标准误”（ S t a n d a r d E r r o r ） \color{fuchsia}这个新随机变量的总体标准差叫做“标准误”（Standard Error） 这个新随机变量的总体标准差叫做“标准误”（StandardError）

⑥ . 均方差（也称标准差，上面说过了） \color{blue}⑥.均方差（也称标准差，上面说过了） ⑥.均方差（也称标准差，上面说过了）

⑦ . 均方误差（记作： M S E ） \color{blue}⑦.均方误差（记作：MSE） ⑦.均方误差（记作：MSE）

均方误差：各个数据估计值偏离数据真实值的平方和的平均数（误差平方和的平均数）

X i : 数据的估计值 X_i: 数据的估计值 Xi​:数据的估计值

x i : 数据的真实值 x_i: 数据的真实值 xi​:数据的真实值

⑧ . 均方根误差（记作： R M S E ） \color{blue}⑧.均方根误差（记作：RMSE） ⑧.均方根误差（记作：RMSE）

⑨ . 协方差 \color{blue}⑨.协方差 ⑨.协方差

为什么说方差是协方差的特殊情况呢？

性质：

1. C o v ( X , X ) = D ( X ) \color{fuchsia}1.Cov(X,X) = D(X) 1.Cov(X,X)=D(X)

2. C o v ( X , Y ) = C o v ( Y , X ) \color{fuchsia}2.Cov(X,Y) = Cov(Y,X) 2.Cov(X,Y)=Cov(Y,X)

3. C o v ( a X , b Y ) = a b C o v ( X , Y ) \color{fuchsia}3.Cov(aX,bY) = abCov(X,Y) 3.Cov(aX,bY)=abCov(X,Y)

4. C o v ( ∑ i = 1 n X i , ∑ j = 1 n Y j ) = ∑ i = 1 n ∑ j = 1 n C o v ( X , Y ) \color{fuchsia}4.Cov(\sum_{i=1}^nX_i,\sum_{j=1}^nY_j) = \sum_{i=1}^n\sum_{j=1}^nCov(X,Y) 4.Cov(∑i=1n​Xi​,∑j=1n​Yj​)=∑i=1n​∑j=1n​Cov(X,Y)

5. C o v ( X , k 1 Y 1 + k 2 Y 2 + … + k n Y n ) = k 1 C o v ( X , Y 1 ) + ⋯ + k n C o v ( X , Y n ) \color{fuchsia}5.Cov(X,k_1Y_1+k_2Y_2+\ldots+k_nY_n) = k_1Cov(X,Y_1)+\dots+k_nCov(X,Y_n) 5.Cov(X,k1​Y1​+k2​Y2​+…+kn​Yn​)=k1​Cov(X,Y1​)+⋯+kn​Cov(X,Yn​)

6. X , Y 变化方向相同时（比如同时变大或者同时变小） , 协方差为正。 \color{fuchsia}6.X,Y变化方向相同时（比如同时变大或者同时变小）,协方差为正。 6.X,Y变化方向相同时（比如同时变大或者同时变小）,协方差为正。

8. 当 X , Y 独立时， C o v ( X , Y ) = 0 \color{fuchsia}8.当 X,Y 独立时，Cov(X,Y) = 0 8.当X,Y独立时，Cov(X,Y)=0

⑩ . 极差（全距） \color{blue}⑩.极差（全距） ⑩.极差（全距）

数学期望 \color{blue}数学期望数学期望

总体和样本 \color{blue}总体和样本总体和样本

方差 \color{blue} 方差方差

数学期望 \color{blue}数学期望数学期望

总体和样本 \color{blue}总体和样本总体和样本

方差 \color{blue}方差方差

① . 总体方差（有偏估计） \color{blue}①. 总体方差（有偏估计） ①.总体方差（有偏估计）

② . 样本方差（无偏估计） \color{blue}②. 样本方差（无偏估计） ②.样本方差（无偏估计）

这里 μ 为什么要用 X ‾ 代替呢？ \color{fuchsia}这里 \mu为什么要用 \overline{X}代替呢？这里μ为什么要用X代替呢？

由此可见低估了 1 n σ 2 \color{fuchsia}{由此可见低估了\frac{1}{n}\sigma^2} 由此可见低估了n1σ2

每个样本各有一个平均值，所有样本平均值的方差可证明为 \color{fuchsia}每个样本各有一个平均值，所有样本平均值的方差可证明为每个样本各有一个平均值，所有样本平均值的方差可证明为

（注意！不是一份样本里观察值的方差（那是 S 2 ）） \color{fuchsia}（注意！不是一份样本里观察值的方差（那是 S^2 ））（注意！不是一份样本里观察值的方差（那是S2））

σ Y ‾ 2 : 样本均值的方差 \sigma_{\overline{Y}}^2 : 样本均值的方差 σY2:样本均值的方差

这个新随机变量的总体方差叫做“抽样方差”（ S a m p l i n g V a r i a n c e ） \color{fuchsia}这个新随机变量的总体方差叫做“抽样方差”（Sampling Variance）这个新随机变量的总体方差叫做“抽样方差”（SamplingVariance）

这个新随机变量的总体标准差叫做“标准误”（ S t a n d a r d E r r o r ） \color{fuchsia}这个新随机变量的总体标准差叫做“标准误”（Standard Error）这个新随机变量的总体标准差叫做“标准误”（StandardError）

X i : 数据的估计值 X_i: 数据的估计值 Xi:数据的估计值

x i : 数据的真实值 x_i: 数据的真实值 xi:数据的真实值

4. C o v ( ∑ i = 1 n X i , ∑ j = 1 n Y j ) = ∑ i = 1 n ∑ j = 1 n C o v ( X , Y ) \color{fuchsia}4.Cov(\sum_{i=1}^nX_i,\sum_{j=1}^nY_j) = \sum_{i=1}^n\sum_{j=1}^nCov(X,Y) 4.Cov(∑i=1nXi,∑j=1nYj)=∑i=1n∑j=1nCov(X,Y)

5. C o v ( X , k 1 Y 1 + k 2 Y 2 + … + k n Y n ) = k 1 C o v ( X , Y 1 ) + ⋯ + k n C o v ( X , Y n ) \color{fuchsia}5.Cov(X,k_1Y_1+k_2Y_2+\ldots+k_nY_n) = k_1Cov(X,Y_1)+\dots+k_nCov(X,Y_n) 5.Cov(X,k1Y1+k2Y2+…+knYn)=k1Cov(X,Y1)+⋯+knCov(X,Yn)