协方差与协方差矩阵

雪柳花明 2017-08-27

展开全文

标签：协方差协方差矩阵统计

引言

最近在看主成分分析（PCA），其中有一步是计算样本各维度的协方差矩阵。以前在看算法介绍时，也经常遇到，现找了些资料复习，总结如下。

协方差

通常，在提到协方差的时候，需要对其进一步区分。（1）随机变量的协方差。跟数学期望、方差一样，是分布的一个总体参数。（2）样本的协方差。是样本集的一个统计量，可作为联合分布总体参数的一个估计。在实际中计算的通常是样本的协方差。

随机变量的协方差

在概率论和统计中，协方差是对两个随机变量联合分布线性相关程度的一种度量。两个随机变量越线性相关，协方差越大，完全线性无关，协方差为零。定义如下。

cov (X, Y) = E [(X - E [X]) (Y - E [Y])]

当

X

，

Y

是同一个随机变量时，

X

与其自身的协方差就是

X

的方差，可以说方差是协方差的一个特例。

cov (X, X) = E [(X - E [X]) (X - E [X])]

或

var (X) = cov (X, X) = E [(X - E [X])^{2}]

由于随机变量的取值范围不同，两个协方差不具备可比性。如

X

，

Y

，

Z

分别是三个随机变量，想要比较

X

与

Y

的线性相关程度强，还是

X

与

Z

的线性相关程度强，通过

cov (X, Y)

与

cov (X, Z)

无法直接比较。定义相关系数

η

为

η = \frac{cov (X, Y)}{\sqrt{var (X) \cdot var (Y)}}

通过

X

的方差

var (X)

与

Y

的方差

var (Y)

对协方差

cov (X, Y)

归一化，得到相关系数

η

，

η

的取值范围是

[- 1, 1]

。

1

表示完全线性相关，

- 1

表示完全线性负相关，

0

表示线性无关。线性无关并不代表完全无关，更不代表相互独立。

样本的协方差

在实际中，通常我们手头会有一些样本，样本有多个属性，每个样本可以看成一个多维随机变量的样本点，我们需要分析两个维度之间的线性关系。协方差及相关系数是度量随机变量间线性关系的参数，由于不知道具体的分布，只能通过样本来进行估计。

设样本对应的多维随机变量为 $X = [X_{1}, X_{2}, X_{3}, . . ., X_{n}]^{T}$ ，样本集合为 ${x_{\cdot j} = [x_{1 j}, x_{2 j}, . . ., x_{n j}]^{T} | 1 ⩽ j ⩽ m}$ ， $m$ 为样本数量。与样本方差的计算相似， $a$ 和 $b$ 两个维度样本的协方差公式为，其中 $1 ⩽ a ⩽ n$ ， $1 ⩽ b ⩽ n$ ， $n$ 为样本维度

q_{a b} = \frac{\sum_{j = 1}^{m} (x_{a j} - {\bar{x}}_{a}) (x_{b j} - {\bar{x}}_{b})}{m - 1}

这里分母为

m - 1

是因为随机变量的数学期望未知，以样本均值代替，自由度减一。

协方差矩阵

多维随机变量的协方差矩阵

对多维随机变量 $X = [X_{1}, X_{2}, X_{3}, . . ., X_{n}]^{T}$ ，我们往往需要计算各维度两两之间的协方差，这样各协方差组成了一个 $n \times n$ 的矩阵，称为协方差矩阵。协方差矩阵是个对称矩阵，对角线上的元素是各维度上随机变量的方差。我们定义协方差矩阵为 $Σ$ ，这个符号与求和 $\sum$ 相同，需要根据上下文区分。矩阵内的元素 $Σ_{i j}$ 为

Σ_{i j} = cov (X_{i}, X_{j}) = E [(X_{i} - E [X_{i}]) (X_{j} - E [X_{j}])]

这样这个矩阵为

Σ = E [(X - E [X]) (X - E [X])^{T}]

= [\begin{matrix} cov (X_{1}, X_{1}) & cov (X_{1}, X_{2}) & \dots & cov (X_{1}, X_{n}) \\ cov (X_{2}, X_{1}) & cov (X_{2}, X_{2}) & \dots & cov (X_{2}, X_{n}) \\ ⋮ & ⋮ & ⋱ & ⋮ \\ cov (X_{n}, X_{1}) & cov (X_{n}, X_{2}) & \dots & cov (X_{n}, X_{n}) \end{matrix}]

= [\begin{matrix} E [(X_{1} - E [X_{1}]) (X_{1} - E [X_{1}])] & E [(X_{1} - E [X_{1}]) (X_{2} - E [X_{2}])] & \dots & E [(X_{1} - E [X_{1}]) (X_{n} - E [X_{n}])] \\ E [(X_{2} - E [X_{2}]) (X_{1} - E [X_{1}])] & E [(X_{2} - E [X_{2}]) (X_{2} - E [X_{2}])] & \dots & E [(X_{2} - E [X_{2}]) (X_{n} - E [X_{n}])] \\ ⋮ & ⋮ & ⋱ & ⋮ \\ E [(X_{n} - E [X_{n}]) (X_{1} - E [X_{1}])] & E [(X_{n} - E [X_{n}]) (X_{2} - E [X_{2}])] & \dots & E [(X_{n} - E [X_{n}]) (X_{n} - E [X_{n}])] \end{matrix}]

样本的协方差矩阵

与上面的协方差矩阵相同，只是矩阵内各元素以样本的协方差替换。样本集合为 ${x_{\cdot j} = [x_{1 j}, x_{2 j}, . . ., x_{n j}]^{T} | 1 ⩽ j ⩽ m}$ ， $m$ 为样本数量，所有样本可以表示成一个 $n \times m$ 的矩阵。我们以 $\hat{Σ}$ 表示样本的协方差矩阵，与 $Σ$ 区分。