分享

一文读懂协方差与协方差矩阵

 吴敬锐 2019-10-15

摘要:首先从公式出发介绍了协方差和协方差矩阵的基本概念,然后通过图形说明了协方差矩阵的几何意义;进一步对协方差矩阵进行特征分解,其最大特征向量指向方差最大方向,第二大特征向量与最大特征向量正交;最后介绍了线性变换的数据集其协方差矩阵将如何变换。

01

协方差

在百度百科上,协方差是被这样定义的,协方差在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。

首先,我们来看一下协方差的计算公式:

从公式上看,协方差是两个变量与自身期望做差再相乘,然后对乘积取期望。也就是说,当其中一个变量的取值大于自身期望,另一个变量的取值也大于自身期望时,即两个变量的变化趋势相同,此时,两个变量之间的协方差取正值。反之,即其中一个变量大于自身期望时,另外一个变量小于自身期望,那么这两个变量之间的协方差取负值。

正如上图所示,当x与y变化趋势一致时,两个变量与自身期望之差同为正或同为负,其乘积必然为正,所以其协方差为正;反之,其协方差为负。所以协方差的正负性反映了两个变量的变化趋势是否一致。

再者,当x和y在某些时刻变化一致,某些时刻变化不一致时,如下图所示,在第一个点,x与y虽然变化,但是y的变化幅度远不及x变化幅度大,所以其乘积必然较小,在第二个点,x与y变化一致且变化幅度都很大,因此其乘积必然较大,在第三个点,x与y变化相反,其乘积为负值,这类点将使其协方差变小,因此,我们可以认为协方差绝对值大小反映了两个变量变化的一致程度。因此,两个变量相关系数的定义为协方差与变量标准差乘积之比。

总的来说,协方差反映了两个变量之间的相关程度。

02

协方差矩阵


在现实生活中,我们在描述一个物体时,并不会单单从一个或两个维度去描述,比如说,在描述一个学生的学习成绩时,就会从他的语文、数学、英语、物理、化学等等很多个维度去描述。在进行多维数据分析时,不同维度之间的相关程度就需要协方差矩阵来描述,维度之间的两两相关程度就构成了协方差矩阵,而协方差矩阵主对角线上的元素即为每个维度上的数据方差。

对于2维的数据,任意两个维度之间求其协方差,我们可以得到,这4个协方差(方差可以理解成特殊的协方差)就构成了协方差矩阵。

如果说x与y是正相关关系,即y必然随着x的增加而增加,同样x也随着y的增加而增加,即y与x呈正相关关系,所以有,因此协方差矩阵必然是一个实对称矩阵,其主对角线元素为方差,其余为协方差。接下来我们从2维数据分布情况,来看协方差矩阵的几何意义。

从上图我们可以看出,x与y的协方差符号决定了x与y的相关性,且协方差绝对值越大,其相关关系越明显。而x与y方差的大小决定了数据在x和y方向上的分散程度。

03

协方差矩阵的特征分解


上文中,我们解释了协方差代表了不同维度之间的相关关系,如果说某些维度之间没有相关关系,则协方差为0,那么,以2维数据为例,我们来看一下,当不同维度之间数据没有相关关系时,即协方差矩阵为单位阵时,数据分布的整体形状。

当数据协方差矩阵为单位阵时,该组数据被称为白数据,白数据在很多场合都有应用,比如在数据传输加密中,将原始数据转化成白数据,切断不同维度之间的关联关系,在访问数据时,再对数据进行解密。现在我们一起来看一下,怎么将白数据转化成真实观察数据的线性变换。

协方差矩阵表示了不同方向上数据分布的离散程度,现在我们试图用一个向量和一个数字来表示协方差矩阵,向量应该指向数据分布最离散的方向,而这个数应该是该方向上数据投影的方差。

首先,我们假设一个向量,则数据集D在该向量上的投影可以表示为,而数据集在该方向上的投影方差为:

我们现在要寻找一个向量,这个向量指向投影方差最大的方向,因此可以构建规划模型:

为了求解这个优化问题,那就不得不提一下瑞利熵的概念,瑞利熵是这样定义的:

其中,x是一个非零向量,A是一个实对称矩阵。瑞利熵有一个非常重要的性质,即它的最大值等于矩阵A最大的特征值,而最小值等于矩阵A的最小的特征值,也就是满足

当向量x是单位向量时,瑞利熵退化为

所以,可以得出,协方差矩阵最大特征值所对应的特征向量指向方差最大的方向,在该方向上数据投影方差的大小即为特征值。方差第二大方向即为第二大特征方向,因为协方差矩阵为实对称矩阵,该方向与第一特征方向垂直。

上图中,协方差矩阵的特征值分别为25和1,特征值表示特征向量方向的数据方差,协方差矩阵中的主对角元素表示沿x和y轴方向的方差分量。

04

协方差矩阵的线性变换


接下来,我们继续从协方差为单位阵的白数据出发,进行适当的线性变化,将其转化成上文观察到的数据。

在这里,用M来表示我们上文观察到的数据,D来表示白数据,M中的每个实例都可以用D中的实例通过线性变换得来:

其中,T线性变换矩阵,而T又可以拆解成旋转变换R和缩放变换S。

我们现在假设所有数据点旋转0度,而x轴方向扩大3倍,y轴方向大小不变。则:

将白数据D进行线性变化之后:

接下来,我们重点讨论一下,数据进行线性变化之后,其协方差矩阵产生什么变化

首先,讨论缩放矩阵对协方差矩阵的影响,当旋转矩阵为单位阵,缩放矩阵为S时,可得:

在白数据中,x和y的协方差为0,由此可得:

进一步,根据特征向量定义:

其中,V为数据M协方差矩阵特征向量组成的矩阵,L为对角阵,主对角线元素为特征值。

因为协方差矩阵为实对称矩阵,则V为一组标准正交基,因此,V可表示旋转矩阵R,而L为缩放矩阵S的平方。

由此,我们得到了白数据集D(协方差矩阵为单位阵)经过T矩阵线性变换之后得到的数据集M,其协方差矩阵与缩放矩阵S和旋转矩阵R的关系。

我们现在令旋转角度为-45度,x方向缩放比例为3,y方向缩放比例为1,故

其数据分布形状变化为:

其中,变换前后的协方差矩阵为:

我们进一步检验上文所得结论的准确性

05

结论

我们首先从公式出发介绍了协方差和协方差矩阵的基本概念,然后通过图形说明了协方差矩阵的几何意义;进一步对协方差矩阵进行特征分解,其最大特征向量指向方差最大方向,第二大特征向量与最大特征向量正交;最后介绍了线性变换的数据集其协方差矩阵将如何变换。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多