分享

机器学习推导|主成分分析

 汉无为 2022-11-19 发布于湖北

一、样本均值与样本方差

  1. 概述

假设有以下数据:

图片

  1. 样本均值与样本方差

以下定义了数据的样本均值与样本方差:

图片

接下来需要对样本均值与样本方差进行一些变换来获得其另一种表示形式:

图片

中心矩阵图片具备以下性质:

图片

因此最终可以得到

图片

二、主成分分析的思想

一个中心:PCA是对原始特征空间的重构,将原来的线性相关的向量转换成线性无关的向量;

两个基本点:最大投影方差和最小重构距离,这是本质相同的两种方法,在接下来的部分将具体介绍。

PCA首先要将数据中心化(即减去均值)然后投影到一个新的方向上,这个新的方向即为重构的特征空间的坐标轴,同时也要保证投影以后得到的数据的方差最大,即最大投影方差,这样也保证了数据的重构距离最小。

四、最大投影方差

假设投影方向为图片,由于我们只关注投影的方向,因此将图片的模设置为图片,即图片,则中心化后的数据在图片方向上的投影为图片,是一个标量。按照最大投影方差的思想,我们定义损失函数如下:

图片

因此该问题就转换为以下最优化问题:

图片

然后使用拉格朗日乘子法进行求解:

图片

最后解得符合条件的向量是协方差矩阵图片的特征向量。如果想要降到图片维(图片),则只需要将对应特征值最大的前图片个特征向量取出来作为投影方向然后获得数据在这些方向上的投影即为重构的坐标,即:

图片

特征向量表示投影变换的方向,特征值表示投影变换的强度。通过降维,我们希望减少冗余信息,提高识别的精度,或者希望通过降维算法来寻找数据内部的本质结构特征。找最大的特征值是因为 ,在降维之后要最大化保留数据的内在信息,并期望在所投影的维度上的离散最大。

五、最小重构距离

最小重构距离是另一种求解的方法,其本质上和最大投影方差是相同的。

我们知道有图片个投影方向符合条件,因此原来的数据可以表示为以下形式,降维的数据也就是舍弃掉第图片到第图片这几个方向上的信息。

图片

因此重构距离也就是指图片,本着最小化重构距离的思想我们可以设置新的损失函数如下:

图片

然后就可以转化为以下最优化问题:

图片

显然这里的每个图片是可以单独求解的,最终也可以解得图片是协方差矩阵图片的特征向量,只不过这里的图片是对应特征值较小的几个特征向量。

六、SVD角度看PCA和PCoA

协方差矩阵图片的特征分解:

图片.

图片中心化的结果图片做奇异值分解:

图片

接下里可以做以下变换:

图片

接下来我们构造矩阵图片

图片

对比图片图片,我们可以发现:
①将图片进行特征分解然后得到投影的方向,也就是主成分,然后矩阵图片即为重构坐标系的坐标矩阵;
②将图片进行特征分解可以直接获得坐标矩阵图片
(注意应保证图片图片特征分解得到的特征向量是单位向量。)

关于为什么将图片进行特征分解可以直接获得坐标矩阵,现做以下解释:

图片

这两种⽅法都可以得到主成分,但是由于⽅差矩阵是图片的,⽽图片图片的,所以对样本量较少的时候可以采⽤ PCoA的⽅法。

七、概率PCA(p-PCA)

  1. 概述

假设有以下数据:

图片

其中图片是原始数据,图片是降维后的数据,可以将图片看做隐变量(latent variable),图片看做观测变量(observed variable),则p-PCA就可以看做生成模型。

图片图片满足以下关系:

图片

这是一个线性高斯模型,其中图片是噪声,图片图片是独立的。求解这个模型要经过两个阶段:
①inference:求图片
②learning:使用EM算法求解参数图片

图片的生成过程如下:

图片

上图中数据空间为⼆维,潜在空间为⼀维。⼀个观测数据点图片的⽣成⽅式为:⾸先从潜在变量的先验分布图片中抽取⼀个潜在变量的值图片,然后从⼀个各向同性的⾼斯分布(⽤红⾊圆圈表示)中抽取⼀个图片的值,这个各向同性的⾼斯分布的均值为图片,协⽅差为图片。绿⾊椭圆画出了边缘概率分布图片的密度轮廓线。

  1. 推断(inference)

求解图片的过程如下:

图片

  • 图片

图片

  • 图片

图片

  • 图片

该问题和《高斯分布|机器学习推导系列(二)》中第六部分的问题是类似的。

图片

利用《高斯分布|机器学习推导系列(二)》中第五部分的公式可以求解图片

图片

  1. 学习(learning)

使用EM算法求解,这里不做展示。

参考资料

ref:降维时为什么找最大的特征值对应的特征向量
ref:《模式识别与机器学习》

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多