【原】揭开矩阵分解的神秘面纱——特征分解，奇异值分解，伪逆矩阵

老胡说科学 2021-09-18

展开全文

在这篇文章中，我将讨论以下内容。

特征分解
奇异值分解
伪逆矩阵

这三个方面是相互关联的。

一旦我们知道特征分解原理是什么，我们就能理解奇异值分解的原理。一旦我们知道奇异值分解，我们就能理解伪逆矩阵。

我们按顺序讨论以下几个方面。

方形矩阵（方阵）
特征值和特征向量
对称矩阵
特征分解
正交矩阵
奇异值分解
伪逆矩阵

方形矩阵

特征分解只对方形矩阵有效。让我们看看什么是正方形矩阵。在方形矩阵中，行数和列数是一样的。比如说：

这很简单。我们继续讨论特征值和特征向量的概念。

特征值和特征向量

当一个正方形矩阵A和一个向量x有如下关系。

我们称λ为特征值，向量x为特征向量。

以上意味着向量x与矩阵A相乘的结果与向量x与标量值λ相乘的结果相同。

为了找到具有特征值和特征向量的条件，我们把方程左边的东西都移动。

为了使矢量x不为零，(A- λI)的逆矩阵应该不存在。换句话说，（A-λI）的行列式需要为零。

让我们以2x2的正方形矩阵为例来计算行列式：

所以，(A - λI)是：

然后我们计算行列式（我们希望它是零）。

因此，λ不是1就是5。

我们来定义特征向量如下：

我们有如下的特征值和特征向量的方程式。

我们可以计算出λ=1的特征向量x，如下所示：

为了满足上述条件，x1和x2是：

尽管t可以是任何值，但我们通常会使L2范数（向量各元素的平方和然后求平方根）为1，否则就会有无限多的可能解：

特征值λ=1的特征向量是：

或：

它们是一样的，只是一个向量的方向与另一个相反。所以，我就选择第一个作为λ=1的特征向量。

让我们确认一下这是否符合预期：

我们可以用同样的方法求解λ=5的情况：

对于3×3或更大的矩阵，手动计算太繁琐了。我们可以用NumPy写一个python脚本来完成。

下面是输出结果。

我们可以确认它们是否正确。

下面是输出结果。

对称矩阵

对称矩阵的特征向量是相互正交的。让我们在这里证明一下。

假设λ1和λ2（λ1≠λ2）是特征值，x1和x2是相应的特征向量。

因此：

然而，λ1 ≠ λ2。因此：

因此，对称矩阵的特征向量是相互正交的。现在我们准备讨论一下特征分解的原理。

特征分解

利用特征值和特征向量，我们可以将一个正方形矩阵A分解如下。

Q是一个矩阵，其列中有特征向量：

是大写的lambda，是一个对角矩阵，其对角线元素是特征值：

我们将特征值按降序排列，以使对角矩阵Λ唯一。

为了证明这种特征分解是可能的，我们稍微调整方程：

而我们将证明AQ=QΛ为真。

换句话说，AQ等同于矩阵Q内的每个特征向量乘以相应的特征值。

因此，我们已经证明了特征分解是可能的。让我们用Numpy试试特征分解。

下面是输出结果：

正交矩阵

如前所述，当矩阵A是对称的，矩阵Q中的特征向量是相互正交的。

当我们也使所有特征向量的L2范数为1（正交）时，我们称Q为正交矩阵。

当Q是一个正交矩阵时：

同样地：

因此：

上述事实在我们讨论奇异值分解时将会有所帮助。

让我们用Numpy计算QΛQ^T。

下面是输出结果：

另外，让我们确定一下Q是一个正交矩阵。

下面是输出结果：

这里我们看到了数值计算的局限性。非对角线元素应该是0，但相反，其中一些元素是非常小的值。

所以，到目前为止，我们处理的是方阵，因为特征分解只对方形矩阵有效。接下来，我们将看到适用于非方形矩阵的奇异值分解。

奇异值分解

奇异值分解对任何矩阵都有效，甚至适用于非方阵。

假设矩阵A是m×n（m≠n），我们仍然可以将矩阵A分解如下。

U是一个正交矩阵（m×m）。
Σ是一个对角线矩阵（m×n）。
V是一个正交矩阵(n×n)。

这看起来太抽象了，可视化有助于我们理解。

Σ有如下结构。左上角部分是一个对角线矩阵，对角线元素中有奇异值（后面会详细介绍）。Σ的其他元素都是零。

我们把奇异值按降序排列。

奇异值的数量与矩阵A的秩相同，也就是独立列向量的数量。

那么，我们如何创建这样一个分解呢？

主要的想法是，我们做一个如下的方形矩阵。

或

我们可以选择其中之一，但使用元素较少的那一个比较容易。例如，如果矩阵A是100×10,000。AA^T是100×100，而A^TA是10,000×10,000。所以，我会选择AA^T。

假设我们用AA^T对矩阵A进行奇异值分解。

其中：

是一个对角线矩阵（m×m）。这些值是AA^T的特征值，因为我们对AA^T进行了如下的特征分解。

矩阵U中的列向量是特征向量，因为：

换句话说，如果我们能对AA^T进行特征分解，我们就能计算出U和对角线的σ，然后我们就能计算出V。

我们可以考虑用A^TA进行同样的计算：

其中

是一个对角线矩阵（n×n）。这些值是特征值，因为我们对A^TA进行了如下的特征分解：

矩阵V中的列向量是特征向量，因为：

换句话说，如果我们能对A^TA进行特征分解，我们就能计算出V和对角线的Σ，然后我们就能计算出U。

因此，如果我们对AA^T或A^TA进行特征分解，我们就可以进行奇异值分解。

同样，我们应该选择AA^T或A^TA中较小的一个。

让我们用Numpy试试奇异值分解。

下面是输出结果：

让我们对矩阵Σ进行如下设置。

下面是输出结果。

现在，我们可以确认𝐴=𝑈Σ𝑉T。

下面是输出结果。

现在我们知道了奇异值分解，就可以准备研究伪逆矩阵了。

伪逆矩阵

逆矩阵并不总是存在，即使是方阵。然而，对于非正方形矩阵，存在一个伪逆矩阵，也叫摩尔-彭罗斯逆矩阵。

例如，矩阵A是m×n。

使用伪逆矩阵A^+，我们可以进行以下转换。

我们定义伪逆矩阵A^+为：

V和U来自奇异值分解。

我们通过转置Σ和所有对角元素的逆得到D^+。假设Σ的定义如下：

那么D+的定义如下：

现在，我们可以看到A^+A的原理：

以同样的方式，AA^+ = I。

综上所述，如果我们能够对矩阵A进行奇异值分解，我们就可以通过VD^+UT来计算A^+，这是一个A的伪逆矩阵。

让我们用Numpy试试伪逆矩阵吧。

下面是输出结果：

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：老胡说科学 > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

老胡说科学

关注对话

TA的最新馆藏

物理学新进展，质子内部的结构图逐渐清晰，刷新我们对物质的认知
用最简单的例子，深入解析人工神经网络，彻底理解机器学习过程
茅塞顿开，这才是矩阵变换的本质，小学生都能轻松理解
曲率，一个高度抽象的概念，真正理解它需要非常深厚的数学背景
许多大定理和猜测，从根本上讲，是由计算经验的启示而得到的
最顶级的数学游戏，仅用一个方程式，产生了4个数万亿美元的产业

喜欢该文的人也喜欢更多

热门阅读换一换