矩阵乘法的背后是什么？

汉无为 2023-06-02 发布于湖北

展开全文

矩阵乘法（Matrix multiplication）并不容易理解。

即使看着定义都曾让我汗流浃背，更不用说试图理解这种模式了。然而，其背后有一个非常简单的解释。

让我们拉开这个帷幕吧！

首先让我们看一下原始定义。下面这张图展示了如何计算矩阵 $A$ 和 $B$ 的乘法。看起来不是最容易（或最令人愉快）的。

我们要展开这个过程。在讨论技术细节之前，我们先看如下图对矩阵乘法给出的直观展示。矩阵 $AB$ 乘积的第 $i$ 行第 $j$ 列元素是矩阵 $A$ 的第 $i$ 行与矩阵 $B$ 的第 $j$ 列点乘的结果。

现在，让我们看一个特例： $A$ 乘以一个第一个元素为1，其余元素为 0 的（列）向量。并且让我们将这个特殊的向量命名为 $e_1$ 。结果表明 $A$ 和 $e_1$ 的乘积是 $A$ 的第一列。

类似地， $A$ 乘以一个第二个元素为1，其余元素为 0 的（列）向量将得到 $A$ 的第二列。

这是一种模式！

按照同样的逻辑，我们得出结论： $A$ 乘以 $e_k$ 等于 $A$ 的第 $k$ 列。

这听起来有点像代数，所以让我们用几何术语来描述这个问题。是的，你没有听错：几何术语（Geometric terms）。

矩阵表示线性变换。正如你知道的那些拉伸、倾斜、旋转、翻转或以其他方式线性扭曲空间的东西。下面图像中的基向量构成了矩阵的列向量。

我们可以在二维空间上可视化这个概念。

此外，我们可以将矩阵向量乘积看作列向量的线性组合。请记住这一点，因为它很重要。

（如果展开矩阵向量乘积看起来太复杂，你懂我的意思。下面的计算与上面的相同，只是向量化形式。）

现在，关于矩阵乘积公式。从几何角度来看，乘积 $AB$ 与在基底上先应用线性变换 $B$ 后应用线性变换 $A$ 是一样的（译者注：这里需要按照上图来理解矩阵乘法，实际上把所有过程抽象成对标准正交基底的变换，进而得到矩阵乘法的行乘列计算规则的具体由来，这一点后文中也会解释）。

译者在此处补充了下面的计算过程来帮助理解上述内容。 $\begin{aligned} \begin{aligned} AB &= \begin{bmatrix} 1&1\\0&1\\ \end{bmatrix}\begin{bmatrix} 3&0\\0&2\\ \end{bmatrix} = A \begin{bmatrix} 3&0\\0&2\\ \end{bmatrix}\%&= A\begin{bmatrix} b_1&b_2 \end{bmatrix} \\ &= A\begin{bmatrix} 3e_1 + 0e_2&0e_1+2e_2 \end{bmatrix} \\ &= \begin{bmatrix} 3Ae_1 + 0Ae_2&0Ae_1+2Ae_2 \end{bmatrix} \\ %&= \begin{bmatrix} 3a_1 &2a_2 \end{bmatrix} \%&= \begin{bmatrix} %1\times3+1\times0&1\times0+1\times2\%0\times3+1\times0&0\times0+1\times2\\ %\end{bmatrix}\&= \begin{bmatrix} 3&2\\0&2\\ \end{bmatrix} \end{aligned} &\ \begin{aligned} BA &= \begin{bmatrix} 3&0\\0&2\\ \end{bmatrix} \begin{bmatrix} 1&1\\0&1\\ \end{bmatrix} = B \begin{bmatrix} 1&1\\0&1\\ \end{bmatrix}\%&= B\begin{bmatrix} a_1 & a_2 \end{bmatrix} \\ &= B\begin{bmatrix} 1e_1 + 0e_2&1e_1+1e_2 \end{bmatrix} \\ &= \begin{bmatrix} 1Be_1 + 0Be_2&1Be_1+1Be_2 \end{bmatrix} \%&= \begin{bmatrix} b_1 &b_1+b_2 \end{bmatrix} \\ %&= \begin{bmatrix} %3\times1+0\times0&3\times1+0\times1\%0\times1+2\times0&0\times1+2\times1\\ %\end{bmatrix}\&= \begin{bmatrix} 3&3\\0&2\\ \end{bmatrix} \end{aligned} \end{aligned}$

其中，

a_i = A e_i,\ \ b_i=Be_i

分别为矩阵

A, B

的列向量。

回想一下矩阵向量乘积是（矩阵的）列向量的线性组合。基于这一点，我们可以看到矩阵 $AB$ 乘积的第一列是 $A$ 的列向量的线性组合（系数来自矩阵 $B$ 的系第一列）。

我们可以将线性组合合并为单个矢量，从而得到了 $AB$ 乘积的第一列的计算公式。这个公式直接来自于神秘的矩阵乘法公式。

同理，可以给出一个明确的公式来计算矩阵乘积的每个元素。

线性代数之所以强大，是因为它忽略了计算数据结构（例如向量和矩阵）的复杂性。我们可以使用简单的表达式 $AB$ ，而不是明确地处理数组和进行复杂的求和运算。

这一点至关重要！

彼得·拉克斯（Peter Lax）完美地总结了这一点：“So what is gained by abstraction? First of all, the freedom to use a single symbol for an array; this way we can think of vectors as basic building blocks, unencumbered by components.”