线性代数的本质,来自B站3blue1brown的线性代数的本质,也加有自己的想法,有兴趣的可以看看。 主要从线性变换的角度介绍了向量与空间、矩阵与线性变换、线性方程组、点积和叉积、特征向量与特征值这五大方面的本质。
点击左下角“阅读原文”下载完整的word及PDF文档。 一、向量与空间
1、向量
向量表示空间中的一种运动关系,正负号表示运动方向。如向量 表示在一个二维坐标系中,从当前位置出发,先沿x轴前进1,再沿y轴后退2,同理可以推导到多维空间。 向量加法表示两次运动的叠加。如表示先按照第一个向量运动,再按照第二个向量运动。两个运动叠加的结果等同于在x轴和y轴总位移向量相加组成向量的运动结果。 向量乘以数字表示运动的缩放。如表示把原来的向量运动扩大三倍。 2、线性组合
向量数乘的和称为向量的线性组合。任何向量实质都是由基向量缩放再相加得到的。例如,向量v就是向量i、j、k分别缩放x、y、z倍后相加的结果。 向量可以看作向量和的线性组合,即,i和j这样一对基向量,让我们在一对数和二维向量之间相互转化。当我们用数字表示向量时,依赖于我们使用的基。 3、空间
所有可以表示为给定向量线性组合的向量集合,称为给定向量张成(span)的空间。 对于向量α=mx+ny,如果让两个标量m和m同时自由变化,大部分情况下,你能到达平面中的每一个点,而向量x、y张成的空间,就是一个二维平面空间。也有糟糕的情况,当向量x、y共线时,所有向量都被限制在一条过原点的直线上,此时形成的就是一个一维直线空间。还有一种情况,当向量x和y都为零向量,此时只能表示为一个点了。 4、线性相关与线性无关
一组向量中至少有一个是多余的,没有对张成空间做出任何贡献,或者说,移除一组向量中的某一个向量不会减小张成的空间,我们称它们是线性相关(Linearly dependent)。 另一种表述是,其中一个向量可以表述为其他向量的线性组合,因为这个向量已经落在其他向量张成的空间之中。 如果所有的向量都给张成的空间添加了新的维度,它们就被称为线性无关(Linearly independent)。 向量空间的一组基是张成(span)该空间的一个线性无关向量集。 5、基
空间里的一组向量如果线性无关,并且它们任意的线性组合都可以表示为空间里的任意向量,则这组向量称为空间的基。基向量张成整个空间,基并不唯一,但它们的数量是唯一的,并且基向量的个数等于空间的维数。 在三维空间里,一组常见的基向量是,三维空间里任意向量都可以看成是这三个向量缩放它们的坐标倍数并相加的结果。 二、矩阵与线性变换 1、变换与线性变换 变换本质上是函数(function)的一种说法。线性代数里,我们通常考虑接收一个向量并输出一个向量的变换。如果一个变换接收一个向量并输出一个向量,我们想象这个输入向量移动到输出向量的位置,接下来,想象每个输入向量都移动到对应输出向量的位置。 变换与函数一样,不存在一个向量映射到多个向量。 若一个变换L满足下面两条性质 则称L是线性的。直观来讲,线性变换就是,直线变换后还是直线,并且原点变换后保持不变。 2、矩阵向量乘法与线性变换 例如,坐标为(-1,2)的向量,这个向量就是-1和向量i的数乘与2和向量j的数乘的和。当经过某一变换后,并且跟随这三个向量的运动,根据网线格平行且等距分布的性质,变换后的向量仍是-1和向量i的数乘与2和向量j的数乘的和,或者说,向量v是向量i与向量j的特定线性组合,变换前后都保持这个线性组合。 如下图,经过变换后的向量i与向量j,分别是和,经过计算,向量v一定落在向量(5,2)上。 在这里,我们只要知道变换后的向量i与j,就可以推断任意向量在变换之后的位置。例如,对坐标为(x,y)的任意向量,就有 由此可见,一个二维的线性变换仅由四个数字完全确定,即变换后的向量i和j。我们将向量i和j的坐标放在一个2×2格子里,称为2×2矩阵。 在一般情况下,给定任意2×2矩阵,它的两个列向量可以认为是向量i与j经过某一变换L得到的,若给定任意向量经过变换L后得到的向量就应该是,也就是矩阵乘向量的结果。 其实,我们完全可以把矩阵的列向量看作是变换后的基向量,矩阵向量的乘法看作它们的线性组合。或者说,矩阵向量的乘法就是矩阵列向量缩放再相加的过程。因此,一个矩阵其实就是代表了一种线性变换,矩阵实际上就是变换后基向量的组合,而矩阵向量乘法就是计算线性变换作用于给定向量的一种途径。 接下来介绍两个常见的变换:旋转变换和剪切变换。 如果将空间逆时针旋转90°,则基向量i和j分别落在(0,1)和(-1,0),因此这个变换矩阵的列就分别是(0,1)和(-1,0)。因此想要算出任意向量逆时针旋转90°后的位置,只需将它与旋转矩阵相乘即可。 如果让向量i保持不变,将j的坐标移到(1,1)上,从而得到的变换称为剪切变换,剪切矩阵就为。同样,想要算出任意向量经过剪切变换后的位置,只需将它与剪切矩阵相乘即可。 3、矩阵乘法与线性变换复合 在一个线性变换之后再进行另一个线性变换,这个新的线性变换称为前两个独立变换的复合变换。例如,对一个向量先进行旋转变换,在进行剪切变换,得到。我们称复合矩阵为最初两个矩阵的积。因此,两个矩阵相乘的几何意义就是两个线性变换的相继作用。 我们把矩阵看作一种线性变换,矩阵看作另一种线性变换,若对向量先进行B变换再进行A变换,即。 矩阵AB相乘的新矩阵,实质就是向量v先进行B变换再进行A变换的复合变换。 前面提到过,我们完全可以把矩阵的列向量看作是变换后的基向量。因此,我们可以只考虑上面的矩阵A、B,把矩阵B的列向量看作是经过B变换后的基向量,然后再进行A变换,也就是分别对向量和进行A变换,即 在这里,我们同样可以认为矩阵A的列向量和分别缩放e、g倍和f、h倍后再相加,即A的列向量的线性组合。 矩阵乘法的实质是两种线性变换相继作用的结果,两种变换的先后顺序会导致变换结果不相同,因此通常情况下,AB≠BA。 4、三维空间的线性变换 三维的线性变换和二维类似,缩放再相加的过程仍适用。例如矩阵与向量相乘,要找到向量变换后的位置,只需将它的坐标与对应列向量相乘再将结果相加即可。 两个矩阵相乘也是类似。例如两个3×3的矩阵相乘,我们可以把右侧矩阵的列向量看作经过第一个变换后的基向量,然后分别对三个基向量进行第二个变换即可。 5、行列式 变换矩阵A将空间X变换到空间Y,则空间中的任意区域将被拉伸或者放缩,任意区域变换后得到的区域的面积(二维)或者体积(三维),与变换前的面积或体积的比值称为变换矩阵A的行列式,记为det(A)。 det(A)=0时,A变换是降维变换,将空间压缩到更小的维度,比如三维空间的体积变换成面、线或点,二维空间的面积变换成点或线。此时,矩阵A的列向量线性相关。 det(A)>0时,表明经过A变换后,空间未发生翻转或者空间定向没有发生改变,或者说,基向量的相对位置没有发生改变。 det(A)<0时,空间发生翻转或者空间定向发生变化(基向量的相对位置发生变化),但行列式的绝对值仍是变换前后面积或体积的比值。 行列式正负的判断,看基向量的相对位置。 对于二维空间,若向量i在向量j的右侧,则基向量的相对位置没有发生改变。否则,则说明空间定向发生变化,行列式小于零。 对于三维空间,我们采用“右手定则”来判断。右手食指指向向量i的方向,伸出中指指向向量j的方向,当竖起大拇指时,拇指指向的就是向量k的方向。若不满足这种情况,则说明空间定向发生变化,det(A)<0。 6、基变换 对于任何一个坐标,我们都可以把这些数看作是拉伸或压缩向量i、j的标量。对于向量就是将向量i拉伸3倍与向量j拉伸2倍相加的结果。向量i、j可以看作是封装这个坐标系的隐含假设。发生在向量与一组数之间的变换,被称为坐标系,在此基础上会存在一组基向量,图中的向量i、j称为标准坐标系下的基向量。 在i、j坐标系下,任意向量表示的结果就是xi+yj。假设Jennifer使用着一组不同的基向量、,且、在i、j坐标系下表示的结果是、,因此,在她的坐标系中,任意向量都可表示为。 例如,在Jennifer坐标系中有一向量,也就是说这一向量满足,我们将向量用i、j坐标系表示,就是把向量的第一个坐标-1乘以向量加上第二个坐标2乘以向量得到的结果。需要注意的是,在Jennifer坐标系中,这两个基向量 、仍然是(1,0)和(0,1)。
如果我们把Jennifer坐标系的基向量组成一个矩阵,那么这个矩阵代表的就是将i、j坐标系下的向量变换到Jennifer坐标系中。但是,数值上却是将Jennifer的语言用我们的语言来表示,相当于这个矩阵是基于向量i、j来表示的。例如用这个矩阵乘以上述向量得到的其实是在i、j坐标系下的向量。这一点很容易理解错误。 对于矩阵的逆,就是上述变换的逆变换(逆变换后面有详细讲解,简单地说就是将某一变换还原的变换),将Jennifer坐标系中的向量变换到i、j坐标系中,数值上是将我们的语言变成了Jennifer的语言,相当于这个矩阵是基于向量、来表示的。例如,在i、j坐标系下的向量,在Jennifer坐标系中是,这只需要用上面矩阵的逆乘以,即。向量是用基向量i、j表示的结果,向量是用基向量、表示的结果,两者实质上是同一个向量,只不过是在不同基坐标系下的表示结果。 对于变换矩阵,我们知道它是将任意向量逆时针旋转90°的变换。如果我们要将Jennifer坐标系也逆时针旋转90°,不能用矩阵来变换,因为这一变换是基于i、j坐标系来变换的,它是在追踪向量i、j得到的。 因此,我们需要找到的是基向量、在旋转变换后在Jennifer坐标系中的位置。要实现这一想法,我们可以先进行基变换变成i、j坐标系,然后进行旋转变换,最后进行基变换的逆变换还原到Jennifer坐标系中。具体如下: 从Jennifer坐标系中的向量出发,通过左乘矩阵转化成i、j坐标系的语言,然后再左乘矩阵进行旋转变换,最后左乘矩阵还原到Jennifer坐标系的语言,最终得到。因此,如果Jennifer用乘以她的坐标系中的一个向量,得到的就是这个向量在她的坐标系中逆时针旋转90°的结果。 对于,实际上暗示着一种数学上的转移作用。中间的矩阵代表一种标准坐标系下常见的变换,、代表转移作用,就是在其他坐标系与标准坐标系之间进行转换,实际上也是视角上的转化。 三、线性方程组 1、逆变换与逆矩阵 若向量经过A变换后可以经过另一种变换还原,则A变换是可逆变换。 例如,矩阵 表示逆时针旋转90°的变换,则A的逆变换就是顺时针旋转90°,即。矩阵是矩阵的逆矩阵。 逆矩阵与自身的乘积是单位矩阵,即A⁻¹A=E,像A变换这样的变换称为恒等变换。 若A变换降低了空间的维度,此时det(A)=0,我们称A变换为不可逆变换。 例如一个变换将一个平面压缩成一条直线,此时没有逆变换,因为不能将一条直线解压缩成一个平面。这样要求必然会映射出多个向量,但函数只能将一个输入变成一个输出,变换也是如此。 线性变换只存在等维变换和降维变换,不可能升高空间的维度。在平面内的两个任意向量的任意线性组合都不可能表示成一个与它们不共面的向量,即使是在三维空间中,所以不存在升维的线性变换。 矩阵的逆存在,当且仅当矩阵的行列式不为零,或者说,变换矩阵是可逆变换。 2、非齐次线性方程组的求解 假设有线性方程组: 我们可以将它写成矩阵向量乘积的形式 即矩阵方程 由于矩阵A代表一种线性变换,所以求解方程组实质是寻找一个向量x使它经过A变换后与向量v重合。要求解向量x,可以反过来,从向量v逆变换到向量x。 对于方程,当det(A)≠0时,左乘A⁻¹得,由于A⁻¹A是恒等变换,就有,因此,求解向量x,可以对向量v进行A的逆变换。 对于方程,如果det(A)≠0,则A变换不会改变空间维度,因此有且仅有一个向量x经过A变换后与向量v重合,即方程有唯一解。可以通过来求解。 当det(A)=0时,A变换会将空间压缩到更低维度,此时必然出现多个向量压缩后重合的现象,因此没有逆变换,因为不能将一条直线解压缩成一个平面。 但方程仍然可能有解。例如,A变换将空间压缩成一个平面,而向量v刚好处于这个平面上,空间压缩后能与向量v重合的向量x有无数个,所以此时方程有无数解。或者A变换将空间压缩成一条直线,而向量v刚好处于这条直线上,此时,空间压缩后能与向量v重合的向量x就更多了,而这些向量x是由某些向量的线性组合表示的(这个问题后面会重点讲解),所以此时方程有无数解。当它压缩成一条直线时,与平面相比,解存在的难度更高了。 3、列空间 矩阵A的秩为经过矩阵A变换后的空间的维度,记为R(A)。 当A变换的结果是一条直线时,结果是一维的,称这个变换的秩是1;当A变换后的向量落在某个二维平面上时,称这个变换的秩是2。 向量x通过线性变换矩阵A变换得到的所有可能的输出向量所构成的集合,称为矩阵A的列空间,也就是所有可能的输出向量构成的集合。前面讲过,矩阵的列向量可看作其变换后空间的基向量,换句话说,列空间就是矩阵的列向量所张成的空间。 零向量一定在列空间中,因为线性变换必须保持原点不变;矩阵的秩也可看做是矩阵列空间的维度。 4、零空间与齐次线性方程组 对于满秩的线性变换,只有零向量在变换后会落在原点。而对于非满秩的变换,它会将空间压缩到更低的维度上,因而会有一系列向量在变换后成为零向量。 如下图,左边直线上的所有向量在经过非满秩变换之后,全部降维为右边的一个点(黄色点)。 变换后落在原点的向量的集合,称为矩阵的零空间。即 变换后一些向量落在零向量上,而零空间正是这些向量所构成的空间。对齐次线性方程组来说,零空间给出的就是方程所有可能的解。 当det(A)≠0时,零空间里只有零向量,齐次线性方程组只有零解。 当det(A)=0时,零空间存在非零向量,齐次线性方程组有非零解。 综合来看,线性方程组和求解的实质,就是寻找一个向量x使它经过A变换后,与向量v重合或成为零向量,或者说,是在矩阵A的列空间中寻找v向量或零向量。 四、非方阵 在前面讨论的变换都是等维度向量间的变换,那么会不会出现向量维度升高或者降低的变换呢?答案是肯定的。向量是可能从输入空间的二维输出一个三维向量的。 1、非方阵变换矩阵的实质 前面讲过,我们可以把矩阵的列向量看作是变换后的基向量,对于一个非方阵,同样可以这样理解。 例如,非方阵变换矩阵,可以认为是把基向量i和j(i和j是二维向量)分别变换成和。矩阵有两列,表明原始空间有两个基向量;矩阵有三行,表明每个基向量在变换后都用三个独立的坐标来描述,也就是变换后的两个向量是三维的。 同理,对于矩阵,就可以理解成把三维空间的基向量i、j、k(i、j、k是三维向量)分别变换成向量、和。矩阵是三列两行,表明原始空间有三个基向量,变换后的三个向量是二维的。 因此,对于一个m×n非方阵,实际是把一个n维向量转换为m维向量。 2、几何意义 从几何空间的角度来考虑,对于矩阵,列空间是由两个三维向量张成的空间,即三维空间中的一个平面。而的几何意义就是将一个二维向量映射到三维空间中的一个平面。而的几何意义就是将一个三维向量映射到二维平面。 同样,例如表示把二维向量映射到一维直线,结果是一个数值,表示把一维向量(即数值标量)映射到二维平面。因此,向量数乘的几何意义就是将标量映射到二维平面。 3、非方阵的变换 (1)矩阵行数大于列数 若向量经过变换后变成向量,即。 经过A变换后,二维空间里的向量x变成了三维空间里的向量v。因此当线性变换矩阵A的行数大于列数时,此线性变换实际上是一个向量升维的操作。 变换后的所有可能的向量v所构成的空间为矩阵A的所有列向量所张成的空间。而矩阵A只有两个三维列向量,因此A的列空间仍是二维的,即两个列向量在三维空间中所张成的一个二维平面。变换后的列空间与变换前维度相同,所以A是满秩的。 (2)矩阵行数小于列数 例如三维向量经过矩阵变换后变成二维向量,因此线性变换矩阵的行数小于列数时,此线性变换实际上是一个向量降维的操作。矩阵有三个二维列向量,只能张成二维空间。此时变换后列空间的维度与原始空间维度不同。 4、非方阵的变换复合 两个变换复合,就是两个矩阵相乘。矩阵为非方阵时,相乘的条件是左边矩阵的列数等于右边矩阵的行数。 现有矩阵和(A、B满秩),以及向量和向量。 BA变换:若对向量先进行A变换,即,在此过程中,向量先从二维变成三维向量,此时所有可能的向量构成的空间是在三维空间中的一个二维平面;然后再进行B变换,即,向量从三维变成二维向量,此时所有可能的向量构成的空间从三维空间中的二维平面变成一个二维平面空间。 在此变换过程中,所有可能的向量构成的空间一直都是一个二维平面,因此向量没有信息损失,即经过变换,可以从中完整的恢复的信息。 AB变换:若对向量先进行B变换,即,此时,向量从三维向量变成二维向量,注意,在变换之前,所有可能的向量构成的空间应该是三维立体空间,而在变换之后,所有可能的向量构成的空间变成了二维平面空间,此过程中向量出现信息损失;然后再进行A变换,即,向量从二维向量变成三维向量,此时所有可能的向量构成的空间变成了在三维空间中的一个二维平面。 在整个变换过程中,所有可能的向量构成的空间从三维立体变成了二维平面,因此向量必然有信息损失。即无法通过变换,从中完整恢复的信息。 综上来看,矩阵BA的列空间是二维平面(或者BA变换未改变维度),因此BA是满秩的,且可逆。而矩阵AB的列空间是三维空间中的一个二维平面(改变了空间维度),因此AB不满秩,且不可逆。 5、非方阵系数矩阵的线性方程组 前面讲过,求解方程组和的实质就是寻找一个向量x使它经过A变换后,与向量v重合或成为零向量,也就是在矩阵A的列空间中寻找v向量或零向量。 当矩阵A的行数大于列数时,例如3×2的满秩矩阵A,矩阵A的列空间是三维空间中的一个二维平面,因此,只有当向量v位于这个二维平面上时,方程有解,且解唯一,因为不存在多个向量x经过变换后与向量v重合。经过A变换后没有不为零的向量x落在零向量上,因此方程只有零解。 当矩阵A的行数小于列数时,例如2×3的满秩矩阵A,矩阵A的列空间是二维平面空间。向量v一定位于这个二维平面上,因此方程有解。由于A变换将空间压缩,必然存在多个向量x经变换后与向量v重合,因此有无数解,且有非零向量经变换后落在零向量上,因此有非零解。 五、向量的点积和叉积 1、点积 向量的点积运算定义为 ,这种计算在几何上的解释是,向量在向量上的正交投影长度,乘以向量的长度,本质上是先投影再缩放。 两个向量方向相同时结果为正,相反时结果为负,垂直时结果为0。 现在我们从线性变换的角度来看,首先讨论从多维空间到一维空间(数轴)的线性变换。 假如有一个线性变换,它将基向量i和j分别变换至1,-2,则变换矩阵就为,要跟踪一个向量,比如向量在变换之后的去向,将这个向量分解成4i+3j,由于线性性质,变换后这个向量也是4i+3j(变换后的i、j),即4×1+3×(-2)。当完全从数值角度进行计算时,它就是矩阵向量乘法。
点积等同于矩阵向量乘积,变换效果等同于将n维向量变换为一维标量,变换矩阵是一个1×n的非方阵。
2、投影变换与对偶性 在二维空间中,有一条一维数轴和一个单位向量u恰好落在此数轴上,如果将二维向量直接投影到这一数轴上,由此定义了一个从二维到一维数轴的线性变换,叫做投影变换,相应的变换矩阵称为投影矩阵。投影矩阵P=[a b]中的a和b分别是基向量i和j变换到一维空间后对应的数值。 接下来,寻找这个矩阵P。将向量i向向量u所在的直线投影与向量u向向量i所在的直线(x轴)投影看上去完全对称,因此,求向量i在向量u所在直线上的投影的数值,也就是求向量u在x轴上的投影的数值,即向量u的横坐标。同理,向量j在向量u所在直线上的投影的数值,就是向量u的纵坐标。 所以,投影矩阵,投影变换过程为:。 而空间中任意向量经过投影变换的结果,即投影矩阵与这个向量相乘,和这个向量与向量u的点积在计算上完全相同。
所以,向量与单位向量的点积,就可以理解为向量投影到单位向量所在直线上的投影长度。 若向量不是单位向量,例如将向量放大为原来的3倍(实际上就是向量i和向量j在投影之后,乘以投影长度的3倍),相应的任意向量在投影之后,乘以投影长度的3倍,结果就是向量与非单位向量的点积。这就是为什么向量与非单位向量的点积可以理解为首先向非单位向量所在直线上投影,再将投影的值与非单位向量长度相乘。 上述过程是数学中对偶性(Duality)的一个实例。对偶性,即两种数学事物之间自然而又出乎意料的对应关系。 一个多维空间到一维空间的线性变换的对偶是多维空间中的某个特定向量。例如,上述将二维空间映射到一维数轴的线性变换,此线性变换都会与二维空间中的向量u相关。 每当有一个从多维空间映射到一维数轴的线性变换,你都能在这个多维空间中找到一个向量,被称为这个变换的对偶向量,使得应用线性变换和与对偶向量点积等价。 3、叉积 两个向量叉积的结果是第三个向量,结果向量垂直于原向量组成的平行四边形,长度等于平行四边形的面积。 首先来讨论这个平行四边形的面积(即叉积得到的向量的长度)。前面讲过,行列式的几何意义就是变换前后空间区域被拉伸或放缩的比值,而行列式的正负表明空间定向是否发生变化。 如下图,我们让基向量i、j发生线性变换,使其变换后落在向量v、w上,因此这个变换的矩阵就是向量v、w构成的矩阵。由于基向量i、j构成的图形面积是1,因此,根据行列式的几何意义,变换后的平行四边形的面积就是行列式的值。 同时,我们发现,改变基向量i、j的相对位置,行列式的值会改变(因为空间定向发生了变化),因此,v×w≠w×v。 对于二维向量,叉积向量的方向就是垂直于坐标平面的方向,叉积向量的长度就是两个向量构成的矩阵的行列式。 对于三维向量,叉积的方向取决于原向量的相对位置,可以用右手定则判断。 对于v×w,右手食指指向向量v的方向,伸出中指指向向量w的方向,当竖起大拇指时,拇指指向的就是叉积的方向。当然,这里还有另一种方法,对于v×w,把向量v的头指向向量w的尾,右手四指向着v到w的方向弯曲,拇指指向的就是v×w的方向。 对于叉积的计算,下面的公式有助于记忆 但是,它也可以由一个三阶行列式代替,让这种运算记忆起来更加简便。 计算时,假装向量i、j、k都是数,最终得到的就是这三个向量的线性组合。 4、叉积的几何意义 前面讲过,两个二维向量构成的平行四边形的面积,就等于这两个向量所构成的矩阵的行列式。而三个三维向量构成的平行六面体的体积,也是等于这三个向量所构成的三阶矩阵的行列式。简单解释就是,这个三阶矩阵将三个基向量构成的体积为1的正方体变换成这三个三维向量构成的平行六面体,根据行列式的几何意义就是变换前后空间区域变化的比值,可以得出变换后与变换前(体积为1)的比值就是行列式的值。 现在定义一个函数(变换),对任意输入的向量,都考虑这一向量与向量v、w确定的平行六面体,得到它的体积,并根据定向确定符号。 由于这个变换是线性的,且是从三维到一维的变换,因此必然存在一个1×3的矩阵来代表这个变换。而根据对偶性,我们可以将这个变换看作是向量与对偶向量的点乘,我们要找的就是一个向量p,使得它与任意向量的点乘等于3×3矩阵的行列式,也就是向量与向量v、w确定的平行六面体的体积。通过计算发现,对偶向量p就是。 对于平行六面体的体积,首先获得由向量v、w确定的平行四边形的面积,再乘以向量在垂直于平行四边形方向上的分量。 对于向量p与任意向量的点积,就是将这个向量投影到垂直于向量v、w的直线上,然后将投影长度与向量p的长度相乘。 所以,我们找到了一个向量p,使它与任意向量的点乘等于3×3矩阵的行列式,也就是向量与向量v、w确定的平行六面体的体积。因此,前面通过计算得到的向量,必然在几何上与这个向量对应。对偶向量p就是v×w向量,向量p的长度就是平行四边形的面积。而由向量v、w和确定的平行六面体的体积,就是。因此,向量叉积的几何意义是向量u和v构成的平行四边形的有向面积,而叉积与任意向量的点积就是这三个向量所构成的平行六面体的体积。 六、特征向量与特征值 1、特征向量与特征值的几何意义 在线性变换过程中,大部分向量经过线性变换都离开了它所张成的空间;但也有一部分向量留在了它所张成的空间,线性变换对这些向量只会产生拉伸或者缩放变换。 线性变换后留在自身张成的空间中的向量,称为特征向量。特征向量经过线性变换后不发生旋转,只会拉伸或者缩放,而衡量特征向量在变换中拉伸或压缩比例的因子,就是特征值,特征值为负值时表示向量被反向拉伸或者缩放。 如果属于同一特征值的任意n个向量线性无关,那么它们张成的空间中的任意向量都是属于这一特征值的特征向量,且在变换中只发生缩放变换。 对于三维空间中的旋转,如果能够找到对应的特征向量,那么这个特性向量就是旋转轴,这意味着一个三维旋转变换就可以看成绕这个特征向量旋转一定角度,这要比考虑相应的3×3变换矩阵要直观。此时对应的特征值为1,因为旋转并不缩放任何一个向量,所以向量的长度保持不变。
2、特征向量与特征值的计算 用符号表示的话,特征向量的概念就是。这表明,向量经过A变换后等于向量的数乘,而数乘不会改变向量的方向,显然这满足我们对特征向量的定义。 向量数乘等价于使用一个对角元全是λ的对角阵进行变换,所以,是单位矩阵,移到同一边得到。我们需要一个非零特征向量(零向量时恒等于0,没有任何意义),而如果存在向量经过变换后变成零向量,矩阵变换就要将空间压缩到更低维度,所以,从而求出λ值。 二维线性变换不一定有特征向量。例如,逆时针旋转90°的变换矩阵就没有特征向量,因为变换后所有向量都发生旋转并且离开了其张成的空间,而求解特征方程发现λ没有实数解。
与i相乘在复平面中表示为90°旋转和i是这个二维实向量旋转变换的特征值有所关联,特征值出现复数的情况一般对应于变换中的某种旋转。 属于单个特征值的特征向量有可能不在同一条直线上。例如矩阵是将所有向量拉伸两倍,唯一的特征值是2,但平面内所有非零向量都是属于这个特征值的特征向量。 3、特征基与对角化 特征基是指矩阵的所有基向量都是特征向量,矩阵在以特征向量为基向量的坐标系中的变换就是基向量的缩放变换。对角矩阵的所有基向量就是特征向量,对角元就是它们所属的特征值。 如果一个变换矩阵有足够多的特征向量,多到能够选出一个张成全空间的集合,那么当基向量是特征向量时,我们就能够通过基变换,将这个变换矩阵从以特征向量为基向量的坐标系中转化到标准坐标系。 对于矩阵,它的特征值是2、3,特征向量分别是、。在以向量和为基向量的坐标系中,变换矩阵实质上是对基向量缩放的变换。我们将特征向量作为新基向量,构成基变换矩阵,然后用这个基变换矩阵右乘矩阵,用基变换矩阵的逆左乘矩阵,即。 这样计算得到的新矩阵和矩阵其实代表的是同一个变换,只不过是从新基向量所构成的坐标系的角度来看的。这个新矩阵一定是对角的,并且对角元是对应的特征值,因为它所处的坐标系的基向量在变换中只进行了缩放。 矩阵相似的实质:矩阵和是相似的关系,矩阵相似实质上表明两个矩阵是同一种变换,只不过是在两个不同的坐标系中(不同的基向量),并且矩阵的列向量就是在的坐标系中表示的的坐标系的基向量。 对角化的条件:矩阵对角化,就是将特征向量作为基向量,通过基变换,将这个变换矩阵转化到标准坐标系中。从计算上讲,对于n阶矩阵能否对角化,关键在于矩阵是否存在逆矩阵,也就是矩阵是否有n个线性无关的特征向量;从基变换角度看,能否对角化,关键在于能否将特征向量作为基向量,对于n阶矩阵的变换必然发生在n维空间,因此有n个基向量,若矩阵没有n个能作为基向量的特征向量(即n个线性无关的特征向量,因为基向量线性无关),就不能对角化。 七、解空间 1、解判定的实质 线性方程组 和求解的实质,就是寻找一个向量x,使它经过A变换后,与向量v重合或者落在零向量上。 对于非齐次线性方程组 (1)当矩阵A为n阶满秩方阵时,A变换没有发生维度变化,向量v一定位于A的列空间中,因此只存在唯一的向量x经过A变换后与向量v重合,所以只有唯一解。此时,r(A)=r(A,v)=n。 (2)当矩阵A为n阶非满秩方阵时,A变换将空间压缩为一个小于n维的空间(A的列空间),只有当向量v位于这个小于n维的空间时,向量x经过A变换后才会与其重合,空间压缩必然会导致多个不同的向量x被压缩到同一个向量上,所以会有无数解。此时,r(A)=r(A,v) <n< span>。 </n<> (3)当m×n矩阵A行数大于列数(m>n)时,A变换将向量x升高到m维,A的列空间维度没有改变,即m维空间中的n维子空间,只有当向量v位于这个n维子空间时,向量x经过A变换后才会与其重合,由于A变换没有发生压缩,所以只存在唯一的向量x。此时,r(A)=r(A,v)=n。 (4)当m×n矩阵A行数小于列数(m <n< span>)时,A变换将向量x降低到m维,A的列空间压缩到m维,所以m维向量v一定位于A的列空间中,向量x经过A变换后一定会与向量v重合,由于A变换发生压缩,所以存在无数的向量x。此时,r(A)=r(A,v)=m <n< span>。 </n<> </n<> 对于齐次线性方程组 (1)当矩阵A为n阶满秩方阵时,A变换没有发生维度变化,因此没有非零向量经过A变换后落到零向量,所以只有零解。此时,r(A)=n。 (2)当矩阵A为n阶非满秩方阵时,A变换将空间压缩为一个小于n维的空间,此过程必然存在非零向量x被压缩为零向量,所以有非零解。此时,r(A)<n。 (3)当m×n矩阵A行数大于列数(m>n)时,A的列空间维度没有改变,因此没有非零向量经过A变换后落到零向量,所以只有零解。此时,r(A)=n。 (4)当m×n矩阵A行数小于列数(m <n< span>)时,A的列空间压缩到m维,此时必然存在非零向量x被压缩为零向量,所以有非零解。此时,r(A)<n。 </n<> 以上就是线性方程组解判定的实质,以下还有几点需要注意: (1)线性变换向量的维度可以升高降低,但向量张成的空间不会升高。 (2)向量张成的空间的维度一定不超过向量的维度。 (3)若向量的维度与空间的维度相同,则这个向量一定位于这个空间中。 (4)对于非齐次线性方程组,如果系数矩阵是压缩变换,则有无数解(向量v位于A的列空间时);对于齐次线性方程组,如果系数矩阵是压缩变换,则有非零解。 2、基础解系与通解 当齐次线性方程组的系数矩阵是压缩变换时,必然存在无数个非零向量被压缩成零向量,因此存在无数非零解。这些向量张成的空间称为解空间,解空间的基称为基础解系。 若且A为n阶矩阵、向量x为三维向量。我们知道,矩阵的秩表示经过矩阵变换后的空间的维度。若A对一个三维空间进行变换,当r(A)=3时,A变换没有改变维度,没有向量被压缩为零向量;当r(A)=2时,经过A变换后有两个维度的向量没有被压缩,所以就有一个维度的向量落到了零向量,此时方程的基础解系有一个基向量,所以解空间是一条直线;当r(A)=1时,此时落到零向量的向量张成的空间就是一个二维平面,也就是解空间,此时方程的基础解系有两个基向量。 由此可以看出,被压缩向量张成空间的维度与没有被压缩向量张成空间的维度的和就是原始向量所在空间的维度,因此可以得出解空间的维数就是n-r(A),也就是基础解系的个数。我们把所有基础解系的线性组合称为齐次线性方程组的通解。 若A为m×n(m <n< span>)非方阵时(只有压缩变换才有解向量张成空间,所以只讨论m <n< span>),原始向量所在空间的维度为n(即变换前向量x是n维),若A的秩为r(A),则解空间的维度也为n-r(A)。 </n<> </n<> 我们来考虑非齐次线性方程组解的结构。若矩阵A没有发生压缩变换,则方程只有唯一解,因此没有基础解系。当矩阵A发生压缩变换时,必然存在多个不同向量被压缩后位于同一向量上。 若r(A)=2,则经过A变换后有两个维度的向量没有被压缩。假设矩阵A变换是将三维空间的向量压缩至xoy平面,如下图,图中三个黑色向量变换后均与红色向量(红色向量就是向量v)重合。我们将这三个黑色向量分别沿xoy平面和z轴方向分解,可以发现在xoy平面方向的分量与红色向量相同。对这三个向量变换,也就是对两个分量变换,而变换后z轴方向的蓝色分量落到零向量,而xoy平面上的分量没有变且与红色向量相同,因此,方程的解就是落到零向量的蓝色分量与红色向量的和,此时基础解系只有一个。因此通解为η₀+kξ,ξ为基础解系,η₀为非齐次线性方程组的特解。 若r(A)=1,则经过A变换后有一个维度的向量没有被压缩。假设矩阵A变换是将三维空间的向量压缩至z轴,如下图,将两个黑色向量分别沿x、y、z轴方向分解,可以发现,在z轴上的分量在变换后没有改变且与红色向量相同,而在x、y轴上的蓝色分量都不相同,且在变换后都落到了零向量,因此,方程的解就是落到零向量的两个蓝色分量与红色向量的和,此时基础解系有两个。因此通解为η₀+k₁ξ₁+k₂ξ₂,ξ₁、ξ₂为基础解系,η₀为非齐次线性方程组的特解。 从上面的讨论可以看出,非齐次线性方程组的通解等于非齐次线性方程组的特解加上齐次线性方程组的通解。在上图中,我们发现,平面α代表的就是对应齐次线性方程组的通解,而平面β代表的就是非齐次线性方程组的通解,这里注意,平面β并不过原点,因此它的解不能构成向量空间。 3、解空间与行空间 对于方程,解空间的维度为n-r,r为A的秩。 我们对上面矩阵A行分块,与列空间相同,矩阵的行空间就是所有行向量的线性组合得到的向量集合。所以就有,因此向量与向量x正交,向量与向量x所在的空间分别是A的行空间和方程的解空间,所以,行空间与解空间是正交的。 在三维空间中,若行空间的维度为2(向量在一个二维平面上),则与它正交的向量只能在垂直于这个平面的直线上,所以解空间维度为1;而当行空间的维度为3时,在三维空间中就没有与其正交的向量了,所以解空间维度为0。所以,在n维空间中,行空间与解空间维度的和等于n,即R(行)+R(解)=n,所以就有:R(行)=n-R(解)=n-(n-r)=r,因此行空间与列空间维度相等,即行秩等于列秩。 4、克莱姆法则的几何解释 当线性方程组有唯一解且系数矩阵为方阵时,我们可以用克莱姆法则通过计算行列式来求解方程组,具体过程如下: 设线性方程组: 系数行列式: 线性方程组有且仅有唯一解: 其中(j=1,2,3,…,n)是把系数行列式D中的第j列元素用常数项代替后得到的n阶行列式,即 接下来我们从线性变换角度来解释这个法则。 对于任意向量,我们可以将它与x轴上的基向量i构成的平行四边形的面积表示为y值,准确来说,应该是有向面积,因为y值有正负情况。同样,将它与y轴上的基向量j构成的平行四边形的面积表示为x值。 对于三维空间,我们同样可以将一个三维向量与x、y轴上的基向量i、j构成的平行六面体的体积表示为z值。 在变换前后,平行四边形的面积不一定保持不变,但面积的伸缩比例却是不变的,且等于变换矩阵的行列式。 若有线性方程组 经过矩阵变换后平行四边形的面积就等于变换前的面积y值乘以行列式,而变换后平行四边形的面积就是向量与基向量i变换后的向量构成的平行四边形的面积,即。所以,y值就是变换后平行四边形面积与行列式的比值,即 。同样,也能求出x值。 八、抽象向量空间 为了直观地理解各种概念,我们通常用坐标对向量进行表示。但实际上很多核心概念是脱离于坐标系的,例如行列式、特征向量等,均与所选的坐标系无关。行列式代表一个变换对面积的缩放比例,而特征向量则是在变换过程中留在它所张成空间的向量。 如果向量根本不是一个数组,它们的本质其实更具有空间性,因此我们可以从更空间化的角度看待向量。 1、函数与向量 我们来讨论一种同样具有向量特性的东西——函数。从某种意义上讲,函数也是一种向量。函数的加减和数乘与向量的加减和数乘相似。 向量的其他特性对于函数也应该满足,例如线性变换。线性变换的定义:
对于向量来说,L代表矩阵;对于函数来说,L代表函数。对于线性变换而言,从函数的角度理解就是线性变换输入一个函数,然后输出另一个函数。 2、求导矩阵 若存在一个函数的变换是接收一个函数并把它变成另一个函数。
这是微积分中一个常见的例子——导数,它将一个函数变换到另一个函数。对于函数求导,有以下两个性质: (1)两个函数先相加再求导,等同于先对两个函数求导再相加; (2)函数和数先相乘再求导,等同于先对函数求导再乘以数。
与向量的线性变换相似,求导变换满足“可加性”和“成比例”,所以它是线性的。 我们用矩阵来表示多项式函数的求导变换。首先给这个空间赋予坐标的含义,所以要选取基,由于多项式已经是数乘x的不同次幂再求和的形式,所以可以选取不同次幂的x为基,不同次幂的x就相当于基向量i、j、k。每个多项式的坐标就是不同次幂的x的系数,在这个坐标系中,求导是用一个无限矩阵来描述的。 我们可以通过这个方法构建一个矩阵,求每一个基函数的导数并把结果放在对应列,求导矩阵就是对每个基函数求导后作为列向量得到的。 最终得到求导矩阵:。
|