分享

线性代数-课程总结

 gfergfer 2023-09-27 发布于辽宁
Outline
1. 线性代数的出发点
2. “宽”的矩阵
3. “窄”的矩阵
4. “方”的矩阵
5. 线性代数与线性规划

===============
1. 线性代数的基本出发点

线性代数的基本出发点就是解线性方程组。想想高中的齐次方程组的事情,齐次方程组Ax=0,非齐次方程组Ax=b. 

对于解线性方程组而言,怎么求解?高斯消元法,一步一步化简,分别求出未知数的值即可。

从线性方程组里抽象出来矩阵A,这个是线性代数的开端。然后之前消元的这些操作对应到矩阵A是什么变化,变成一种纯代数运算,这就是线性代数。

接下来就是各种分析矩阵A. 

整个线性代数这门课就是在分析不同的矩阵A,

“宽”的矩阵,“窄”的矩阵,“方”的矩阵。

一般的矩阵A具有什么性质,特殊的矩阵A会具有什么特殊的性质。


---------------------------------   
对矩阵A认识的几个基本视角

首先是element wise,就是一个元素一个元素来看,一个m*n的矩阵有m*n的元素。然后是column picture, 就是一列一列来看,一般习惯是用A_j表示,一共有n列。然后是row picture, 就是一行一行看,一般习惯用a_i^T表示,一共有m行。

另外,还有两个视角,分别是row*column视角分块乘法视角


---------------------------------
矩阵A其实都是从现实问题中抽取抽象出来的东西,背后代表了不同问题的一些数学结构。

矩阵A的静态理解视角,想想一张图片,就意味着一个矩阵。分析处理一张照片,本质上是在分析处理这个矩阵。比如识别图片中的内容,或者对照片进行压缩等,都是在矩阵上做文章。再比如社交网络、知识图谱等,都是在网络结构上做文章,而网络本身就有它的矩阵形式,或者是点边邻接矩阵,或者是点点矩阵等。

矩阵A的动态理解视角,是指在运算过程中,比如矩阵*向量,表示把一个矩阵作用到一个向量,是对向量进行一些动作,或者拉伸,或者旋转,注意都是一些线性动作。



===============
2. “宽”的矩阵

宽的矩阵从方程组的角度来看,就是未知数的数量多于方程的数量。从矩阵的角度来看,就是列数>>行数。

对于这种情况,第一反应的方程组往往无穷多解。变量太多,方程太少,要想求解,必须得先固定一些变量,从而得到其他变量的值。就是自由变量与主变量的区别了。对于自由变量,简单起见,往往取0或1,方便计算。


想想线性规划里的人工变量的事情,对于一些线性不等式而言,添加很多人工变量(剩余变量或松弛变量)后构造成线性等式的样子,此时变量数往往是多于等式的数量的。再去想想非基变量与基变量的事情,令非基变量为0,得到基变量的值(这个本质上是隐函数定理)。

------------------------------
从这里引出来子空间的概念。

大白话说,空间就是集合,空间对于一些元素是封闭的,意思是说这个空间里的元素做加法,或者做数乘,结果还在这个空间里。比如a和b是空间中的任意两个元素,a b还在空间里,2a, 3b, -a等都还在这个空间里。

对于一个矩阵而言,有4个基本子空间。这是个很关键的内容。

图片


===============
3. 窄的矩阵

窄的矩阵,就是方程数量多于变量数量,行数>>列数。一般而言,这种情况都是无解的。讲窄的矩阵,主要是为了讲最小二乘,线性回归那些东西。这个是数据分析的基础。

对于数据分析而言,得到一堆数据,首先是经过一些清洗操作,之后是尝试着进行一些画图操作,观察数据具有什么特点。

对于一个线性系统而言,观察来的一大堆数据,往往是包含噪声的,其实就是有些数据观察的不准。这种情况下,解线性方程组往往是无解的。怎么处理呢?这里就需要一些投影操作,说白了就是对观察数据进行一些调整,使得方程组有解,而方程组的解可以理解成这个线性系统的各种配置。

图片


===============
3. 方的矩阵

图片

行列式、特征值、特征向量都是针对方阵而言的。方阵就是n个变量,n个方程的线性方程组。

行列式是跟方阵有关的一个数字,可以代表方阵的一些性质。

行列式是一个非常神奇的数字。一个数字很难告诉我们整个矩阵是什么样子,但是行列式这个数字包含了尽可能多的信息。比如,一个矩阵可逆等价于它的行列式非零。所以说行列式可以用来检测矩阵的可逆性。当然行列式的功能不仅如此。

行列式本身有2个公式,一个是行列式的定义公式,另外一个是那个代数余子式公式。行列式本身具有10个性质,其中前面3个是基本性质,后面的性质都是由这些基本性质衍生出来的。

求特征值需要用到行列式,是通过行列式为0,得到一个包含特征值的一元高次方程,求根,得到一堆解,每个解都是一个特征值。有了特征值之后才能找特征向量.一般情况下,一个特征值对应着一个特征向量。

特征值的和是对角元素的和,是迹。特征值的乘积,是行列式。特征向量是经过矩阵作用后,与原向量保持平行的向量。这些向量相对于原矩阵扮演了一些特殊的角色。其中一个作用是用特征值与特征向量来对角化矩阵

为什么要对角化矩阵,本质上是把一个矩阵对角化之后,会使得很多计算变得很容易,因为包含了一大堆0元素,做乘法会很容易。


----------------------
特殊矩阵的特征值与特征向量

给定一个特殊类型的矩阵,我们先去看它的特征值与特征向量。矩阵的特殊性往往会通过特征值与特征向量来体现。比如前面的马尔可夫矩阵,一定有一个特征值为1. 之前讲过旋转矩阵,特征值是复数。

现在是对称矩阵. 对于对称矩阵而言,特征值一定是实数。而且特征向量是相互垂直的。正定矩阵,类似数有正负,有正数,负数;对矩阵而言,也有正定矩阵与负定矩阵;角色上可以类比。


(1) 对称矩阵的特征值都是实数。

(2) 正定矩阵的特征值都是正数。


一般的方阵,到对称矩阵,对称矩阵再特殊一点是正定矩阵。当然,那些上三角矩阵、下三角矩阵,对角矩阵,置换矩阵、投影矩阵、正交矩阵等也都是些特殊用途的矩阵。还有些什么稀疏矩阵等。



===============
4. 线性代数与线性规划

线性代数是解线性方程组的,对应着线性规划的约束部分,这里就是一大堆线性方程组,Ax=b. 基本上是个列数>>行数的情况。

所以从方程组的角度来看,相当于有很多解,这些其实就是线性规划的可行解,至于从可行解中挑出来最优解的事情,就需要参考目标函数了。目标函数就是一个判断标准,决定了哪个解是最优解。当然目标函数本身也包含了一个梯度信息,指导从可行解中选出来最优解的过程。

另外,从解方程组的角度来看,但凡不是行满秩的矩阵A,意味着线性方程组中的方程是有冗余的,有多余的方程。理论上讲,可以通过矩阵A消元的方式来识别哪些是冗余的方程。运筹优化里对矩阵A的处理,上来就默认A是不存在冗余的,A是行满秩的。

===============

5. 三本教材

以下分别是MIT的Gibert Strang,同济的工程线性代数,以及一个公众号“马同学图解数学”上关于线性代数的章节目录设置。


图片

图片

图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多