文章目录

线性变换与矩阵
- 线性变换与二阶方阵
- 常见的线性变换
- 复合变换与矩阵乘法
- 矩阵的定义
- 列空间与基
- 矩阵的秩
- 逆变换与逆矩阵

线性变换与矩阵

线性变换与二阶方阵

本节从二维平面出发学习线性代数。通常选用平面坐标系 $O x y$ ，基向量为 $\mathbf i,\ \mathbf j$ ，平面内的任意向量都可以写成基向量的线性组合
$\mathbf v=x\mathbf i+y\mathbf j$
这样，平面内的点和有序实数对 $(x, y)$ 一一对应。借助平面坐标系，我们可以从代数的角度来研究几何变换。

请添加图片描述

变换与函数类似，函数把数映射到数，变换把点(向量)映射到点(向量)。
$T:\quad \mathbf v\mapsto T(\mathbf v)$

例如，(1) 平面内任意一点 $P (x, y)$ 绕原点 $O$ 逆时针方向旋转 $60\degree$ 角得到点 $P^{'} (x^{'}, y^{'})$ ，坐标变换公式为
$\begin{cases} x'=\frac{1}{2}x-\frac{\sqrt 3}{2}y \\ y'=\frac{\sqrt 3}{2}x+\frac{1}{2}y \end{cases}$
可写为向量形式
$\begin{bmatrix}x'\\y'\end{bmatrix}= x\begin{bmatrix}\frac{1}{2}\\\frac{\sqrt 3}{2}\end{bmatrix}+ y\begin{bmatrix}-\frac{\sqrt 3}{2}\\\frac{1}{2}\end{bmatrix}$

(2) 平面内任意一点 $P (x, y)$ 关于 $y$ 轴的对称点 $P^{'} (x^{'}, y^{'})$ 的表达式为
$\begin{cases} x'=-x \\ y'=y \end{cases}$
可写为向量形式
$\begin{bmatrix}x'\\y'\end{bmatrix}= x\begin{bmatrix}-1\\0\end{bmatrix}+ y\begin{bmatrix}0\\1\end{bmatrix}$

事实上，在平面坐标系 $O x y$ 中，很多几何变换都具有如下坐标变换公式
$\begin{cases} x'=ax+by \\ y'=cx+dy \end{cases}$
向量形式为
$\begin{bmatrix}x'\\y'\end{bmatrix}= x\begin{bmatrix}a\\c\end{bmatrix}+ y\begin{bmatrix}b\\d\end{bmatrix}$
其中 $(x^{'}, y^{'})$ 为平面内任意一点 $(x, y)$ 变换后的点。我们把形如上式的几何变换叫做平面线性变换。

容易证明，线性变换满足下列两条性质

(1) 可加性： $T(\mathbf v+\mathbf w)=T(\mathbf v)+T(\mathbf w)$
(2) 伸缩性： $T(c\mathbf v)=cL(\mathbf v)$

事实上，这两条性质才是线性变换的严格定义。

请添加图片描述

为了进一步了解线性变换的本质，取任意向量 $\mathbf v=x\mathbf i+y\mathbf j$ ，在线性变换 $T$ 的作用下
$T(\mathbf v)=T(x\mathbf i+y\mathbf j)=xT(\mathbf i)+yT(\mathbf j)$
可知，变换后的向量 $T(\mathbf v)$ 由变换后的基向量以同样的系数完全确定。设变换后的基向量分别为
$T(\mathbf i)=a\mathbf i+c\mathbf j=\begin{bmatrix}a\\c\end{bmatrix},\quad T(\mathbf j)=b\mathbf i+d\mathbf j=\begin{bmatrix}b\\d\end{bmatrix}$

注意：本章线性变换中的坐标始终使用最初的 $O x y$ 坐标系。

于是，线性变换 $T:\mathbf v\mapsto T(\mathbf v)$ 对应的坐标运算为
$\begin{bmatrix}x'\\y'\end{bmatrix}= x\begin{bmatrix}a\\c\end{bmatrix}+ y\begin{bmatrix}b\\d\end{bmatrix}$
由于上述变换由变换后的基向量唯一确定，我们可以按顺序写为数表的形式

在这里插入图片描述

我们把这个数表称为二阶矩阵，一般用大写英文字母表示。变换后的向量则定义为矩阵与向量的乘积
$\begin{bmatrix}a & b\\c & d\end{bmatrix}\begin{bmatrix}x\\y\end{bmatrix}= x\begin{bmatrix} a \\ c \end{bmatrix}+ y\begin{bmatrix} b \\ d \end{bmatrix}= \begin{bmatrix} ax+by \\ cx+dy \end{bmatrix}$
可知，矩阵代表一个特定的线性变换，我们完全可以把矩阵的列看作变换后的基向量，矩阵向量乘法就是将线性变换作用于给定向量。

Grant：矩阵最初的定义就来自线性变换。

至此，任何一个线性变换都可以写为矩阵与向量乘积的形式。反之，确定了坐标系后，任何一个矩阵都唯一确定了一个线性变换。矩阵和向量的乘积与线性变换实现了一一对应。

一般地，直线在线性变换后仍然保持直线。

在这里插入图片描述

证明：如图 $l$ 为向量 $\mathbf w_1,\mathbf w_2$ 终点所确定的直线， $\mathbf v$ 为终点在直线 $l$ 上的任意向量。
$\mathbf v=\mathbf w_1+\lambda(\mathbf w_2-\mathbf w_1)=(1-\lambda)\mathbf w_1+\lambda \mathbf w_2 \quad (\lambda\in\R)$
令 $\lambda_1+\lambda_2=1$ 则
$\mathbf v=\lambda_1 \mathbf w_1+\lambda_2 \mathbf w_2$
这就是由向量 $\mathbf w_1,\mathbf w_2$ 的终点所确定的直线的向量形式。由线性变换的基本性质可知，直线 $l$ 在线性变换 $A$ 的作用下变成
$\mathbf v'=A(\lambda_1 \mathbf w_1+\lambda_2 \mathbf w_2)=\lambda_1 A\mathbf w_1+\lambda_2 A\mathbf w_2$
(1) 如果 $A\mathbf w_1\neq A\mathbf w_2$ ，那么 $\mathbf v'$ 表示由向量 $A\mathbf w_1,A\mathbf w_2$ 的终点确定的直线。此时矩阵 $A$ 对应的线性变换把直线变成直线；
(2) 如果 $A\mathbf w_1 = A\mathbf w_2$ ，那么 $\lambda_1 A\mathbf w_1+\lambda_2 A\mathbf w_2=A\mathbf w_1$ 。由于向量 $A\mathbf w_1$ 的终点是一个确定的点，因而，矩阵 $A$ 所对应的线性变换把直线 $l$ 映射成了一个点 $A\mathbf w_1$ 。

常见的线性变换

Grant：我们可以使用无限网格刻画二维空间所有点的变换。线性变换是操作空间的一种手段，它能够保持网格线平行且等距，并保持原点不动。

我们已经知道，在线性变换的作用下，直线仍然保持直线(或一个点)。为了方便，我们只考虑在平面直角坐标系内，单位正方形区域的线性变换。

根据向量加法的平行四边形法则，单位正方形区域可用向量形式表示为
$\begin{bmatrix}x\\y\end{bmatrix}=x\mathbf i+y\mathbf j \quad(0\leqslant x,y\leqslant 1)$
由线性变换基本性质知，变换后的区域为
$A\begin{bmatrix}x\\y\end{bmatrix}=x(A\mathbf i)+y(A\mathbf j) \quad(0\leqslant x,y\leqslant 1)$

表示以 $A\mathbf i,A\mathbf j$ 为邻边的平行四边形区域。因此，我们只需考虑单位向量 $\mathbf i,\mathbf j$ 在线性变换作用下的结果，就能得到单位正方形区域在线性变换作用下所变成的图形。

在这里插入图片描述

恒等变换：把平面内任意一点 $P (x, y)$ 变成它本身，记为 $I$ 。对应的矩阵称为单位阵
$\begin{bmatrix} 1 & 0\\ 0 & 1 \end{bmatrix}$

旋转变换：(rotations)平面内任意一点 $P (x, y)$ 绕原点 $O$ 按逆时针方向旋转 $\theta$ 角，记为 $R_{\theta}$ 。对应的矩阵为
$\begin{bmatrix} \cos\theta & -\sin\theta\\ \sin\theta & \cos\theta \end{bmatrix}$

在这里插入图片描述

切变变换：(shears)平行于 $x$ 轴的切变变换对应的矩阵为
$\begin{bmatrix} 1 & k\\ 0 & 1 \end{bmatrix}$
类似的，平行于 $y$ 轴的切变变换对应的矩阵为
$\begin{bmatrix} 1 & 0\\ k & 1 \end{bmatrix}$

在这里插入图片描述

反射变换：(reflection)一般的我们把平面内任意一点 $P (x, y)$ 关于直线 $l$ 对称的线性变换叫做关于直线 $l$ 的反射变换。

(1) 关于 $y$ 轴的反射变换对应的矩阵为
$\begin{bmatrix} -1 & 0\\ 0 & 1 \end{bmatrix}$
(2) 关于直线 $y = x$ 的反射变换对应的矩阵为
$\begin{bmatrix} 0 & 1\\ 1 & 0 \end{bmatrix}$
(3) 关于直线 $y = k x$ 的反射变换对应的矩阵为
$\frac{1}{k^2+1}\begin{bmatrix} 1-k^2 & 2k\\ 2k & k^2-1 \end{bmatrix}$

在这里插入图片描述

伸缩变换：(stretching)将每个点的横坐标变为原来的 $k_1$ 倍，纵坐标变为原来的 $k_2$ 倍，其中 $k_1,k_2\neq0$ 。对应的矩阵为
$\begin{bmatrix} k_1 & 0\\ 0 & k_2 \end{bmatrix}$

在这里插入图片描述

投影变换：(projection)平面内任意一点 $P (x, y)$ 在直线 $l$ 的投影称为关于直线 $l$ 的投影变换。

(1) 关于 $x$ 轴的投影变换对应的矩阵为
$\begin{bmatrix} 1 & 0\\ 0 & 0 \end{bmatrix}$
(2) 关于 $y$ 轴的投影变换对应的矩阵为
$\begin{bmatrix} 0 & 0\\ 0 & 1 \end{bmatrix}$
(3) 关于直线 $y = k x$ 的投影变换对应的矩阵为
$\frac{1}{\sqrt{k^2+1}}\begin{bmatrix} 1 & k\\ k & k^2 \end{bmatrix}$

在这里插入图片描述

平移变换：形如 $(x,y)\mapsto (x+h,y+k)$ 的平移变换并不是线性变换，我们无法直接使用矩阵向量乘法。对此可以引入齐次坐标：平面内的每个点 $(x, y)$ 都可以对应于空间中的点 $(x, y, 1)$ 。平移变换可以用齐次坐标写成变换 $T:(x,y,1)\mapsto (x+h,y+k,1)$ ，对应的矩阵为
$\begin{bmatrix} 1 & 0 & h \\ 0 & 1 & k \\ 0 & 0 & 1 \end{bmatrix}$

在这里插入图片描述

复合变换与矩阵乘法

平面内任意一向量，依次做旋转变换 $R_{\theta_1}:\begin{bmatrix} \cos{\theta_1} & -\sin{\theta_1}\\ \sin{\theta_1} & \cos{\theta_1} \end{bmatrix}$ 和 $R_{\theta_2}:\begin{bmatrix} \cos{\theta_2} & -\sin{\theta_2}\\ \sin{\theta_2} & \cos{\theta_2} \end{bmatrix}$

在这里插入图片描述

很显然最终作用的效果可以用一个变换 $R_{\theta_1+\theta_2}$ 来表示，对应的矩阵为
$\begin{bmatrix} \cos{(\theta_1+\theta_2)} & -\sin{(\theta_1+\theta_2)}\\ \sin{(\theta_1+\theta_2)} & \cos{(\theta_1+\theta_2)} \end{bmatrix}$
旋转变换 $R_{\theta_1+\theta_2}$ 仍然是线性变换。

一般地，设矩阵 $A=\begin{bmatrix}a_1 & b_1\\ c_1 & d_1\end{bmatrix},B=\begin{bmatrix}a_2 & b_2\\ c_2 & d_2\end{bmatrix}$ ，他们对应的线性变换分别为 $f$ 和 $g$ 。

平面上任意一个向量 $\mathbf v=\begin{bmatrix} x \\ y \end{bmatrix}$ 依次做变换 $g$ 和 $f$ ，其作用效果为
$f(g(\mathbf v))=A(B\mathbf v)$

Grant：线性变换的本质主要在于追踪基向量变换后的位置。

接下来，我们追踪变换过程中基向量的位置。由矩阵向量乘法的定义知道，基向量 $\mathbf i,\mathbf j$ 经过矩阵 $B$ 变换后(第一次变换)的位置为
$B\mathbf i=\begin{bmatrix}a_2\\c_2\end{bmatrix},\quad B\mathbf j=\begin{bmatrix}b_2\\d_2\end{bmatrix}$
基向量 $B\mathbf i,B\mathbf j$ 又经过矩阵 $A$ 变换后的最终位置为
$\mathbf i':\begin{bmatrix}a_1 & b_1\\ c_1 & d_1\end{bmatrix} \begin{bmatrix}a_2\\ c_2\end{bmatrix}= a_2\begin{bmatrix}a_1\\ c_1\end{bmatrix}+ c_2\begin{bmatrix}b_1\\d_1\end{bmatrix}= \begin{bmatrix}a_1a_2+b_1c_2 \\ c_1a_2+d_1c_2\end{bmatrix} \\ \mathbf j':\begin{bmatrix}a_1 & b_1\\ c_1 & d_1\end{bmatrix} \begin{bmatrix}b_2\\ d_2\end{bmatrix}= b_2\begin{bmatrix}a_1\\ c_1\end{bmatrix}+ d_2\begin{bmatrix}b_1\\d_1\end{bmatrix}= \begin{bmatrix}a_1b_2+b_1d_2\\c_1b_2+d_1d_2\end{bmatrix}$
从而，对任意向量 $\mathbf v=\begin{bmatrix} x \\ y \end{bmatrix}$ 依次做变换 $B$ 和 $A$ ，其总体作用效果为
$A(B\mathbf v)=x\mathbf i'+y\mathbf j'=\begin{bmatrix}a_1a_2+b_1c_2 & a_1b_2+b_1d_2\\ c_1a_2+d_1c_2 & c_1b_2+d_1d_2\end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix}$
这也是一个线性变换，我们称为复合变换(composite transformation)，记为 $f\circ g$ 。

在此，我们定义复合变换 $f\circ g$ 为矩阵 $A, B$ 的乘积，记为
$AB=\begin{bmatrix}a_1 & b_1\\ c_1 & d_1\end{bmatrix} \begin{bmatrix}a_2 & b_2\\ c_2 & d_2\end{bmatrix}= \begin{bmatrix}a_1a_2+b_1c_2 & a_1b_2+b_1d_2\\ c_1a_2+d_1c_2 & c_1b_2+d_1d_2\end{bmatrix}$

注意：矩阵乘积的次序与复合变换相同，从右向左相继作用。

由定义易知，对任意向量 $\mathbf v$ 有
$(AB)\mathbf v=A(B\mathbf v)$

矩阵的定义

接下来，我们将矩阵的概念推广到高维空间。高维线性空间中的变换与二维空间中的变换类似。

矩阵: $m\times n$ 个数按一定次序排成的数表称为矩阵
$\begin{bmatrix} a_{11}&a_{12}&\cdots&a_{1n} \\ a_{21}&a_{22}&\cdots&a_{2n} \\ \vdots&\vdots&\ddots&\vdots \\ a_{m1}&a_{m2}&\cdots&a_{mn} \\ \end{bmatrix}$
常用大写英文字母表示矩阵，如 $A$ 或 $A_{m× n}$ 。矩阵中的每个数 $a_{ij}$ 称为它的元素(entry)，有时矩阵也记作 $a_{ij})$ 或 $a_{ij})_{m× n}$ 。根据矩阵的元素所属的数域，可以将矩阵分为复矩阵和实矩阵。

几种特殊的矩阵：

元素全为零的矩阵称为零矩阵(zero matrix)，记作 $O$ 。
只有一行的矩阵称为行矩阵(row matrix)或行向量；只有一列的矩阵称为列矩阵(column matrix)或列向量。行(列)矩阵通常用小写黑体字母表示，如 $\mathbf a,\mathbf x$ 。
当行数和列数相等时的矩阵 $A_{n\times n}$ 称为** $n$ 阶方阵**(n-order square matrix)。
不在主对角线上的元素全为零的方阵称为对角阵(diagonal matrix)，记作 $\mathrm{diag}(a_1,a_2,\cdots,a_n)$
主对角线上的元素全为1的对角阵，称为单位阵(identity matrix)。记 $n$ 阶单位阵记作 $E_n$ 或 $I_n$

矩阵的线性运算：因为矩阵 $A_{m\times n}$ 的各列是 $m$ 维向量，写作 $A=\begin{bmatrix}\mathbf a_1&\mathbf a_2&\cdots&\mathbf a_n\end{bmatrix}$ ，因此矩阵可看作向量集，向量的线性运算自然推广到矩阵。

设矩阵 $A=(a_{ij})$ 与 $B=(b_{ij})$

他们的对应元素完全相同 $a_{ij}=b_{ij}$ ，则称矩阵 $A$ 与 $B$ 相等，记作 $A = B$ ；
矩阵的加法定义为 $A+B=(a_{ij}+b_{ij})$
矩阵的数乘定义为 $kA=(ka_{ij})$

{% label 性质 orange %}：线性运算满足以下性质

加法交换律： $A + B = B + A$
加法结合律： $A + (B + C) = (A + B) + C$
零矩阵： $O + A = A$
负矩阵： $A + (- A) = O$
数乘结合律： $k (l A) = (k l) A$
数乘分配律： $k (A + B) = k A + k B$
数乘分配律： $(k + l) A = k A + l A$
数乘单位元： $1 A = A$

矩阵向量的乘法：矩阵与向量的乘法来源于线性变换，它有着直观的、深刻的几何背景。设 $m\times n$ 维矩阵 $A=(a_{ij})$ 与 $n$ 维向量 $\mathbf v=(x_1,x_2,\cdots,x_n)^T$ 的乘积
$\begin{bmatrix} a_{11}&a_{12}&\cdots&a_{1n} \\ a_{21}&a_{22}&\cdots&a_{2n} \\ \vdots&\vdots&\ddots&\vdots \\ a_{m1}&a_{m2}&\cdots&a_{mn} \\ \end{bmatrix} \begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix}= x_1\begin{bmatrix}a_{11}\\a_{21}\\\vdots\\a_{m1}\end{bmatrix}+\cdots+ x_n\begin{bmatrix}a_{1n}\\a_{2n}\\\vdots\\a_{mn}\end{bmatrix}= \begin{bmatrix}\sum_{j=1}^na_{1j}x_j\\\sum_{j=1}^na_{2j}x_j\\\vdots\\\sum_{j=1}^na_{mj}x_j\end{bmatrix}$
一般地， $m\times n$ 维的矩阵，表示将 $n$ 维空间中的向量映射到 $m$ 维空间中。矩阵的第 $j$ 列表示第 $j$ 个基向量变换后的坐标。

矩阵乘法：矩阵与矩阵乘法来源于复合线性变换。设矩阵 $A=(a_{ij})_{m\times n}$ 与 $B=(b_{ij})_{n\times p}$ ，向量 $\mathbf v=(x_1,x_2,\cdots,x_p)$ ，用 $\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_p$ 表示矩阵 $B$ 的各列，则
$B\mathbf v=x_1\mathbf b_1+x_2\mathbf b_2+\cdots+x_p\mathbf b_p$
由线性变换的性质
$\begin{aligned} A(B\mathbf v)&=A(x_1\mathbf b_1)+A(x_2\mathbf b_2)+\cdots+A(x_p\mathbf b_p) \\ &=x_1A\mathbf b_1+x_2A\mathbf b_2+\cdots+x_pA\mathbf b_p \\ &=\begin{bmatrix}A\mathbf b_1&A\mathbf b_2&\cdots&A\mathbf b_p\end{bmatrix}\mathbf v \end{aligned}$
于是可定义矩阵的乘积 $A B$ 为 $m\times p$ 矩阵
$AB=A\begin{bmatrix}\mathbf b_1&\mathbf b_2&\cdots&\mathbf b_p\end{bmatrix}= \begin{bmatrix}A\mathbf b_1&A\mathbf b_2&\cdots&A\mathbf b_p\end{bmatrix}$
矩阵 $A$ 的列数必须和 $B$ 的行数相等，乘积才有意义。之前定义的矩阵向量乘法是矩阵乘法的特例。通常，更方便的方法是用元素定义矩阵乘法。设乘积 $AB=(c_{ij})_{m× p}$ 。则元素
$c_{ij}=a_{i1}b_{1j}+a_{i2}b_{2j}+\cdots+a_{ip}b_{pj}$
{% label 性质 orange %}：矩阵乘法满足以下性质

矩阵乘法满足结合率： $A (BC) = (A B) C$
矩阵乘法满足左分配律： $A (B + C) = A B + A C$
矩阵乘法满足右分配律： $(B + C) A = B A + C A$
矩阵乘法满足数乘分配律： $k (A B) = (k A) B = A (k B)$
矩阵乘法单位元： $I A = A I = A$

证明：(1) 可从矩阵乘法的定义证明满足结合率。从线性变换角度来看，对于复合变换 $A (BC)$ 和 $(A B) C$ 是同样的变换，且依次作用的顺序并不会发生改变，变换的最终结果自然不变。
$\mathbf v\xrightarrow{C}C\mathbf v\xrightarrow{B}BC\mathbf v\xrightarrow{A}ABC\mathbf v$

注意：

矩阵乘法不满足交换率，即一般情况下 $AB\neq BA$
矩阵乘法不满足消去率，即若 $A B = A C$ ，不能推出 $B = C$ ；同样由 $A B = O$ ，不能推出 $A = O$ 或 $B = O$ 。

证明：(1) 一般地，复合变换 $f\circ g\neq g\circ f$ ，自然 $AB\neq BA$ ，矩阵乘法不满足交换率。
(2) 可举例证明矩阵乘法不满足消去率

设矩阵
$A=\begin{bmatrix}0&1&0\\ 0&0&1\\ 0&0&1\end{bmatrix},\quad B=\begin{bmatrix}0&0&1\\ 0&0&0\\ 0&0&0\end{bmatrix}$
则有
$AB=\begin{bmatrix}0&1&0\\ 0&0&1\\ 0&0&1\end{bmatrix} \begin{bmatrix}0&0&1\\ 0&0&0\\ 0&0&0\end{bmatrix}= \begin{bmatrix}0&0&0\\ 0&0&0\\ 0&0&0\end{bmatrix}=O \\ BA=\begin{bmatrix}0&0&1\\ 0&0&0\\ 0&0&0\end{bmatrix} \begin{bmatrix}0&1&0\\ 0&0&1\\ 0&0&1\end{bmatrix}= \begin{bmatrix}0&0&1\\ 0&0&0\\ 0&0&0\end{bmatrix}\neq O$

列空间与基

定义：为方便使用，先介绍几个简单的定义

线性变换是一种映射，称变换后的向量 $T(\mathbf v)$ 为向量 $\mathbf v$ 在映射 $T$ 下的像，而称 $\mathbf v$ 为 $T(\mathbf v)$ 在映射 $T$ 下的原像。
线性变换 $T$ 的像集 $T (V)$ 是一个线性空间，称为线性变换 $T$ 的值域，记作
$\text{range}(T)=\{T(\mathbf v)\mid\mathbf v\in V\}$
在前面几节的分析中，我们始终将矩阵的列看成是向量。而这些列向量所张成的空间，称为列空间，若 $A=(\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n)$
$\text{col }A=\text{span}\{\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n\}$

我们已经知道，变换后的向量 $A\mathbf v$ 是变换后的基向量以同样的系数线性组合，而矩阵的列就是基向量变换之后的位置。因此，矩阵 $A$ 线性变换后的空间即是矩阵 $A$ 的列空间
$\text{col }A=\text{range }A=\{A\mathbf v\mid\mathbf v\in V\}$
定理：矩阵 $A$ 的主元列构成 $\text{col }A$ 的一组基。

下面两个例子给出对列空间求基的简单算法。

例1：求 $\text{Col }B$ 的一组基，其中
$B=(\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_n)=\begin{bmatrix}1&4&0&2&0\\ 0&0&1&-1&0\\ 0&0&0&0&1\\0&0&0&0&0\end{bmatrix}$
事实上， $B$ 的每个非主元列都是主元列的线性组合 $\mathbf b_2=4\mathbf b_1,\mathbf b_4=2\mathbf b_1-\mathbf b_3$ 且主元列时线性无关的，所以主元列构成列空间的一组基 $\text{col }B=\text{span }\{\mathbf b_1,\mathbf b_3,\mathbf b_5\}$ 。

当矩阵不是阶梯型矩阵时，回顾矩阵 $A=(\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n)$ 中列向量间的线性关系都可以用方程 $A\mathbf x=0$ 的形式刻画。当 $A$ 被行简化为阶梯型矩阵 $B=(\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_n)$ 时，即存在可逆矩阵 $P$ 使 $B = P A$ 。若 $B$ 的列向量线性相关，即存在系数 $\mathbf x$ 使得 $B\mathbf x=0$ ，即
$x_1\mathbf b_1+x_2\mathbf b_2+\cdots+x_n\mathbf b_n=0$
同样的系数 $\mathbf x$ 也适用于矩阵 $A$ 的列向量， $A\mathbf x=P^{-1}B\mathbf x=0$ ，即
$x_1\mathbf a_1+x_2\mathbf a_2+\cdots+x_n\mathbf a_n=0$
综上，即矩阵 $A$ 的列与阶梯型矩阵 $B$ 的列具有完全相同的线性相关关系。

例2：
$A=(\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n)=\begin{bmatrix}1&4&0&2&-1\\ 3&12&1&5&5\\ 2&8&1&3&2\\5&20&2&8&8\end{bmatrix}$
已知矩阵 $A$ 行等价于上例中的矩阵 $B$ ，求 $\text{Col }A$ 的一组基。

由于上例中 $\mathbf b_2=4\mathbf b_1,\mathbf b_4=2\mathbf b_1-\mathbf b_3$ ，相关关系完全适用于矩阵 $A$ 的列向量 $\mathbf a_2=4\mathbf a_1,\mathbf a_4=2\mathbf a_1-\mathbf a_3$ 。于是线性无关集 $\mathbf a_1,\mathbf a_3,\mathbf a_5$ 是 $\text{Col }A$ 的一组基 $\text{col }A=\text{span }\{\mathbf a_1,\mathbf a_3,\mathbf a_5\}$ 。

注意：阶梯形矩阵的主元列通常不在原矩阵的列空间中。

矩阵的秩

矩阵的秩就是列空间的维度，记作 $\text{rank }A=\dim(\text{col }A)$ 。

前面介绍的都是方阵，表示向量空间到自身的映射。下面简单说下非方阵的映射关系。

一般地， $m\times n$ 维的矩阵，表示将 $n$ 维空间中的向量映射到 $m$ 维空间中。矩阵的第 $j$ 列表示第 $j$ 个基向量变换后的坐标。例如：

$3\times 2$ 维矩阵是把二维空间映射到三维空间上，因为矩阵有两列，说明输入空间有两个基向量，三行表示每一个基向量在变换后用三个独立的坐标来描述。
$\begin{bmatrix}1&-1\\3&2\\0&3\end{bmatrix} \begin{bmatrix}x\\y\end{bmatrix}= \begin{bmatrix}1\\3\\0\end{bmatrix}x+ \begin{bmatrix}-1\\2\\3\end{bmatrix}y$

在这里插入图片描述

$2\times 3$ 维矩阵是把三维空间映射到二维空间上，因为矩阵有三列，说明输入空间有三个基向量，二行表示每一个基向量在变换后用二个独立的坐标来描述。
$\begin{bmatrix}2&2&1\\1&0&-1\end{bmatrix} \begin{bmatrix}x\\y\\z\end{bmatrix}= \begin{bmatrix}2\\1\end{bmatrix}x+ \begin{bmatrix}2\\0\end{bmatrix}y+ \begin{bmatrix}1\\-1\end{bmatrix}z$

在这里插入图片描述

若矩阵的秩等于列数，则称为满秩矩阵(full rank matrix)，零向量一定在列空间内，满秩变换中，唯一能落在原点的就是零向量自身。满秩矩阵的列即为列空间的基。

对于非满秩矩阵，意味着该线性变换会将空间压缩到一个更低维的空间，通俗来讲，就是会有一系列直线上不同方向的向量压缩为原点。

由此可得，秩可以用来描述线性变换对空间的压缩程度。

逆变换与逆矩阵

我们已经知道了矩阵与线性变换中的对应关系，试想一下，将变换后的向量还原到初始状态。

在这里插入图片描述

逆矩阵：对于 $n$ 阶方阵 $A$ ，如果存在 $n$ 阶方阵 $B$ ，使得
$A B = B A = I$
则称矩阵 $A$ 可逆(invertible)， $B$ 是 $A$ 的逆矩阵。实际上， $A$ 的逆矩阵是唯一的，记为 $A^{-1}$ 。因为，若 $B, C$ 都是 $A$ 的逆矩阵，则