机器学习——奇异值分解二（特征分解+SVD纯理解）

矩阵的特征分解

特征值和特征向量的定义

抄来的：奇异值分解

困惑1：特征值和特征向量，和原矩阵是怎样的关系，需要一个栗子进行更具象的认识
困惑2：为什么多个特征向量组合成的矩阵，可以构成矩阵A的特征分解？需要推导
困惑3：为什么要特征向量标准化？
困惑4：标准正交基是什么，为什么满足 $W^TW=I$
为什么。。。。

太多why，只能自己来解决吗。。。涕泪横流。。。

先来看看特征值和特征向量

特征值与特征向量的推导

求解特征向量与特征值

$A x = λ x$ ，λ是特征值，但特征值可能会有多个，每个特征值都有对应的特征向量

根据 $（ A - λ E ） x = 0$ ，而需要x是非零向量，则要求A-λE的行列式为0，即 $∣ A - λ E ∣ = 0$ ，就可以求出多个λ值
分别将λ值代入 $∣ A - λ E ∣ x = 0$ ，就可以求出对应的特征向量x

question:为什么x是非零向量， $∣ A - λ E ∣ = 0$ 的行列式就为0呢？而不是 $A - λ E = 0$ 向量呢？

still,why?
毫不避讳地说：我大学线性代数是老师给的同情分，60分飘过
但我后来，有自己学习过的，现在也忘个精光了，现在还是重新梳理一遍吧，省的回头海马体又不争气

非零解与行列式值的关系

首先，先从求解矩阵的行列式方法，推导出【非零解与行列式值的关系】

求解行列式，要从【消元法】求解齐次方程组的权重系数w的过程讲起：

$w_1x_{11}+w_2x_{12}+w_3x_{13}=0$ 式子①
$w_1x_{21}+w_2x_{22}+w_3x_{23}=0$ 式子②
$w_1x_{31}+w_2x_{32}+w_3x_{33}=0$ 式子③

通过消元法，求解 $w_1、w_2、w_3$ ：

式子①保持： $w_1x_{11}+w_2x_{12}+w_3x_{13}=0$
式子②【数乘】【数加】消去 $w_1$ 项
- 数乘： $w_1x_{21}\frac{x_{11}}{x_{21}}+w_2x_{22}\frac{x_{11}}{x_{21}}+w_3x_{23}\frac{x_{11}} {x_{21}}=0$
- 数加①：式子② -式子①可得 $w_1*0+w_2(x_{22}\frac{x_{11}}{x_{21}}-x_{12})+w_3(x_{23}\frac{x_{11}}{x_{21}}-x_{13})=0$
- 即简化为 $w_1*0+w_2b_{2}+w_3b_3=0$
式子③【数乘】【数加】消去 $w_1、w_2$ 项
- 数乘： $w_1x_{31}\frac{x_{11}}{x_{31}}+w_2x_{32}\frac{x_{11}}{x_{31}}+w_3x_{33}\frac{x_{11}}{x_{31}}=y_3\frac{x_{11}}{x_{31}}$
- 数加①：式子③ -式子①可得 $w_1*0+w_2(x_{32}\frac{x_{11}}{x_{31}}-x_{12})+w_3(x_{33}\frac{x_{11}}{x_{31}}-x_{13})=0$
- 数乘再数加消除 $w 2$ ，最终可化简为： $w_1*0+w_2*0+w_3c_3=0$

通过消元法后：

稍微整理，下列的a\b\c系列都是已知数，求出w

$w_1a_1+w_2a_2+w_3a_3=0$
$w_1*0+w_2b_{2}+w_3b_3=0$
$w_1*0+w_2*0+w_3c_3=0$

这种情况下，方程只有无解，零解和非零解三种情况
将系数写成矩阵 $\begin{vmatrix}a_{1}&a_{2}&a_{3}\\0&b_{2}&b_{3}\\0&0&c_{3}\\\end{vmatrix}$ ，要使w1、w2、w3三个中有非零解，那就至少需要c3=0-

我觉得我在放屁。。。应该不是这样的，我再衡量衡量
还是偷别的up主教学吧
找个正解的线性代数（三）行列式的来历

在这里插入图片描述

好，即使上述关系能体现出，行列式不为零，则有非齐次线性方程组有非零解
但跟求特征根有什么关系呢？ $(A - λ E) x = 0$
求特征根是求齐次线性方程组的解，但原本求行列式时的方程是非齐次方程组
特征根λ的行列式是：
$\begin{vmatrix}x_{11}-λ&x_{12}&x_{13}\\x_{21}&x_{22}-λ&x_{23}\\x_{31}&x_{32}&x_{33}-λ\\\end{vmatrix}$

然后我又去翻其他的资料，果然。。。前边的分析方向搞错了，只能证明非齐次线性方程组的非零解条件是：行列式≠0
在这里插入图片描述
继续论证，齐次线性方程组的非零解条件是：行列式=0，才能说明行列式与特征根的关系

在这里插入图片描述

所以，求解非零特征根，是要求齐次线性方程组对应的系数矩阵的秩小于元素个数，也就等同于矩阵的行列式为0。

衍生出新的问题：为什么行列式是这样算的，行列式的本质到底是什么？它的计算有什么代数或几何意义吗？
我觉得，我需要知道它。。。然后去找到知乎一篇文行列式本质
我粗看一遍，感觉这篇文章一定藏着我想要的答案，但首先，我要能看懂它…

我很绝望，行列式的定义是总结归纳出来的吗？
它没有个因果关系吗？
头疼。。。。。

任意矩阵，都可以通过【交换】、【倍乘】、【倍加】的方式，变成上三角矩阵，且不改变行列式的值
B站up主的俗说矩阵，非常好！
在这里插入图片描述

穿插理解：行列式

呜呜呜呜呜呜，经过我坚持不懈地在B站摸鱼划水，终于在众说纷纭中，打通了任督二脉
我好像是懂了，懂了n阶行列式的定义，为什么是这样的了！！！！

先摆上二阶行列式的定义：
在这里插入图片描述

再摆上三阶行列式的定义：
在这里插入图片描述

再摆上n阶行列式的定义：
在这里插入图片描述

I don’t know why，how，what
二阶、二阶推导到三阶，我还能理解，但是怎么推出n阶的？？？
非常头疼，看了很多解释，有些看起来很专业，但我还是不理解
直到回顾到B站的俗说矩阵的行列式按行按列展开
我才有种灵光一闪的开窍！！！哦！！！！

首先，在行列式的二、三阶定义中，可以推导出【数乘】【交换】【数加】三种变换时的行列式变化

【行或列数加】：行列式值无改变
【行或列数乘】：行列式值乘相同数
【行或列相邻交换】：行列式值为相反值

二阶可以由余子式累加得到
通过拆分成三角形式的行列式，可以更好地求的行列式
$\begin{vmatrix}a&b\\x_{21}&x_{22}\\\end{vmatrix}=\begin{vmatrix}a&0\\x_{21}&x_{22}\\\end{vmatrix}+\begin{vmatrix}0&b\\x_{21}&x_{22}\\\end{vmatrix}$

下三角无需更换行列，直接求得行列式
$\begin{vmatrix}a&0\\x_{21}&x_{22}\\\end{vmatrix}=a\begin{vmatrix}x_{22}\\\end{vmatrix}=ax_{22}$

将行列式通过【变换】，变换成下三角后，再求行列式
$\begin{vmatrix}0&b\\x_{21}&x_{22}\\\end{vmatrix}=-\begin{vmatrix}b&0\\x_{22}&x_{21}\\\end{vmatrix}=-b\begin{vmatrix}x_{21}\\\end{vmatrix}=-bx_{21}$

相邻变换，行列式值会变为相反值，因此变换过程有负号产生

三阶也是如此，但三阶是可以由二阶推导来的
$\begin{vmatrix}x_{11}&x_{12}&x_{13}\\x_{21}&x_{22}&x_{23}\\x_{31}&x_{32}&x_{33}\\\end{vmatrix}=\begin{vmatrix}x_{11}&0&0\\x_{21}&x_{22}&x_{23}\\x_{31}&x_{32}&x_{33}\\\end{vmatrix} +\begin{vmatrix}0&x_{12}&0\\x_{21}&x_{22}&x_{23}\\x_{31}&x_{32}&x_{33}\\\end{vmatrix}+\begin{vmatrix}0&0&x_{13}\\x_{21}&x_{22}&x_{23}\\x_{31}&x_{32}&x_{33}\\\end{vmatrix}$

第一个直接构成下三角

$\begin{vmatrix}x_{11}&0&0\\x_{21}&x_{22}&x_{23}\\x_{31}&x_{32}&x_{33}\\\end{vmatrix}=x_{11}\begin{vmatrix}x_{22}&x_{23}\\x_{32}&x_{33}\\\end{vmatrix}=x_{11}\begin{vmatrix}x_{22}&0\\x_{32}&x_{33}\\\end{vmatrix}+x_{11}\begin{vmatrix}0&x_{23}\\x_{32}&x_{33}\\\end{vmatrix}$
$x_{11}\begin{vmatrix}x_{22}&0\\x_{32}&x_{33}\\\end{vmatrix}+x_{11}\begin{vmatrix}0&x_{23}\\x_{32}&x_{33}\\\end{vmatrix}=x_{11}\begin{vmatrix}x_{22}&0\\x_{32}&x_{33}\\\end{vmatrix}-x_{11}\begin{vmatrix}x_{23}&0\\x_{33}&x_{32}\\\end{vmatrix}$
最终得到： $x_{11}*x_{22}x_{33}-x_{11}x_{23}x_{32}$

第二个需要变换1次，才成为下三角

$\begin{vmatrix}0&x_{12}&0\\x_{21}&x_{22}&x_{23}\\x_{31}&x_{32}&x_{33}\\\end{vmatrix}=-\begin{vmatrix}x_{12}&0&0\\x_{22}&x_{21}&x_{23}\\x_{32}&x_{31}&x_{33}\\\end{vmatrix}=-x_{12}\begin{vmatrix}x_{21}&x_{23}\\x_{31}&x_{33}\\\end{vmatrix}$
$-x_{12}\begin{vmatrix}x_{21}&x_{23}\\x_{31}&x_{33}\\\end{vmatrix}= -x_{12}(\begin{vmatrix}x_{21}&0\\x_{31}&x_{33}\\\end{vmatrix}+\begin{vmatrix}0&x_{23}\\x_{31}&x_{33}\\\end{vmatrix}) =-x_{12}(\begin{vmatrix}x_{21}&0\\x_{31}&x_{33}\\\end{vmatrix}-\begin{vmatrix}x_{23}&0\\x_{33}&x_{31}\\\end{vmatrix}) =-x_{12}*(x_{21}*\begin{vmatrix}x_{33}\\\end{vmatrix}-x_{23}*\begin{vmatrix}x_{31}\\\end{vmatrix})=-x_{12}*x_{21}*x_{33}+x_{12}*x_{23}*x_{31}$

第三个需要变换2次，才成为下三角

$\begin{vmatrix}0&0&x_{13}\\x_{21}&x_{22}&x_{23}\\x_{31}&x_{32}&x_{33}\\\end{vmatrix} =-\begin{vmatrix}0&x_{13}&0\\x_{21}&x_{23}&x_{22}\\x_{31}&x_{33}&x_{32}\\\end{vmatrix} =\begin{vmatrix}x_{13}&0&0\\x_{23}&x_{21}&x_{22}\\x_{33}&x_{31}&x_{32}\\\end{vmatrix} =x_{13}\begin{vmatrix}x_{21}&x_{22}\\x_{31}&x_{32}\\\end{vmatrix}$
同理可推导得： $x_{13}*x_{21}*x_{32}-x_{13}*x_{22}*x_{32}$

为什么要变换的这么详细呢？因为这个过程，恰好展现了n阶行列式的定义！

首先，每一次的变换，都是先把首行中的元素，逐一变换到左上角，这个变换的过程主要与列有关

如果首行元素在奇数列（如第3列），则变换到左上角时，行列式值是不变号的
如果首行元素在偶数列（如第2列），则变换到左上角时，行列式值会变成负号

在这里插入图片描述
但除了首行元素的列问题，还有次行元素的列问题

因此，我脑子不够用了，但好在世界上有很多优秀的阿婆主，能讲清楚一些
n阶特征公式解释

在这里插入图片描述
具体的，还是看up主的分析会比较有领悟

当然，可能我只是哦！但实际还不是很清晰，但。。。不想特别去深究行列式的定义，大概理解就好
我。。。又快要忘记前边思考的是什么问题了
已理解：行列式是什么，行列式和非零解的关系，可知道当行列式不为零时，求解特征值时，特征值也是非零解

特征值和特征向量的推导

如果从坐标系固定，矩阵向量变换的角度看，矩阵A与向量x相乘 $A x$ ，通常是对向量x进行【旋转】+【伸缩】的变换，这个变换过程中，并伴随有【升降维】的作用。

如果从矩阵向量固定，坐标系变换的角度看，矩阵A与向量x相乘 $A x$ ，则表示向量x是在A坐标系下，（相当于声明：x是火星A上的人）

而矩阵与特征向量、特征值的关系 $A x = λ x$ ，右侧的 $λ x$ 没有矩阵相乘，则表示标准正交基坐标系 $I$ 下的向量x，只不过这个向量x中每个值都乘以λ倍

而 $A x = λ x$ ，则表示，在A坐标系下的特征向量x，实际等同于标准正交基坐标系 $I$ 里的向量x伸缩λ倍，相当于当坐标系A旋转伸缩变换成标准正交基坐标系 $I$ 后，向量x的方向没有发生旋转，只是进行了伸缩变换。

向量x，正是特征向量，而特征值λ相当于向量x伸缩的倍数

例如A有一个特征向量 $x_1$ 及对应特征值 $λ_1$ ，则 $Ax_1=λ_1x_1$
$\begin{vmatrix}a_{11}&x_{12}&a_{13}\\a_{21}&a_{22}&a_{23}\\a_{31}&a_{32}&a_{33}\\\end{vmatrix}\begin{vmatrix}x_{11}\\x_{21}\\x_{31}\\\end{vmatrix}=λ_1\begin{vmatrix}x_{11}\\x_{21}\\x_{31}\\\end{vmatrix}$

再例如A的第2 个特征向量 $x_2$ 及对应特征值 $λ_2$ ，则 $Ax_2=λ_2x_2$
$\begin{vmatrix}a_{11}&x_{12}&a_{13}\\a_{21}&a_{22}&a_{23}\\a_{31}&a_{32}&a_{33}\\\end{vmatrix}\begin{vmatrix}x_{12}\\x_{22}\\x_{32}\\\end{vmatrix}=λ_1\begin{vmatrix}x_{12}\\x_{22}\\x_{32}\\\end{vmatrix}$

将A的所有特征向量x组成矩阵W，则有
$W=\begin{vmatrix}x_{11}&x_{12}&x_{13}\\x_{21}&x_{22}&x_{23}\\x_{31}&x_{32}&x_{33}\\\end{vmatrix}$

要让 $λ_1、λ_2、λ_3$ 对应乘以到W中,则需要将λ形成对角矩阵
$Σ=\begin{vmatrix}λ_1&0&0\\0&λ_2&0\\0&0&λ_3\\\end{vmatrix}$
则 $WΣ=\begin{vmatrix}λ_1x_{11}&λ_2x_{12}&λ_3x_{13}\\λ_1x_{21}&λ_2x_{22}&λ_3x_{23}\\λ_1x_{31}&λ_2x_{32}&λ_3x_{33}\\\end{vmatrix}$

而 $AW=\begin{vmatrix}a_{11}&x_{12}&a_{13}\\a_{21}&a_{22}&a_{23}\\a_{31}&a_{32}&a_{33}\\\end{vmatrix}\begin{vmatrix}x_{11}&x_{12}&x_{13}\\x_{21}&x_{22}&x_{23}\\x_{31}&x_{32}&x_{33}\\\end{vmatrix}=WΣ=\begin{vmatrix}x_{11}&x_{12}&x_{13}\\x_{21}&x_{22}&x_{23}\\x_{31}&x_{32}&x_{33}\\\end{vmatrix}\begin{vmatrix}λ_1&0&0\\0&λ_2&0\\0&0&λ_3\\\end{vmatrix}$

$AWW^{-1}=WΣW^{-1}$ ，因此就有 $A=WΣW^{-1}$

这就是矩阵特征分解的推导

因此，一个矩阵，可以由它的所有特征向量和特征值来表示

矩阵特征分解的意义

矩阵（方阵），可以由它的所有特征向量和特征值来表示，

例如A是mxm的方阵，它所有的特征向量为mxm的方阵W，对应的特征值矩阵为mxm的对角矩阵Σ

则 $A = WΣW^T$

特征分解后，可以选择删除一些不重要的特征，对方阵A进行降维。

那怎么知道哪些特征是不重要的呢？

这里的特征，其实指的就是特征向量和特征值，主要看特征值。

如果特征值相对而言特别特别小，接近于0，则这个特征向量对原方阵A的影响相应比较小。

$A=\begin{vmatrix}a_{11}&x_{12}&a_{13}\\a_{21}&a_{22}&a_{23}\\a_{31}&a_{32}&a_{33}\\\end{vmatrix}=\begin{vmatrix}x_{11}&x_{12}&x_{13}\\x_{21}&x_{22}&x_{23}\\x_{31}&x_{32}&x_{33}\\\end{vmatrix}\begin{vmatrix}λ_1&0&0\\0&λ_2&0\\0&0&λ_3\\\end{vmatrix}\begin{vmatrix}x_{11}&x_{21}&x_{31}\\x_{12}&x_{22}&x_{32}\\x_{13}&x_{23}&x_{33}\\\end{vmatrix}$

$A=\begin{vmatrix}λ_1x_{11}&λ_2x_{12}&λ_3x_{13}\\λ_1x_{21}&λ_2x_{22}&λ_3x_{23}\\λ_1x_{31}&λ_2x_{32}&λ_3x_{33}\\\end{vmatrix}\begin{vmatrix}x_{11}&x_{21}&x_{31}\\x_{12}&x_{22}&x_{32}\\x_{13}&x_{23}&x_{33}\\\end{vmatrix}$

$A=\begin{vmatrix} λ_1x^2_{11}+λ_2x^2_{12}+λ_3x^2_{13} &λ_1x_{11}x_{21}+λ_2x_{12}x_{22}+λ_3x_{13}x_{23} &λ_1x_{11}x_{31}+λ_2x_{12}x_{32}+λ_3x_{13}x_{33}\\ λ_1x_{21}x_{11}+λ_2x_{22}x_{12}+λ_3x_{23}x_{13} &λ_1x_{21}x_{21}+λ_2x_{22}x_{22}+λ_3x_{23}x_{23} &λ_1x_{21}x_{31}+λ_2x_{22}x_{32}+λ_3x_{32}x_{33}\\ λ_1x_{31}x_{11}+λ_2x_{32}x_{12}+λ_3x_{33}x_{13} &λ_1x_{31}x_{21}+λ_2x_{32}x_{22}+λ_3x_{33}x_{23} &λ_1x_{31}x_{31}+λ_2x_{32}x_{32}+λ_3x_{33}x_{33}\\\end{vmatrix}$

如果将特征值非常小的特征值和对应的特征向量去掉，如删掉λ1和x2，则有
$\begin{vmatrix}λ_2x_{12}&λ_3x_{13}\\λ_2x_{22}&λ_3x_{23}\\λ_2x_{32}&λ_3x_{33}\\\end{vmatrix}\begin{vmatrix}x_{12}&x_{22}&x_{32}\\x_{13}&x_{23}&x_{33}\\\end{vmatrix}$
在这里插入图片描述
这样还原出来的A，就不是完完全全的A矩阵了，但相对而言，如果λ1比较小，那么还原出来的矩阵与A矩阵差别也不会太大