机器学习数学基础:21.特征值与特征向量

一、引言

在现代科学与工程的众多领域中,线性代数扮演着举足轻重的角色。其中,特征值、特征向量以及相似对角化的概念和方法,不仅是线性代数理论体系的核心部分,更是解决实际问题的有力工具。无论是在物理学中描述系统的振动模式,还是在计算机科学里进行数据降维与图像处理,它们都发挥着关键作用。本教程将深入且全面地对这些内容展开讲解,旨在帮助读者透彻理解并熟练运用相关知识。

二、基础知识准备

(一)对角矩阵的高次幂计算

在开启特征值与特征向量的探索之旅前,我们先来聚焦对角矩阵的高次幂运算。对角矩阵是一种结构特殊的方阵,其显著特点是主对角线以外的所有元素均为零。用数学语言描述,对于一个 n n n阶对角矩阵 Λ = ( λ 1 0 ⋯ 0 0 λ 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ λ n ) \Lambda \ = \begin{pmatrix} \lambda_1 & 0 & \cdots & 0 \\ 0 & \lambda_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n \end{pmatrix} Λ = λ1000λ2000λn ,在计算它的 N N N次幂 Λ N \Lambda^N ΛN时,我们可以遵循一个简洁的规则:直接将主对角线上的各个元素替换为它们各自的 N N N次幂。即 Λ N = ( λ 1 N 0 ⋯ 0 0 λ 2 N ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ λ n N ) \Lambda^N \ = \begin{pmatrix} \lambda_1^N & 0 & \cdots & 0 \\ 0 & \lambda_2^N & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n^N \end{pmatrix} ΛN = λ1N000λ2N000λnN

为了更直观地理解,我们来看几个具体例子。当 N = 2 N \ = 2 N =2时, Λ 2 = ( λ 1 2 0 ⋯ 0 0 λ 2 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ λ n 2 ) \Lambda^2 \ = \begin{pmatrix} \lambda_1^2 & 0 & \cdots & 0 \\ 0 & \lambda_2^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n^2 \end{pmatrix} Λ2 = λ12000λ22000λn2 ;当 N = 3 N \ = 3 N =3时, Λ 3 = ( λ 1 3 0 ⋯ 0 0 λ 2 3 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ λ n 3 ) \Lambda^3 \ = \begin{pmatrix} \lambda_1^3 & 0 & \cdots & 0 \\ 0 & \lambda_2^3 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n^3 \end{pmatrix} Λ3 = λ13000λ23000λn3 。这种计算方式的便捷性,源于对角矩阵自身独特的结构,使得高次幂的计算变得相对简单直接。

(二)对角矩阵的乘法

在矩阵乘法的运算体系中,对角矩阵的乘法展现出独特的简便性。假设我们有两个 n n n阶对角矩阵 Λ 1 = ( a 1 0 ⋯ 0 0 a 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ a n ) \Lambda_1 \ = \begin{pmatrix} a_1 & 0 & \cdots & 0 \\ 0 & a_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & a_n \end{pmatrix} Λ1 = a1000a2000an Λ 2 = ( b 1 0 ⋯ 0 0 b 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ b n ) \Lambda_2 \ = \begin{pmatrix} b_1 & 0 & \cdots & 0 \\ 0 & b_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & b_n \end{pmatrix} Λ2 = b1000b2000bn

它们的乘积 Λ 1 Λ 2 \Lambda_1\Lambda_2 Λ1Λ2的计算过程如下:根据矩阵乘法的定义,对于一般矩阵 C = A B C \ = AB C =AB C C C的元素 c i j = ∑ k = 1 n a i k b k j c_{ij} \ = \sum_{k \ = 1}^{n}a_{ik}b_{kj} cij =k =1naikbkj。但对于对角矩阵 Λ 1 \Lambda_1 Λ1 Λ 2 \Lambda_2 Λ2,由于非对角元素均为 0 0 0,在计算乘积矩阵 Λ 1 Λ 2 \Lambda_1\Lambda_2 Λ1Λ2的元素时,只有 i = j i \ = j i =j的位置上的元素不为 0 0 0。具体来说, ( Λ 1 Λ 2 ) i i = a i b i (\Lambda_1\Lambda_2)_{ii} \ = a_ib_i (Λ1Λ2)ii =aibi,而 ( Λ 1 Λ 2 ) i j = 0 (\Lambda_1\Lambda_2)_{ij} \ = 0 (Λ1Λ2)ij =0 i ≠ j i \neq j i=j)。所以 Λ 1 Λ 2 = ( a 1 b 1 0 ⋯ 0 0 a 2 b 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ a n b n ) \Lambda_1\Lambda_2 \ = \begin{pmatrix} a_1b_1 & 0 & \cdots & 0 \\ 0 & a_2b_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & a_nb_n \end{pmatrix} Λ1Λ2 = a1b1000a2b2000anbn ,即只需将对应位置的元素相乘即可得到乘积矩阵的元素。

三、特征值与特征向量的求解

(一)求解方法概述

对于一个 n n n阶方阵 A A A,我们通过构建并求解特征方程 ∣ A − λ E ∣ = 0 \vert A - \lambda E\vert \ = 0 AλE =0来获取其特征值 λ \lambda λ。这里的 E E E代表 n n n阶单位矩阵, ∣ A − λ E ∣ \vert A - \lambda E\vert AλE是一个关于 λ \lambda λ n n n次多项式,被称为矩阵 A A A的特征多项式。

从行列式的计算角度来看, A − λ E A - \lambda E AλE是将矩阵 A A A的主对角线元素分别减去 λ \lambda λ后得到的矩阵,然后计算这个新矩阵的行列式。例如,对于二阶矩阵 A = ( a 11 a 12 a 21 a 22 ) A \ = \begin{pmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{pmatrix} A =(a11a21a12a22) A − λ E = ( a 11 − λ a 12 a 21 a 22 − λ ) A - \lambda E \ = \begin{pmatrix} a_{11} - \lambda & a_{12} \\ a_{21} & a_{22} - \lambda \end{pmatrix} AλE =(a11λa21a12a22λ),其特征多项式 ∣ A − λ E ∣ = ( a 11 − λ ) ( a 22 − λ ) − a 12 a 21 \vert A - \lambda E\vert \ = (a_{11} - \lambda)(a_{22} - \lambda) - a_{12}a_{21} AλE =(a11λ)(a22λ)a12a21,这是一个关于 λ \lambda λ的二次多项式。

求解特征方程 ∣ A − λ E ∣ = 0 \vert A - \lambda E\vert \ = 0 AλE =0,本质上就是求解这个 n n n次多项式方程的根。这些根就是矩阵 A A A的特征值,在求解过程中,可能会出现重根的情况。例如,对于矩阵 A = ( 2 1 1 2 ) A \ = \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix} A =(2112),其特征多项式为 ∣ A − λ E ∣ = ∣ 2 − λ 1 1 2 − λ ∣ = ( 2 − λ ) 2 − 1 = λ 2 − 4 λ + 3 \vert A - \lambda E\vert \ = \begin{vmatrix} 2 - \lambda & 1 \\ 1 & 2 - \lambda \end{vmatrix} \ = (2 - \lambda)^2 - 1 \ = \lambda^2 - 4\lambda + 3 AλE = 2λ112λ  =(2λ)21 =λ24λ+3。令 λ 2 − 4 λ + 3 = 0 \lambda^2 - 4\lambda + 3 \ = 0 λ24λ+3 =0,通过因式分解得到 ( λ − 1 ) ( λ − 3 ) = 0 (\lambda - 1)(\lambda - 3) \ = 0 (λ1)(λ3) =0,解得特征值 λ 1 = 1 \lambda_1 \ = 1 λ1 =1 λ 2 = 3 \lambda_2 \ = 3 λ2 =3,这里特征值没有重根。但对于一些特殊矩阵,可能会出现如二重根、三重根等情况。

(二)特征向量的求解

当我们成功求得矩阵 A A A的特征值 λ \lambda λ后,接下来要做的是将每个特征值 λ \lambda λ代入齐次线性方程组 ( A − λ E ) X = 0 (A - \lambda E)X \ = 0 (AλE)X =0,以此来求解对应的特征向量 X X X

以矩阵 A = ( 2 1 1 2 ) A \ = \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix} A =(2112)为例,当 λ 1 = 1 \lambda_1 \ = 1 λ1 =1时,将其代入 ( A − λ 1 E ) X = 0 (A - \lambda_1 E)X \ = 0 (Aλ1E)X =0,得到 ( 2 − 1 1 1 2 − 1 ) ( x 1 x 2 ) = ( 1 1 1 1 ) ( x 1 x 2 ) = ( 0 0 ) \begin{pmatrix} 2 - 1 & 1 \\ 1 & 2 - 1 \end{pmatrix}\begin{pmatrix} x_1 \\ x_2 \end{pmatrix} \ = \begin{pmatrix} 1 & 1 \\ 1 & 1 \end{pmatrix}\begin{pmatrix} x_1 \\ x_2 \end{pmatrix} \ = \begin{pmatrix} 0 \\ 0 \end{pmatrix} (211121)(x1x2) =(1111)(x1x2) =(00)

为了求解这个齐次线性方程组,我们对系数矩阵 ( 1 1 1 1 ) \begin{pmatrix} 1 & 1 \\ 1 & 1 \end{pmatrix} (1111)进行初等行变换。根据初等行变换的规则,将第二行减去第一行,可将系数矩阵化为 ( 1 1 0 0 ) \begin{pmatrix} 1 & 1 \\ 0 & 0 \end{pmatrix} (1010)。这意味着原方程组等价于 x 1 + x 2 = 0 x_1 + x_2 \ = 0 x1+x2 =0,我们令 x 2 = t x_2 \ = t x2 =t t t t为任意非零实数),那么 x 1 = − t x_1 \ = -t x1 =t。所以,对应的特征向量可以表示为 X 1 = t ( − 1 1 ) X_1 \ = t\begin{pmatrix} -1 \\ 1 \end{pmatrix} X1 =t(11) t ≠ 0 t \neq 0 t=0),这里 t t t的任意非零取值都对应着一个特征向量,它们构成了属于特征值 λ 1 = 1 \lambda_1 \ = 1 λ1 =1的特征向量空间。

λ 2 = 3 \lambda_2 \ = 3 λ2 =3时,代入 ( A − λ 2 E ) X = 0 (A - \lambda_2 E)X \ = 0 (Aλ2E)X =0,即 ( 2 − 3 1 1 2 − 3 ) ( x 1 x 2 ) = ( − 1 1 1 − 1 ) ( x 1 x 2 ) = ( 0 0 ) \begin{pmatrix} 2 - 3 & 1 \\ 1 & 2 - 3 \end{pmatrix}\begin{pmatrix} x_1 \\ x_2 \end{pmatrix} \ = \begin{pmatrix} -1 & 1 \\ 1 & -1 \end{pmatrix}\begin{pmatrix} x_1 \\ x_2 \end{pmatrix} \ = \begin{pmatrix} 0 \\ 0 \end{pmatrix} (231123)(x1x2) =(1111)(x1x2) =(00)

同样对系数矩阵 ( − 1 1 1 − 1 ) \begin{pmatrix} -1 & 1 \\ 1 & -1 \end{pmatrix} (1111)进行初等行变换,将第一行乘以 − 1 -1 1后加到第二行,可化为 ( 1 − 1 0 0 ) \begin{pmatrix} 1 & -1 \\ 0 & 0 \end{pmatrix} (1010)。此时方程组等价于 x 1 − x 2 = 0 x_1 - x_2 \ = 0 x1x2 =0,令 x 2 = s x_2 \ = s x2 =s s s s为任意非零实数),则 x 1 = s x_1 \ = s x1 =s。所以对应的特征向量为 X 2 = s ( 1 1 ) X_2 \ = s\begin{pmatrix} 1 \\ 1 \end{pmatrix} X2 =s(11) s ≠ 0 s \neq 0 s=0)。

需要特别强调的是,在求解特征向量时,我们要找出所有的特征向量,而不仅仅是基础解系。基础解系是齐次线性方程组解空间的一组基,它能通过线性组合表示出解空间中的所有向量,但每个基础解系向量乘以非零标量后得到的向量也都是特征向量,我们需要将它们都考虑在内。

四、相似对角化

(一)相似对角化的条件

对于一个 n n n阶方阵 A A A,若存在一个可逆矩阵 P P P和一个对角矩阵 Λ \Lambda Λ,使得 P − 1 A P = Λ P^{-1}AP \ = \Lambda P1AP =Λ成立,则称矩阵 A A A可进行相似对角化。

判断矩阵 A A A能否相似对角化,是一个关键且严谨的过程,我们需要通过求特征向量和基础解系来得出结论。具体步骤如下:

  1. 首先,求解特征方程 ∣ A − λ E ∣ = 0 \vert A - \lambda E\vert \ = 0 AλE =0,从而得到矩阵 A A A的所有特征值 λ i \lambda_i λi i = 1 , 2 , ⋯ , n i \ = 1, 2, \cdots, n i =1,2,,n)。这些特征值是后续分析的基础。
  2. 对于每一个特征值 λ i \lambda_i λi,将其代入齐次线性方程组 ( A − λ i E ) X = 0 (A - \lambda_i E)X \ = 0 (AλiE)X =0,然后求解该方程组,得到基础解系 ξ i 1 , ξ i 2 , ⋯ , ξ i r i \xi_{i1}, \xi_{i2}, \cdots, \xi_{ir_i} ξi1,ξi2,,ξiri。这里的 r i r_i ri表示基础解系中向量的个数,它反映了属于特征值 λ i \lambda_i λi的线性无关特征向量的数量。
  3. 最后,我们检查所有特征值对应的线性无关特征向量的个数之和是否等于矩阵 A A A的阶数 n n n,即判断 ∑ i = 1 n r i = n \sum_{i \ = 1}^{n}r_i \ = n i =1nri =n是否成立。如果等式成立,那么矩阵 A A A可相似对角化;若不成立,则矩阵 A A A不可相似对角化。

(二)相似对角化的步骤

  1. 第一步,全面且准确地求出矩阵 A A A的所有特征值 λ 1 , λ 2 , ⋯ , λ n \lambda_1, \lambda_2, \cdots, \lambda_n λ1,λ2,,λn。这一步是相似对角化的起始点,需要我们熟练掌握特征方程的求解方法。
  2. 第二步,针对每个特征值 λ i \lambda_i λi,细致地求出对应的所有线性无关的特征向量 ξ i 1 , ξ i 2 , ⋯ , ξ i r i \xi_{i1}, \xi_{i2}, \cdots, \xi_{ir_i} ξi1,ξi2,,ξiri。然后,将这些特征向量按照一定的顺序按列构成可逆矩阵 P = ( ξ 11 , ⋯ , ξ 1 r 1 , ξ 21 , ⋯ , ξ 2 r 2 , ⋯ , ξ n 1 , ⋯ , ξ n r n ) P \ = (\xi_{11}, \cdots, \xi_{1r_1}, \xi_{21}, \cdots, \xi_{2r_2}, \cdots, \xi_{n1}, \cdots, \xi_{nr_n}) P =(ξ11,,ξ1r1,ξ21,,ξ2r2,,ξn1,,ξnrn)。在构建 P P P矩阵时,要确保特征向量的排列顺序与后续对角矩阵 Λ \Lambda Λ中特征值的顺序相对应。
  3. 第三步,构建对角矩阵 Λ = ( λ 1 ⋱ λ n ) \Lambda \ = \begin{pmatrix} \lambda_1 & & & \\ & \ddots & & \\ & & \lambda_n & \\ \end{pmatrix} Λ = λ1λn 。其中,主对角线上的元素就是矩阵 A A A的特征值,并且这些特征值的顺序要与 P P P矩阵中特征向量的排列顺序严格对应。

例如,对于前面提到的矩阵 A = ( 2 1 1 2 ) A \ = \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix} A =(2112),特征值 λ 1 = 1 \lambda_1 \ = 1 λ1 =1对应的特征向量取 ξ 11 = ( − 1 1 ) \xi_{11} \ = \begin{pmatrix} -1 \\ 1 \end{pmatrix} ξ11 =(11)(当 t = 1 t \ = 1 t =1时),特征值 λ 2 = 3 \lambda_2 \ = 3 λ2 =3对应的特征向量取 ξ 21 = ( 1 1 ) \xi_{21} \ = \begin{pmatrix} 1 \\ 1 \end{pmatrix} ξ21 =(11)(当 s = 1 s \ = 1 s =1时),则 P = ( − 1 1 1 1 ) P \ = \begin{pmatrix} -1 & 1 \\ 1 & 1 \end{pmatrix} P =(1111) Λ = ( 1 0 0 3 ) \Lambda \ = \begin{pmatrix} 1 & 0 \\ 0 & 3 \end{pmatrix} Λ =(1003)。通过计算 P − 1 A P P^{-1}AP P1AP,可以验证 P − 1 A P = Λ P^{-1}AP \ = \Lambda P1AP =Λ,从而实现了矩阵 A A A的相似对角化。

(三) P P P矩阵的可逆性

在相似对角化的过程中, P P P矩阵的可逆性具有举足轻重的地位。从相似对角化的定义 P − 1 A P = Λ P^{-1}AP \ = \Lambda P1AP =Λ可以看出,如果 P P P不可逆,那么 P − 1 P^{-1} P1就不存在,也就无法满足相似对角化的形式要求,矩阵 A A A也就不能进行相似对角化。

深入分析可知, P P P矩阵是由矩阵 A A A的特征向量构成的。而 P P P矩阵可逆的充要条件是它的列向量线性无关,也就是矩阵 A A A n n n个特征向量线性无关。这进一步说明了 n n n阶方阵 A A A可相似对角化的充要条件是 A A A n n n个线性无关的特征向量。如果 A A A的特征向量线性相关,那么 P P P矩阵就不可逆,相似对角化也就无法实现。

五、特征值与相似矩阵的性质

(一)特征值的性质

  1. 特征值乘积与行列式的关系:特征值的乘积等于矩阵的行列式,即 ∏ i = 1 n λ i = ∣ A ∣ \prod_{i \ = 1}^{n}\lambda_i \ = \vert A\vert i =1nλi =A。这一性质揭示了特征值与矩阵行列式之间的内在联系。例如,对于矩阵 A = ( 2 1 1 2 ) A \ = \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix} A =(2112),我们可以通过行列式的计算公式 ∣ A ∣ = 2 × 2 − 1 × 1 = 3 \vert A\vert \ = 2\times2 - 1\times1 \ = 3 A =2×21×1 =3来计算其行列式的值。同时,我们已经求得该矩阵的特征值 λ 1 = 1 \lambda_1 \ = 1 λ1 =1 λ 2 = 3 \lambda_2 \ = 3 λ2 =3 λ 1 λ 2 = 1 × 3 = 3 \lambda_1\lambda_2 \ = 1\times3 \ = 3 λ1λ2 =1×3 =3,恰好等于矩阵 A A A的行列式 ∣ A ∣ \vert A\vert A。这一性质在很多情况下可以帮助我们快速验证计算结果的正确性,或者通过已知的特征值来计算矩阵的行列式。
  2. 特征值之和与矩阵迹的关系:特征值的和等于矩阵的主对角线元素之和,矩阵的主对角线元素之和也被称为矩阵的迹,记为 t r ( A ) tr(A) tr(A),即 ∑ i = 1 n λ i = ∑ i = 1 n a i i \sum_{i \ = 1}^{n}\lambda_i \ = \sum_{i \ = 1}^{n}a_{ii} i =1nλi =i =1naii。对于矩阵 A = ( 2 1 1 2 ) A \ = \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix} A =(2112) t r ( A ) = 2 + 2 = 4 tr(A)\ =2 + 2 \ = 4 tr(A) =2+2 =4,而特征值 λ 1 = 1 \lambda_1 \ = 1 λ1 =1 λ 2 = 3 \lambda_2 \ = 3 λ2 =3 λ 1 + λ 2 = 1 + 3 = 4 \lambda_1+\lambda_2 \ = 1 + 3 \ = 4 λ1+λ2 =1+3 =4,二者相等。这一性质在判断矩阵的一些特性以及简化计算中具有重要作用。比如,当我们知道矩阵的特征值时,能快速得到矩阵的迹;反之,若已知矩阵的迹和部分特征值,也可据此求出其他特征值。

(二)相似矩阵的性质

  1. 特征值相同:相似矩阵具有相同的特征值。即若矩阵 A A A B B B相似,存在可逆矩阵 P P P使得 P − 1 A P = B P^{-1}AP \ = B P1AP =B,那么 A A A B B B的特征多项式 ∣ A − λ E ∣ \vert A - \lambda E\vert AλE ∣ B − λ E ∣ \vert B - \lambda E\vert BλE是相等的。这是因为 ∣ B − λ E ∣ = ∣ P − 1 A P − λ E ∣ = ∣ P − 1 ( A − λ E ) P ∣ \vert B - \lambda E\vert \ = \vert P^{-1}AP - \lambda E\vert \ = \vert P^{-1}(A - \lambda E)P\vert BλE =P1APλE =P1(AλE)P,根据行列式的性质 ∣ P − 1 ( A − λ E ) P ∣ = ∣ P − 1 ∣ ∣ A − λ E ∣ ∣ P ∣ \vert P^{-1}(A - \lambda E)P\vert \ = \vert P^{-1}\vert\vert A - \lambda E\vert\vert P\vert P1(AλE)P =P1∣∣AλE∣∣P,又因为 ∣ P − 1 ∣ ∣ P ∣ = 1 \vert P^{-1}\vert\vert P\vert \ = 1 P1∣∣P =1,所以 ∣ B − λ E ∣ = ∣ A − λ E ∣ \vert B - \lambda E\vert \ = \vert A - \lambda E\vert BλE =AλE,进而 A A A B B B有相同的特征值。这一性质在矩阵的变换和分类中非常关键,相似矩阵由于特征值相同,在很多与特征值相关的性质和应用上表现出一致性。
  2. 行列式相等:相似矩阵的行列式相等。因为 ∣ B ∣ = ∣ P − 1 A P ∣ = ∣ P − 1 ∣ ∣ A ∣ ∣ P ∣ = ∣ A ∣ \vert B\vert \ = \vert P^{-1}AP\vert \ = \vert P^{-1}\vert\vert A\vert\vert P\vert \ = \vert A\vert B =P1AP =P1∣∣A∣∣P =A(依据行列式的性质 ∣ A B ∣ = ∣ A ∣ ∣ B ∣ \vert AB\vert \ = \vert A\vert\vert B\vert AB =A∣∣B以及 ∣ P − 1 ∣ ∣ P ∣ = 1 \vert P^{-1}\vert\vert P\vert \ = 1 P1∣∣P =1)。这意味着相似矩阵在行列式相关的运算和性质上是等价的,例如在判断矩阵是否可逆时,相似矩阵具有相同的可逆性(因为可逆矩阵的行列式不为零,相似矩阵行列式相等,所以要么都可逆,要么都不可逆)。
  3. 迹相等:相似矩阵的迹相等。由于相似矩阵特征值相同,而特征值的和等于矩阵的迹,所以相似矩阵的迹必然相等。即若 A A A B B B相似, t r ( A ) = t r ( B ) tr(A)\ =tr(B) tr(A) =tr(B)。这一性质在一些需要比较矩阵特征的场景中很有用,比如在判断两个矩阵是否可能相似时,迹是否相等可以作为一个初步的判断条件。

六、伴随矩阵与转置矩阵的特征值

(一)伴随矩阵的特征值

对于矩阵 A A A,当 A A A可逆时,其伴随矩阵 A ∗ A^* A满足 A ∗ = ∣ A ∣ A − 1 A^* \ = \vert A\vert A^{-1} A =AA1。假设 λ \lambda λ A A A的特征值, ξ \xi ξ是对应的特征向量,即 A ξ = λ ξ A\xi \ = \lambda\xi Aξ =λξ ξ ≠ 0 \xi\neq0 ξ=0)。两边同时左乘 A ∗ A^* A,得到 A ∗ A ξ = A ∗ λ ξ A^*A\xi \ = A^*\lambda\xi AAξ =Aλξ。又因为 A ∗ A = ∣ A ∣ E A^*A \ = \vert A\vert E AA =AE,所以 ∣ A ∣ ξ = λ A ∗ ξ \vert A\vert\xi \ = \lambda A^*\xi Aξ =λAξ,则 A ∗ ξ = ∣ A ∣ λ ξ A^*\xi \ = \frac{\vert A\vert}{\lambda}\xi Aξ =λAξ λ ≠ 0 \lambda\neq0 λ=0)。这表明当 λ \lambda λ是可逆矩阵 A A A的非零特征值时, ∣ A ∣ λ \frac{\vert A\vert}{\lambda} λA A ∗ A^* A的特征值。例如,若 A A A是一个 3 3 3阶可逆矩阵, ∣ A ∣ = 6 \vert A\vert \ = 6 A =6 A A A的一个特征值为 2 2 2,那么 A ∗ A^* A对应有一个特征值为 6 2 = 3 \frac{6}{2}\ =3 26 =3

λ = 0 \lambda \ = 0 λ =0时,情况较为特殊。若 0 0 0 A A A的特征值,则 A A A不可逆(因为可逆矩阵的特征值都不为 0 0 0),此时需要根据 A A A的秩等信息进一步分析 A ∗ A^* A的特征值情况。若 r ( A ) < n − 1 r(A)<n - 1 r(A)<n1 n n n为矩阵 A A A的阶数),则 A ∗ A^* A的所有元素都为 0 0 0,即 A ∗ = 0 A^* \ = 0 A =0 0 0 0 A ∗ A^* A n n n重特征值;若 r ( A ) = n − 1 r(A)\ =n - 1 r(A) =n1 A ∗ A^* A的秩为 1 1 1 0 0 0 A ∗ A^* A n − 1 n - 1 n1重特征值,另一个非零特征值可通过其他方法计算。

(二)伴随矩阵与转置矩阵特征值的关系

A A A的伴随矩阵 A ∗ A^* A A A A的转置矩阵 A T A^T AT的特征值相同。这是因为 ∣ A T − λ E ∣ = ∣ ( A − λ E ) T ∣ \vert A^T - \lambda E\vert \ = \vert (A - \lambda E)^T\vert ATλE =(AλE)T,根据行列式的性质 ∣ A T ∣ = ∣ A ∣ \vert A^T\vert \ = \vert A\vert AT =A,可得 ∣ ( A − λ E ) T ∣ = ∣ A − λ E ∣ \vert (A - \lambda E)^T\vert \ = \vert A - \lambda E\vert (AλE)T =AλE,所以 A A A A T A^T AT有相同的特征多项式,进而有相同的特征值。而 A ∗ A^* A A A A的特征值存在上述关系,所以在一定条件下, A ∗ A^* A A T A^T AT的特征值相同。这一关系在研究矩阵的各种变换和性质时提供了更多的思路和联系,例如在某些涉及伴随矩阵和转置矩阵的计算和证明中,可以利用它们特征值相同这一性质进行推导和简化。

七、矩阵 A A A及其相关矩阵的特征值与特征向量性质推导

(一) a A + b E aA + bE aA+bE a a a b b b为常数 )的特征值与特征向量

已知 λ \lambda λ是矩阵 A A A的特征值, ξ \xi ξ是对应的特征向量,即 A ξ = λ ξ A\xi \ = \lambda\xi Aξ =λξ
对于矩阵 a A + b E aA + bE aA+bE,计算 ( a A + b E ) ξ (aA + bE)\xi (aA+bE)ξ
( a A + b E ) ξ = a A ξ + b E ξ = a λ ξ + b ξ = ( a λ + b ) ξ \begin{align*} (aA + bE)\xi&\ =aA\xi + bE\xi\\ &\ =a\lambda\xi + b\xi\\ &\ =(a\lambda + b)\xi \end{align*} (aA+bE)ξ =aAξ+bEξ =ξ+bξ =(+b)ξ
根据特征值与特征向量的定义,满足 ( a A + b E ) ξ = μ ξ (aA + bE)\xi \ = \mu\xi (aA+bE)ξ =μξ μ \mu μ为特征值, ξ \xi ξ为特征向量)的 μ \mu μ就是 a A + b E aA + bE aA+bE的特征值,所以 a A + b E aA + bE aA+bE的特征值为 a λ + b a\lambda + b +b,且特征向量与 A A A相同,为 ξ \xi ξ。这表明对矩阵 A A A进行 a a a倍缩放并加上 b b b倍单位矩阵的变换后,其特征值也相应地进行 a a a倍缩放再加上 b b b的变换,而特征向量保持不变。

(二) A n A^n An n n n为正整数 )的特征值与特征向量

已知 A ξ = λ ξ A\xi \ = \lambda\xi Aξ =λξ,当 n = 2 n \ = 2 n =2时:
A 2 ξ = A ( A ξ ) = A ( λ ξ ) = λ A ξ = λ 2 ξ \begin{align*} A^2\xi&\ =A(A\xi)\\ &\ =A(\lambda\xi)\\ &\ =\lambda A\xi\\ &\ =\lambda^2\xi \end{align*} A2ξ =A(Aξ) =A(λξ) =λAξ =λ2ξ
假设当 n = k n \ = k n =k k k k为正整数)时, A k ξ = λ k ξ A^k\xi \ = \lambda^k\xi Akξ =λkξ成立。
n = k + 1 n \ = k + 1 n =k+1时:
A k + 1 ξ = A ( A k ξ ) = A ( λ k ξ ) = λ k A ξ = λ k + 1 ξ \begin{align*} A^{k + 1}\xi&\ =A(A^k\xi)\\ &\ =A(\lambda^k\xi)\\ &\ =\lambda^k A\xi\\ &\ =\lambda^{k + 1}\xi \end{align*} Ak+1ξ =A(Akξ) =A(λkξ) =λkAξ =λk+1ξ
由数学归纳法可知,对于任意正整数 n n n A n ξ = λ n ξ A^n\xi \ = \lambda^n\xi Anξ =λnξ。所以 A n A^n An的特征值为 λ n \lambda^n λn,特征向量为 ξ \xi ξ。这体现了矩阵幂次运算与特征值、特征向量之间的规律,矩阵 A A A n n n次幂的特征值是其原特征值的 n n n次幂,且特征向量在幂次变换下保持稳定。

(三) A − 1 A^{-1} A1 A A A可逆 )的特征值与特征向量

因为 A A A可逆,且 A ξ = λ ξ A\xi \ = \lambda\xi Aξ =λξ ξ ≠ 0 \xi\neq0 ξ=0),两边同时左乘 A − 1 A^{-1} A1
A − 1 A ξ = A − 1 λ ξ ξ = λ A − 1 ξ \begin{align*} A^{-1}A\xi&\ =A^{-1}\lambda\xi\\ \xi&\ =\lambda A^{-1}\xi \end{align*} A1Aξξ =A1λξ =λA1ξ
由于 λ ≠ 0 \lambda\neq0 λ=0(可逆矩阵的特征值不为 0 0 0),等式两边同时除以 λ \lambda λ,得到 A − 1 ξ = 1 λ ξ A^{-1}\xi \ = \frac{1}{\lambda}\xi A1ξ =λ1ξ。所以 A − 1 A^{-1} A1的特征值为 1 λ \frac{1}{\lambda} λ1,特征向量为 ξ \xi ξ。这表明可逆矩阵 A A A的逆矩阵的特征值是 A A A特征值的倒数,且矩阵 A A A与其逆矩阵 A − 1 A^{-1} A1具有相同的特征向量,反映了可逆矩阵与其逆矩阵在特征向量性质上的紧密联系。

(四) A T A^T AT A A A的转置矩阵 )的特征值

已知 A A A A T A^T AT的特征多项式分别为 ∣ A − λ E ∣ \vert A - \lambda E\vert AλE ∣ A T − λ E ∣ \vert A^T - \lambda E\vert ATλE
根据行列式的性质:对于任意矩阵 M M M ∣ M T ∣ = ∣ M ∣ \vert M^T\vert \ = \vert M\vert MT =M
对于 M = A − λ E M \ = A - \lambda E M =AλE,有 ∣ A T − λ E ∣ = ∣ ( A − λ E ) T ∣ = ∣ A − λ E ∣ \vert A^T - \lambda E\vert \ = \vert (A - \lambda E)^T\vert \ = \vert A - \lambda E\vert ATλE =(AλE)T =AλE
因为特征多项式相等,所以 A A A A T A^T AT有相同的特征值。但需要注意的是,虽然 A A A A T A^T AT特征值相同,它们的特征向量一般不同。这是因为矩阵转置后,其对向量的变换方式在空间中的表现有所不同,导致满足特征向量定义的向量集合通常不一致。

八、总结

本教程全面且深入地讲解了线性代数中特征值与特征向量的求解方法,包括从特征方程出发求特征值,以及通过代入方程组细致求解特征向量的过程,同时强调了求解特征向量时要涵盖所有情况。对于相似对角化,我们详细阐述了其基础概念、判断条件、具体步骤以及 P P P矩阵可逆性的重要意义。此外,还深入探讨了特征值与相似矩阵的诸多性质,以及伴随矩阵与转置矩阵特征值的特点和关系,并对矩阵 A A A及其相关矩阵的特征值与特征向量性质进行了详细推导。

特征值、特征向量以及相似对角化作为线性代数的核心内容,不仅在理论体系中占据关键地位,而且在实际应用中有着广泛的用途。希望读者通过本教程能够深入理解这些知识,熟练掌握相关的计算和判断方法,为后续在数学、物理、工程、计算机科学等多个领域的学习和研究打下坚实的基础。在学习过程中,建议读者多做练习题,通过实际操作加深对这些概念和方法的理解和运用能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/70847.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大模型数据集全面整理:444个数据集下载地址

本文针对Datasets for Large Language Models: A Comprehensive Survey 中的 444 个数据集&#xff08;涵盖8种语言类别和32个领域&#xff09;进行完整下载地址整理收集。 2024-02-28&#xff0c;由杨刘、曹家欢、刘崇宇、丁凯、金连文等作者编写&#xff0c;深入探讨了大型语…

2025届优秀大数据毕业设计

【2025计算机毕业设计】计算机毕业设计100个高通过率选题推荐&#xff0c;毕业生毕设必看选题指导&#xff0c;计算机毕业设计选题讲解&#xff0c;毕业设计选题详细指导_哔哩哔哩_bilibili 985华南理工大学学长 大厂全栈&#xff0c;大数据开发工程师 专注定制化开发

免费在腾讯云Cloud Studio部署DeepSeek-R1大模型

2024年2月2日&#xff0c;腾讯云宣布DeepSeek-R1大模型正式支持一键部署至腾讯云HAI&#xff08;高性能应用服务&#xff09;。开发者仅需3分钟即可完成部署并调用模型&#xff0c;大幅简化了传统部署流程中买卡、装驱动、配网络、配存储、装环境、装框架、下载模型等繁琐步骤。…

【C++高并发服务器WebServer】-17:阻塞/非阻塞和同步/异步、五种IO模型、Web服务器

本文目录 一、阻塞/非阻塞、同步/异步1.1 辨析1.2 异步io接口 二、五种IO模型2.1 阻塞 blocking 模型2.2 非阻塞 NIO 模型2.3 IO多路复用2.4 信号驱动Signal-driven2.5 异步 三、Web Sever 网页服务器3.1 HTTP的请求响应步骤3.2 HTTP请求与响应报文格式3.3 HTTP请求方法3.4 HTT…

【MySQL例题】我在广州学Mysql 系列——有关数据备份与还原的示例

ℹ️大家好&#xff0c;我是练小杰&#xff0c;今天周二&#xff0c;明天就是元宵节了呀&#xff01;&#xff01;&#x1f606; 俗话说“众里寻他千百度。蓦然回首&#xff0c;那人却在&#xff0c;灯火阑珊处。” 本文主要对数据库备份与还原的知识点例题学习~~ 前情回顾&…

自动化xpath定位元素(附几款浏览器xpath插件)

在 Web 自动化测试、数据采集、前端调试中&#xff0c;XPath 仍然是不可或缺的技能。虽然 CSS 选择器越来越强大&#xff0c;但面对复杂 DOM 结构时&#xff0c;XPath 仍然更具灵活性。因此&#xff0c;掌握 XPath&#xff0c;不仅能提高自动化测试的稳定性&#xff0c;还能在爬…

【并发控制、更新、版本控制】.NET开源ORM框架 SqlSugar 系列

系列文章目录 &#x1f380;&#x1f380;&#x1f380; .NET开源 ORM 框架 SqlSugar 系列 &#x1f380;&#x1f380;&#x1f380; 文章目录 系列文章目录一、并发累计&#xff08;累加&#xff09;1.1 单条批量累计1.2 批量更新并且字段11.3 批量更新并且字段list中对应的…

数据存储和操作:数据管理的基石

在数据管理的庞大体系中&#xff0c;数据存储和操作是确保数据可用性和完整性的关键环节。它不仅涉及数据的物理存储&#xff0c;还包括数据的管理、维护和优化。今天&#xff0c;让我们深入《DAMA数据管理知识体系指南&#xff08;第二版&#xff09;》的第六章&#xff0c;一…

Redis 数据类型 Hash 哈希

在 Redis 中&#xff0c;哈希类型是指值本⾝⼜是⼀个键值对结构&#xff0c;形如 key "key"&#xff0c;value { { field1, value1 }, ..., {fieldN, valueN } }&#xff0c;Redis String 和 Hash 类型⼆者的关系可以⽤下图来表⽰。 Hash 数据类型的特点 键值对集合…

支持向量机原理

支持向量机&#xff08;简称SVM&#xff09;虽然诞生只有短短的二十多年&#xff0c;但是自一诞生便由于它良好的分类性能席卷了机器学习领域。如果不考虑集成学习的算法&#xff0c;不考虑特定的训练数据集&#xff0c;尤其在分类任务中表现突出。在分类算法中的表现SVM说是排…

zy.21

PHP(续) PHP代码执行漏洞 1.PHP中代码漏洞的概念 代码执行漏洞就是在代码中若存在eval、assert等能将所接收的参数作为代码去执行,并且拼接的内容可被访问者控制,也就是把传入的参数给拼接进去了,造成了额外的代码执行,也就造成了代码执行漏洞。&#xff08;大概原理&#x…

LSTM 学习笔记 之pytorch调包每个参数的解释

0、 LSTM 原理 整理优秀的文章 LSTM入门例子&#xff1a;根据前9年的数据预测后3年的客流&#xff08;PyTorch实现&#xff09; [干货]深入浅出LSTM及其Python代码实现 整理视频 李毅宏手撕LSTM [双语字幕]吴恩达深度学习deeplearning.ai 1 Pytorch 代码 这里直接调用了nn.l…

React - 事件绑定this

在 React 中&#xff0c;this 的绑定是一个常见问题&#xff0c;尤其在类组件中使用事件处理函数时。JavaScript 中的 bind 函数用于设置函数调用时 this 的值。 bind 函数的作用 bind() 方法创建一个新的函数&#xff0c;当被调用时&#xff0c;其 this 关键字被设置为提供的…

Web3 的虚实融合之路:从虚拟交互到元宇宙构建

在这个数字技术日新月异的时代&#xff0c;我们正站在 Web3 的门槛上&#xff0c;见证着互联网的又一次革命。Web3 不仅仅是技术的迭代&#xff0c;它代表了一种全新的交互方式和价值创造模式。本文将探讨 Web3 如何推动虚拟交互的发展&#xff0c;并最终实现元宇宙的构建&…

Kafka简单使用

说明&#xff1a;kafka是一款消息中间件&#xff0c;可实现微服务之间的异步调用。本文介绍kafka的简单使用。windows操作系统下的kafka安装&#xff0c;参考下面这篇文章 Kafka安装 启动 按照上面博客的介绍&#xff0c;使用CMD命令启动&#xff0c;如下&#xff1a; Demo …

【原创精品】基于Springboot3+Vue3的学习计划管理系统

大家好&#xff0c;我是武哥&#xff0c;最近给大家手撸了一个基于SpringBoot3Vue3的学习计划管理系统&#xff0c;可用于毕业设计、课程设计、练手学习&#xff0c;系统全部原创&#xff0c;如有遇到网上抄袭站长的&#xff0c;欢迎联系博主~ 项目演示视频 https://www.bili…

C++引用深度详解

C引用深度详解 前言1. 引用的本质与核心特性1.1 引用概念1.2 核心特性 2. 常引用与权限控制2.1 权限传递规则2.2 常量引用2.3 临时变量保护1. 样例2. 样例3. 测试 三、引用使用场景分析3.1 函数参数传递输出型参数避免多级指针高效传参 3.2 做函数返回值正确使用危险案例 4. 性…

本地部署Deepseek R1

使用Ollama open-webui部署Deepseek R1 一、安装Ollama 官网地址&#xff1a;https://ollama.com/&#xff0c;点击下载按钮选择windows版本。并安装 打开命令提示符输入ollama&#xff0c;出现一下提示命令表示ollama安装完成 二、使用Ollama下载deepseek R1不同模型 打开o…

MATLAB 生成脉冲序列 pulstran函数使用详解

MATLAB 生成脉冲序列 pulstran函数使用详解 目录 前言 一、参数说明 二、示例一 三、示例二 总结 前言 MATLAB中的pulstran函数用于生成脉冲序列&#xff0c;支持连续或离散脉冲。该函数通过将原型脉冲延迟并相加&#xff0c;生成脉冲序列&#xff0c;适用于信号处理和系统…

机器学习(李宏毅)——self-Attention

一、前言 本文章作为学习2023年《李宏毅机器学习课程》的笔记&#xff0c;感谢台湾大学李宏毅教授的课程&#xff0c;respect&#xff01;&#xff01;&#xff01; 二、大纲 何为self-Attention&#xff1f;原理剖析self-Attention VS CNN、RNN、GNN 三、何为self-Attenti…