矩阵论(三):矩阵分解

您所在的位置:网站首页 矩阵分解是否唯一 矩阵论(三):矩阵分解

矩阵论(三):矩阵分解

2024-02-23 23:59| 来源: 网络整理| 查看: 265

矩阵论专栏:专栏(文章按照顺序排序)

Schur分解、特征值分解、奇异值分解是三种联系十分紧密的矩阵分解,它们的关系是 S c h u r → E V D → S V D Schur\rightarrow{}EVD\rightarrow{}SVD Schur→EVD→SVD,也就是说由Schur分解可以推导出EVD,再推导出SVD。本篇博客和下篇博客按照主线 S c h u r → E V D → S V D Schur\rightarrow{}EVD\rightarrow{}SVD Schur→EVD→SVD依次介绍这三种矩阵分解,同时也通过一些例子介绍它们各自在理论上的应用(能够解决矩阵论中的哪些问题,推出哪些结论)。

本篇博客讨论Schur分解以及利用Schur分解能够解决的若干问题。下篇博客(链接)讨论特征值分解EVD和奇异值分解SVD的相关内容。

本文内容以线性代数知识为基础(主要是特征值和相似的知识): 矩阵论(零):线性代数基础知识整理(1)——逆矩阵、初等变换、满秩分解 矩阵论(零):线性代数基础知识整理(2)——矩阵的秩与向量组的秩 矩阵论(零):线性代数基础知识整理(3)——矩阵的秩与向量组的秩 矩阵论(零):线性代数基础知识整理(4)——线性空间与线性变换 矩阵论(零):线性代数基础知识整理(5)——特征值与相似

Schur分解 Schur定理 Schur分解与矩阵的特征值 Schur分解与矩阵的可逆性 Schur分解与矩阵的幂 幂零矩阵 方阵幂的秩 收敛矩阵 Schur分解与矩阵的多项式/级数 Hamilton-Cayley定理 Neumann级数 实矩阵的Schur分解(拓展内容) Schur分解(任意方阵) Schur定理

Schur分解是最基本的矩阵分解之一,在矩阵分析中作为重要的理论工具,能够将一般方阵转化成上三角矩阵来研究。Schur分解可以用来求解非对称矩阵的特征值,求不可对角化方阵的幂等。此外,Schur分解也是推导EVD和SVD的一个有效途径。 下面是酋矩阵的基本性质,是理解Schur分解的证明所必须掌握的。

如果A是一个n阶酋矩阵,那么 [ 1 0 T 0 A ] \begin{bmatrix}1&0^T\\0&A\end{bmatrix} [10​0TA​]是一个 n + 1 n+1 n+1阶酋矩阵(由列向量组单位正交就可以证明) 如果A和B是同阶酋矩阵,则 A B AB AB也是酋矩阵(由酋矩阵的定义即证)

现在,我们就来看任意方阵存在Schur分解是如何证明的:

定理1(Schur定理):设 A ∈ C n × n A\in{C^{n\times{n}}} A∈Cn×n,则存在n阶上三角矩阵T和n阶酋矩阵U使得 U H A U = T U^HAU=T UHAU=T 证明:(对A的阶数n进行归纳) 当n=1时,A本身就是一个上三角矩阵,取1阶酋矩阵 [ 1 ] \begin{bmatrix}1\end{bmatrix} [1​]即知结论成立。假定结论对n-1阶方阵成立,下面证明结论对n阶方阵也成立。 取A的特征值 λ 1 \lambda_1 λ1​和对应的单位特征向量 u 1 u_1 u1​,即 A u 1 = λ 1 u 1 Au_1=\lambda_1u_1 Au1​=λ1​u1​且 ∣ ∣ u 1 ∣ ∣ 2 = 1 ||u_1||_2=1 ∣∣u1​∣∣2​=1。由扩充定理及Gram-schmidt正交化方法知,可将 u 1 u_1 u1​扩充为 C n C^n Cn的一组标准正交基,以这组基为矩阵 U 1 U_1 U1​的列向量组,其中 u 1 u_1 u1​为第一列,则 U 1 U_1 U1​是酋矩阵。计算可得 U 1 H A U 1 = [ λ 1 ⋯ 0 A 1 ] U_1^HAU_1=\begin{bmatrix}\lambda_1&\cdots\\0&A_1\end{bmatrix} U1H​AU1​=[λ1​0​⋯A1​​]其中 A 1 A_1 A1​是一个n-1阶方阵。根据归纳假设,存在n-1阶酋矩阵 W W W使得 W H A 1 W = [ λ 2 ⋯ ∗ ⋱ ⋮ λ n ] W^HA_1W=\begin{bmatrix}\lambda_2&\cdots&*\\&\ddots&\vdots\\&&\lambda_n\end{bmatrix} WHA1​W=⎣⎢⎡​λ2​​⋯⋱​∗⋮λn​​⎦⎥⎤​设 U 2 = [ 1 0 T 0 W ] U_2=\begin{bmatrix}1&0^T\\0&W\end{bmatrix} U2​=[10​0TW​],则 U 2 U_2 U2​是酋矩阵。设 U = U 1 U 2 U=U_1U_2 U=U1​U2​,则U也是酋矩阵。计算可得 U H A U = U 2 H ( U 1 H A U 1 ) U 2 = [ 1 0 T 0 W H ] [ λ 1 ⋯ 0 A 1 ] [ 1 0 T 0 W ] = [ λ 1 ⋯ ∗ ⋱ ⋮ λ n ] U^HAU=U_2^H(U_1^HAU_1)U_2\\=\begin{bmatrix}1&0^T\\0&W^H\end{bmatrix}\begin{bmatrix}\lambda_1&\cdots\\0&A_1\end{bmatrix}\begin{bmatrix}1&0^T\\0&W\end{bmatrix}=\begin{bmatrix}\lambda_1&\cdots&*\\&\ddots&\vdots\\&&\lambda_n\end{bmatrix} UHAU=U2H​(U1H​AU1​)U2​=[10​0TWH​][λ1​0​⋯A1​​][10​0TW​]=⎣⎢⎡​λ1​​⋯⋱​∗⋮λn​​⎦⎥⎤​得证。 Schur分解与矩阵的特征值 定理2:设n阶方阵A的Schur分解为 A = U T U H A=UTU^H A=UTUH,则 λ \lambda λ是A的特征值的充要条件为 λ \lambda λ在T的主对角线上,且A的每一个特征值的代数重数等于其在T的主对角线上出现的次数 证: 注意到A与T相似(酋相似是相似的一种特殊情况),故A的特征值都是T的特征值,T的特征值也都是A的特征值,且A和T的同一个特征值的代数重数相等。又因为T是上三角矩阵,取T的全部主对角元就得到了A的全部特征值,且A的任意特征值的代数重数就等于该特征值在T的主对角线上出现的次数。

需要知道的一点是,设 A ∈ C n × n A\in C^{n\times n} A∈Cn×n的全部特征值为 λ 1 , λ 2 , . . . , λ n \lambda_1,\lambda_2,...,\lambda_n λ1​,λ2​,...,λn​,则对这 n n n个特征值的任意排列顺序 λ i 1 , λ i 2 , . . . , λ i n \lambda_{i_1},\lambda_{i_2},...,\lambda_{i_n} λi1​​,λi2​​,...,λin​​( i 1 , i 2 , . . . , i n i_1,i_2,...,i_n i1​,i2​,...,in​是 1 , 2 , . . . , n 1,2,...,n 1,2,...,n的一个排列),都存在上三角阵 T T T以及相应的酋矩阵 U U U使得 A = U T U H A=UTU^H A=UTUH,满足 T T T的主对角线元素从上到下依次为 λ i 1 , λ i 2 , . . . , λ i n \lambda_{i_1},\lambda_{i_2},...,\lambda_{i_n} λi1​​,λi2​​,...,λin​​。 这一点可以从定理1的证明过程中看出来。在构造酋矩阵 U 1 U_1 U1​时,我们是先选取了A的一个特征值 λ 1 \lambda_1 λ1​和对应的单位特征向量 u 1 u_1 u1​,而这里 λ 1 \lambda_1 λ1​选择的是 A A A的哪个特征值都无所谓,我们当然可以选择 λ i 1 \lambda_{i_1} λi1​​作为这里的 λ 1 \lambda_1 λ1​。同理,在递归地进行 n − 1 n-1 n−1阶方阵 A 1 A_1 A1​的Schur分解构造时,我们也会选择 A 1 A_1 A1​的一个特征值(注意根据式 U 1 H A U 1 = [ λ 1 ⋯ 0 A 1 ] U_1^HAU_1=\begin{bmatrix}\lambda_1&\cdots\\0&A_1\end{bmatrix} U1H​AU1​=[λ1​0​⋯A1​​]可知 A A A的特征值是 λ 1 \lambda_1 λ1​加上 A 1 A_1 A1​的n-1个特征值),此时选择 λ i 2 \lambda_{i_2} λi2​​就可以了。如此归纳地选择下去即可。

定理3:设 A ∈ C n × n A\in C^{n\times n} A∈Cn×n, A A A的n个特征值(重特征值按重数算)为 λ 1 , λ 2 , . . . , λ n \lambda_1,\lambda_2,...,\lambda_n λ1​,λ2​,...,λn​,则 A k ( k = 1 , 2 , . . . ) A^k(k=1,2,...) Ak(k=1,2,...)的n个特征值为 λ 1 k , λ 2 k , . . . , λ n k \lambda_1^k,\lambda_2^k,...,\lambda_n^k λ1k​,λ2k​,...,λnk​ 证: 设 A A A的一个Schur分解为 A = U T U H A=UTU^H A=UTUH,上三角矩阵 T T T的主对角元依次为 λ 1 , λ 2 , . . . , λ n \lambda_1,\lambda_2,...,\lambda_n λ1​,λ2​,...,λn​。则由 A k = ( U T U H ) k = U T k U H A^k=(UTU^H)^k=UT^kU^H Ak=(UTUH)k=UTkUH知, A k A^k Ak的n个特征值为 λ 1 k , λ 2 k , . . . , λ n k \lambda_1^k,\lambda_2^k,...,\lambda_n^k λ1k​,λ2k​,...,λnk​。 【注】这个定理的重要意义在于说明方阵 A A A的特征值 λ \lambda λ的代数重数与 A k A^k Ak的特征值 λ k \lambda^k λk的代数重数是有关系的。例如,若 A A A的特征值为 2 , 2 , 3 2,2,3 2,2,3,则由上述定理可得 A 3 A^3 A3的特征值为 2 3 , 2 3 , 3 3 2^3,2^3,3^3 23,23,33,其中 A 3 A^3 A3的特征值 2 3 2^3 23的代数重数是2,恰好等于 A A A的特征值 2 2 2的代数重数。但需要注意的是, A A A和 A k A^k Ak的相应特征值的代数重数并不总是相等。例如,若 A A A的特征值为 − 2 , 2 , 3 -2,2,3 −2,2,3,则 A 2 A^2 A2的特征值为 4 , 4 , 9 4,4,9 4,4,9, A A A有三个不同的特征值,但 A 2 A^2 A2只有两个不同的特征值。

定理4:设 A ∈ C n × n A\in C^{n\times n} A∈Cn×n,则 A A A的任意特征值 λ \lambda λ的几何重数小于等于代数重数 证: 设 A A A的一个Schur分解为 A = U T U H A=UTU^H A=UTUH, λ \lambda λ是 A A A的一个代数重数为 m 1 m_1 m1​的特征值,其几何重数为 m 2 m_2 m2​。考虑线性方程组 ( λ I − A ) x = 0 (\lambda I-A)x=0 (λI−A)x=0,即 U ( λ I − T ) U H x = 0 U(\lambda I-T)U^Hx=0 U(λI−T)UHx=0,由于 λ I − T \lambda I-T λI−T的对角线上恰有 m 1 m_1 m1​个0,即有 n − m 1 n-m_1 n−m1​个元素非零,故 r ( λ I − T ) ⩾ n − m 1 r(\lambda I-T)\geqslant n-m_1 r(λI−T)⩾n−m1​,于是 ( λ I − A ) x = 0 (\lambda I-A)x=0 (λI−A)x=0的基础解系有 n − r ( λ I − A ) = n − r ( λ I − T ) ⩽ m 1 n-r(\lambda I-A)=n-r(\lambda I-T)\leqslant m_1 n−r(λI−A)=n−r(λI−T)⩽m1​个向量,即 λ \lambda λ的几何重数小于等于代数重数。 【注】该定理是方阵特征值的基本性质之一,线性代数教材中常用的方法是使用扩充定理将特征子空间的基扩充为 C n C^n Cn的基,以基向量为列构造可逆矩阵 P P P,将原问题转化为探讨 P − 1 A P P^{-1}AP P−1AP的特征值的重数问题。个人认为Schur分解给出了一个更直观的角度。

Schur分解与矩阵的可逆性

【注】使用特征多项式讨论特征值,也能得到下面的结果。

定理5: ∀ A ∈ C n × n , ∃ t 0 ∈ R , ∀ t > t 0 \forall{A}\in{C^{n\times{n}}},\exist{t_0\in{R}},\forall{t\gt{t_0}} ∀A∈Cn×n,∃t0​∈R,∀t>t0​有 t I + A tI+A tI+A可逆 证: 设A的Schur分解为 A = U T U H A=UTU^H A=UTUH,记T的主对角元中实部最小的是 λ \lambda λ(即A的所有特征值中实部最小的),令 t 0 = − R e { λ } t_0=-Re\{\lambda\} t0​=−Re{ λ}。因为 t I + A = U ( t I + T ) U H tI+A=U(tI+T)U^H tI+A=U(tI+T)UH,且上三角矩阵 t I + T tI+T tI+T的主对角元的实部均不小于 t + R e { λ } t+Re\{\lambda\} t+Re{ λ},而 t + R e { λ } > t 0 + R e { λ } = 0 t+Re\{\lambda\}\gt{}t_0+Re\{\lambda\}=0 t+Re{ λ}>t0​+Re{ λ}=0,故 t I + T tI+T tI+T的主对角元均不为零,故 t I + T tI+T tI+T的行列式不为零,故 t I + T tI+T tI+T可逆,故 t I + A tI+A tI+A可逆。

上述定理说明只要常数t取得充分大,就能使得 t I + A tI+A tI+A可逆,即使A本身是不可逆的。实际上,不但t可以取得充分大,t还可以取得充分小:

定理6: ∀ A ∈ C n × n , ∃ t 0 > 0 , ∀ 0 < t < t 0 \forall{A}\in{C^{n\times{n}}},\exist{t_0>0},\forall{0\lt{t}\lt{t_0}} ∀A∈Cn×n,∃t0​>0,∀0


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3