矩阵的二次型,矩阵的迹、正定矩阵、Hessian矩阵、实对称

您所在的位置:网站首页 什么是二次型的矩阵表达式 矩阵的二次型,矩阵的迹、正定矩阵、Hessian矩阵、实对称

矩阵的二次型,矩阵的迹、正定矩阵、Hessian矩阵、实对称

#矩阵的二次型,矩阵的迹、正定矩阵、Hessian矩阵、实对称| 来源: 网络整理| 查看: 265

一、二次型: 1.1 定义

含有 n n n个变量 x 1 , x 2 , … , x n x_1,x_2,\dots,x_n x1​,x2​,…,xn​的二次齐次函数(如果变量乘以一个系数,则新函数会是原函数再乘上系数的某次方倍):

f ( x 1 , x 2 , … , x n ) = a 11 x 1 2 + a 22 x 2 2 + ⋯ + a n n x n 2 + 2 a 12 x 1 x 2 + 2 a 13 x 1 x 3 + ⋯ + 2 a n − 1 , n x n − 1 x n f(x_1,x_2,\dots,x_n)=a_{11}x_1^2+a_{22}x_2^2+\dots+a_{nn}x_n^2+2a_{12}x_1x_2+2a_{13}x_1x_3+\dots+2a_{n-1,n}x_{n-1}x_n f(x1​,x2​,…,xn​)=a11​x12​+a22​x22​+⋯+ann​xn2​+2a12​x1​x2​+2a13​x1​x3​+⋯+2an−1,n​xn−1​xn​

称为二次型。

取 a i j = a j i a_{ij}=a_{ji} aij​=aji​,则 2 a i j x i x j = a i j x i x j + a j i x j x i 2a_{ij}x_ix_j=a_{ij}x_ix_j+a_{ji}x_jx_i 2aij​xi​xj​=aij​xi​xj​+aji​xj​xi​,于是上式可写成:

f = a 11 x 1 2 + a 12 x 1 x 2 + ⋯ + a 1 n x 1 x n + a 21 x 2 x 1 + a 22 x 2 2 + ⋯ + a 2 n x 2 x n + … + a n 1 x n x 1 + a n 2 x n x 2 + ⋯ + a n n x n 2 = ∑ i , j = 1 n a i j x i x j f=a_{11}x_1^2+a_{12}x_1x_2+\dots+a_{1n}x_1x_n\\\quad\quad+a_{21}x_2x_1+a_{22}x_2^2+\dots+a_{2n}x_2x_n\\\quad\quad+\dots\\\quad\quad+a_{n1}x_nx_1+a_{n2}x_nx_2+\dots+a_{nn}x_n^2\\\quad=\sum\limits_{i,j=1}^na_{ij}x_ix_j f=a11​x12​+a12​x1​x2​+⋯+a1n​x1​xn​+a21​x2​x1​+a22​x22​+⋯+a2n​x2​xn​+…+an1​xn​x1​+an2​xn​x2​+⋯+ann​xn2​=i,j=1∑n​aij​xi​xj​

由上式,利用矩阵,二次型可表示为:

f = x 1 ( a 11 x 1 + a 12 x 2 + ⋯ + a 1 n x n ) + x 2 ( a 21 x 1 + a 22 x 2 + ⋯ + a 2 n x n ) + … + x n ( a n 1 x 1 + a x 2 x 2 + ⋯ + a n n x n ) = ( x 1 , x 2 , … , x n ) [ a 11 x 1 + a 12 x 2 + ⋯ + a 1 n x n a 21 x 1 + a 22 x 2 + ⋯ + a 2 n x n ⋮ a n 1 x 1 + a x 2 x 2 + ⋯ + a n n x n ] = ( x 1 , x 2 , … , x n ) [ a 11 a 12 … a 1 n a 21 a 22 … a 2 n ⋮ a n 1 a x 2 … a n n ] [ x 1 x 2 ⋮ x n ] f=x_1(a_{11}x_1+a_{12}x_2+\dots+a_{1n}x_n)\\\quad\quad+x_2(a_{21}x_1+a_{22}x_2+\dots+a_{2n}x_n)\\\quad\quad+\dots\\\quad\quad+x_n(a_{n1}x_1+a_{x2}x_2+\dots+a_{nn}x_n)\\\quad=(x_1,x_2,\dots,x_n)\begin{bmatrix} a_{11}x_1+a_{12}x_2+\dots+a_{1n}x_n \\ a_{21}x_1+a_{22}x_2+\dots+a_{2n}x_n \\ \vdots \\ a_{n1}x_1+a_{x2}x_2+\dots+a_{nn}x_n \end{bmatrix}\\\quad=(x_1,x_2,\dots,x_n)\begin{bmatrix} a_{11}&a_{12}&\dots&a_{1n} \\ a_{21}&a_{22}&\dots&a_{2n} \\ \vdots \\ a_{n1}&a_{x2}&\dots&a_{nn} \end{bmatrix}\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix} f=x1​(a11​x1​+a12​x2​+⋯+a1n​xn​)+x2​(a21​x1​+a22​x2​+⋯+a2n​xn​)+…+xn​(an1​x1​+ax2​x2​+⋯+ann​xn​)=(x1​,x2​,…,xn​)⎣⎢⎢⎢⎡​a11​x1​+a12​x2​+⋯+a1n​xn​a21​x1​+a22​x2​+⋯+a2n​xn​⋮an1​x1​+ax2​x2​+⋯+ann​xn​​⎦⎥⎥⎥⎤​=(x1​,x2​,…,xn​)⎣⎢⎢⎢⎡​a11​a21​⋮an1​​a12​a22​ax2​​………​a1n​a2n​ann​​⎦⎥⎥⎥⎤​⎣⎢⎢⎢⎡​x1​x2​⋮xn​​⎦⎥⎥⎥⎤​

记:

A = [ a 11 a 12 … a 1 n a 21 a 22 … a 2 n ⋮ a n 1 a x 2 … a n n ] , x = [ x 1 x 2 ⋮ x n ] A=\begin{bmatrix} a_{11}&a_{12}&\dots&a_{1n} \\ a_{21}&a_{22}&\dots&a_{2n} \\ \vdots \\ a_{n1}&a_{x2}&\dots&a_{nn} \end{bmatrix},x=\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix} A=⎣⎢⎢⎢⎡​a11​a21​⋮an1​​a12​a22​ax2​​………​a1n​a2n​ann​​⎦⎥⎥⎥⎤​,x=⎣⎢⎢⎢⎡​x1​x2​⋮xn​​⎦⎥⎥⎥⎤​

则二次型可记作:

f = x T A x f=x^TAx f=xTAx

注意,对任何一个二次型函数,存在许多矩阵 A A A,它们的二次型相同。但是,只有唯一的一个对阵矩阵 A A A。因此,在讨论矩阵 A A A的二次型时,通常都假定 A A A为实对称矩阵或复共轭对称(即Hermitian)矩阵。

定义1.6.1:

一个复共轭对阵矩阵 A A A称为:

正定矩阵:二次型 x H A x > 0 , ∀ x ≠ 0 x^HAx>0,\forall x\ne0 xHAx>0,∀x​=0半正定矩阵:二次型 x H A x ≥ 0 , ∀ x ≠ 0 x^HAx\ge0,\forall x\ne0 xHAx≥0,∀x​=0(也称非负定的)负定矩阵:二次型 x H A x < 0 , ∀ x ≠ 0 x^HAx0 f(x)>0( f ( 0 ) = 0 ) f(0)=0) f(0)=0),则称 f f f为正定二次型,并称对称阵 A A A是正定的;如果对任何 x ≠ 0 x\ne0 x​=0都有 f ( x ) < 0 f(x)0 f(x)>0恒成立。即一元二次正定型对应的图像是开口向上,顶点在原点的抛物线,同理二元二次正定型 f ( x , y ) = x 2 + y 2 f(x,y)=x^2+y^2 f(x,y)=x2+y2对应的图像是开口向上,顶点在原点的抛物面。 在这里插入图片描述 拓展到n元正定二次型的图像也对应着一个抛物线,保证当自变量取值非零向量时,对应的函数值大于零恒成立

2.3 半正定矩阵 2.3.1 图像

同样我们可以给出二元半正定二次型的图像,即当某个自变量的特征值为0从而保证当自变量取值为非零向量时,对应的函数值大于等于0恒成立。 在这里插入图片描述

2.3.2 性质 半正定矩阵的行列式非负两个半正定矩阵的和是半正定的非负实数与半正定矩阵的数乘是半正定的半正定矩阵的特征值都是非负的 三、Hessian矩阵:

实值函数 f ( x ) f(x) f(x)相对于 m × 1 m\times1 m×1实向量 x x x的二阶偏导是一个由 m 2 m^2 m2个二阶偏导组成的矩阵(称为Hessian矩阵),定义为:

∂ 2 f ( x ) ∂ x ∂ x T {\partial^2f(x)}\over{\partial x\partial x^T} ∂x∂xT∂2f(x)​= ∂ ∂ x T \partial\over\partial x^T ∂xT∂​[ ∂ f ( x ) ∂ x \partial f(x)\over\partial x ∂x∂f(x)​]

或者简写为梯度的梯度:

∇ x 2 f ( x ) = ∇ x ( ∇ x f ( x ) ) \nabla^2_xf(x)=\nabla_x(\nabla_xf(x)) ∇x2​f(x)=∇x​(∇x​f(x))

根据定义,Hessian矩阵的第 j j j列是梯度 ∂ f ( x ) ∂ x \partial f(x)\over\partial x ∂x∂f(x)​= ∇ x f ( x ) \nabla_xf(x) ∇x​f(x)第 j j j个分量的梯度,即:

[ ∂ 2 f ( x ) ∂ x ∂ x T \partial^2f(x)\over\partial x\partial x^T ∂x∂xT∂2f(x)​]= ∂ 2 f ( x ) ∂ x i ∂ x j \partial^2f(x)\over\partial x_i\partial x_j ∂xi​∂xj​∂2f(x)​

其方块矩阵如下所示:

[ ∂ 2 f ∂ x 1 2 ∂ 2 f ∂ x 1 ∂ x 2 … ∂ 2 f ∂ x 1 ∂ x n ∂ 2 f ∂ x 2 ∂ x 1 ∂ 2 f ∂ x 2 2 … ∂ 2 f ∂ x 2 ∂ x n ⋮ ⋮ ⋱ ⋮ ∂ 2 f ∂ x n ∂ x 1 ∂ 2 f ∂ x n ∂ x 2 … ∂ 2 f ∂ x n 2 ] \begin {bmatrix} {\partial ^2f \over \partial x_1^2}& {\partial ^2f \over \partial x_1 \partial x_2}& \dots & {\partial ^2f \over \partial x_1 \partial x_n} \\ {\partial ^2f \over \partial x_2 \partial x_1}& {\partial ^2f \over \partial x_2^2}& \dots & {\partial ^2f \over \partial x_2 \partial x_n}\\ \vdots & \vdots &\ddots & \vdots \\ {\partial ^2f \over \partial x_n \partial x_1}& {\partial ^2f \over \partial x_n \partial x_2} & \dots & {\partial ^2f \over \partial x_n^2} \end {bmatrix} ⎣⎢⎢⎢⎢⎢⎡​∂x12​∂2f​∂x2​∂x1​∂2f​⋮∂xn​∂x1​∂2f​​∂x1​∂x2​∂2f​∂x22​∂2f​⋮∂xn​∂x2​∂2f​​……⋱…​∂x1​∂xn​∂2f​∂x2​∂xn​∂2f​⋮∂xn2​∂2f​​⎦⎥⎥⎥⎥⎥⎤​

因此,Hessian矩阵可以用两步法求出:

(1)求实值函数 f ( x ) f(x) f(x)关于向量变元 x x x的偏导数,得到实值函数的梯度 ∂ f ( x ) ∂ x \partial f(x)\over \partial x ∂x∂f(x)​ (2)再求梯度 ∂ f ( x ) ∂ x \partial f(x)\over\partial x ∂x∂f(x)​相对于 1 × n 1\times n 1×n行向量 x T x^T xT的偏导数,得到梯度的梯度即Hessian矩阵

根据以上步骤,容易得到Hessian矩阵的下列公式:

在这里插入图片描述 设 x ∗ x_* x∗​为目标函数的局部极小点,当目标函数 f f f光滑时,存在很多有效和实际的方法来识别一个点是否为局部极小点。特别地,如果 f f f是二次连续可微分的话,直接通过检验梯度 ∇ x f ( x ∗ ) \nabla_xf(x_*) ∇x​f(x∗​)和Hessian矩阵 ∇ x 2 f ( x ∗ ) \nabla_x^2f(x_*) ∇x2​f(x∗​),即可判断点 x ∗ x_* x∗​是否为局部极小点(甚至是严格局部极小点)。

若 ( ∇ x ) T ∇ x (\nabla x)^T\nabla x (∇x)T∇x很小,则函数 f ( x ) f(x) f(x)的Taylor级数展开为:

f ( x + ∇ x ) = f ( x ) + ( ∇ x ) T ∇ x f ( x ) + 1 2 ( ∇ x ) T ∇ x 2 f ( x ) ∇ x f(x+\nabla x)=f(x)+(\nabla x)^T\nabla_xf(x)+\frac{1}{2}(\nabla x)^T\nabla_x^2f(x)\nabla x f(x+∇x)=f(x)+(∇x)T∇x​f(x)+21​(∇x)T∇x2​f(x)∇x

如果函数f是连续的,那么它的Hessian矩阵一定是对称阵,因为对函数求偏导的顺序不影响偏导的值。 Hessian矩阵可以用于多元函数极值的判定: 在这里插入图片描述 两个求Hessian矩阵的例子: 在这里插入图片描述 在这里插入图片描述 在这里插入图片描述 https://blog.csdn.net/jbb0523/article/details/50598523

四、实对称矩阵

如果有n阶矩阵A,其矩阵的元素都为实数,且矩阵A的转置等于其本身( a i j = a j i a_{ij}=a_{ji} aij​=aji​),则称A为实对称矩阵。

4.1 性质 4.1.1 定理一

对称矩阵的特征值为实数、特征向量是实向量。

4.1.2 定理二

设 λ 1 , λ 2 是 实 对 称 矩 阵 A 的 两 个 特 征 值 , p 1 , p 2 是 对 应 的 特 征 向 量 , 若 λ 1 ≠ λ 2 , 则 p 1 与 p 2 正 交 设\lambda_1,\lambda_2是实对称矩阵A的两个特征值,p_1,p_2是对应的特征向量,若\lambda_1\ne\lambda_2,则p_1与p_2正交 设λ1​,λ2​是实对称矩阵A的两个特征值,p1​,p2​是对应的特征向量,若λ1​​=λ2​,则p1​与p2​正交

证明: λ 1 p 1 = A p 1 , λ 2 p 2 = A p 2 , λ 1 ≠ λ 2 \lambda_1p_1=Ap_1,\lambda_2p_2=Ap_2,\lambda_1\ne\lambda_2 λ1​p1​=Ap1​,λ2​p2​=Ap2​,λ1​​=λ2​ ∵ A 对 称 , A = A T \because A对称,A=A^T ∵A对称,A=AT ∴ λ 1 p 1 T = ( λ 1 p 1 ) T = ( A p 1 ) T = p 1 T A T = p 1 T A \therefore \lambda_1p_1^T=(\lambda_1p_1)^T=(Ap_1)^T=p_1^TA^T=p_1^TA ∴λ1​p1T​=(λ1​p1​)T=(Ap1​)T=p1T​AT=p1T​A ∴ λ 1 p 1 T p 2 = p 1 T A p 2 = p 1 T ( λ 2 p 2 ) = λ 2 p 1 T p 2 \therefore \lambda_1p_1^Tp_2=p_1^TAp_2=p_1^T(\lambda_2p_2)=\lambda_2p_1^Tp_2 ∴λ1​p1T​p2​=p1T​Ap2​=p1T​(λ2​p2​)=λ2​p1T​p2​ ∴ ( λ 1 − λ 2 ) p 1 T p 2 = 0 \therefore (\lambda_1-\lambda_2)p_1^Tp_2=0 ∴(λ1​−λ2​)p1T​p2​=0 ∵ λ 1 ≠ λ 2 \because \lambda_1\ne\lambda_2 ∵λ1​​=λ2​ ∴ p 1 T p 2 = 0 , 即 p 1 与 p 2 正 交 \therefore p_1^Tp_2=0,即p_1与p_2正交 ∴p1T​p2​=0,即p1​与p2​正交

4.1.3 定理三

设A为n阶对称矩阵,则必有正交矩阵P,使 P − 1 A P = Λ P^{-1}AP=\Lambda P−1AP=Λ,其中 Λ \Lambda Λ是以A的n个特征值为对角元素的对角矩阵 或: 若 A = A T 若A=A^T 若A=AT    ⟹    ∃ ∣ p ∣ ≠ 0 且 P T = P − 1 , 使 P − 1 A P = Λ = d i a g ( λ 1 , λ 2 , . . . , λ n ) \implies \exist|p|\ne0且P^T=P^{-1},使P^{-1}AP=\Lambda=diag(\lambda_1,\lambda_2,...,\lambda_n) ⟹∃∣p∣​=0且PT=P−1,使P−1AP=Λ=diag(λ1​,λ2​,...,λn​)

https://wenku.baidu.com/view/f04d366e58fafab069dc0256.html?sxts=1591661298009



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3