线性代数中的向量矩阵

您所在的位置:网站首页 坐标中向量的模怎么求 线性代数中的向量矩阵

线性代数中的向量矩阵

2024-04-18 20:49| 来源: 网络整理| 查看: 265

目录前言符号约定向量的基本性质 【定义,基向量,线性相关/无关*,向量点积】矩阵的基本性质 【转置,广播,线性变换】矩阵基本运算 【矩阵相乘,矩阵点积】行列式 【概念,性质,右手法则,行列式计算】逆矩阵 【线性方程组,列空间与秩】特征分解和迹* 【特征值,迹的性质】函数与向量 【函数与向量的联系,矩阵求导】

注:带 * 需要重点去看

一、前言

首先很感谢 Zsank 这位同学写的 将线性代数形象化系列文章,本文基于此将个人认为比较重要的知识点进行记录,温故而知新,同时也推荐B站上的一个不错的线代讲解系列视频

视频链接:【官方双语/合集】线性代数的本质 - 系列合集

二、符号约定

向量(vector):字母小写,如 a

矩阵(matrix): 字母大写,如 A

转置(transpose): A^{T}

单位矩阵(identity matrix): I_{n}

矩阵的逆(matrix inversion): A^{-1}

p-范数(norm): ||x||_{p}

对角矩阵(diagonal matrix): diag(\lambda)

迹: Tr(A)

行列式: det(A)

三、向量的性质和用法

【向量的定义】

向量可以形象化为一个有长度的箭头,或是一个有序的数组,它定义在一组基坐标系中,满足可加性以及缩放性

坐标系及基向量*

每当我们用数字描述向量时,它都依赖于我们正在使用的基

xy坐标系的基向量:

\begin{equation} \left\{\begin{aligned} \hat{i},单位为1,方向正右\\ \hat{j},单位为1, 方向正上 \end{aligned} \right. \end{equation}

则xy坐标系上的向量均可以表示为在这两个方向上的缩放。例如向量 (3,-2) ,完整的写法应该是 (3\hat{i}, -2\hat{j}) ,意思为将 \hat{i} 拉伸为原来的3倍, \hat{j} 反向拉伸为原来的2倍。通过基向量,我们可以不关注向量的具体数值,而是都看做是对基向量进行的缩放和相加操作。(好比在自然数中,我们可以把所有数字都看做是对1的加操作)那么,问题来了,什么是基向量?先引入一些概念:

【张成空间】

首先,如果选取不同的基向量,会得到什么?

对二维平面来说,只要两个基向量不共线,那么根据这两个基即可得到该平面所有的二维向量;若共线,则得到这条线上所有的一维向量若两基向量都为零向量,则得到零向量。

扩展到n维空间中,结论也成立:

所有基向量不共线,则可以得到所有的n维向量;// n维空间有m个基向量共线,则可以得到所有的(n-m+1)维向量;// (n-m+1)维空间

因此,张成空间,即基向量全部线性组合构成的向量集合。

【线性相关、线性无关】*

线性相关:若移除或增加一个向量,张成的空间都不改变,则称该向量与原向量组线性相关(说明该向量与原向量的某一个向量共线

线性无关:若移除或增加一个向量,张成的空间发生改变(维度减小或维度增加),则称线性无关(说明该向量与原向量的每一个向量都不共线

有了上面这两个概念之后,我们就可以给出基向量的定义:向量空间的一组基是张成该空间的一个线性无关向量集。所以,任意两个不共线的二维向量可以作为二维空间的一组基。由此,也给我们带来了一个麻烦,相同坐标表示的向量,在不同基向量下,分别代表什么?这部分就是之后线性变换的基础。

【向量点积(内积,数乘)】

向量点积的计算方法

对应坐标相乘后求和,结果为一个数字

\vec{v}\cdot \vec{w}=\Sigma_{i}(v_{i} w_{i})

向量点积的几何意义

\vec{v} 在 \vec{w} 上的投影长度乘上 \vec{w} 本身的长度;或者 \vec{w} 在 \vec{v} 上的投影长度乘上 \vec{v} 本身的长度。可以用我们所熟知的三角函数来计算: \vec{v}\cdot \vec{w}=||\vec{v}||\cdot||\vec{w}||cos\theta

四、矩阵的基本性质

【矩阵与向量,张量】

矩阵与向量:从向量的角度来看,矩阵的每一列其实都是一个向量。因此,静态地说,矩阵可以看作是向量的集合,向量可以看作一列的矩阵;以运动学的角度,矩阵其实描述了向量的“运动”。即,一个向量线性变换到另一个向量的运动过程,就是矩阵

张量:一个数组中的元素分布在若干维坐标的规则网格中,我们称之为张量,张量是超过两维的数组,张量A中坐标为(i,j,k)的元素记为 A_{i,j,k}

【矩阵常见性质】

主对角线:从左上角到右下角的对角线

单位矩阵:沿主对角线的元素都是1,其他位置的元素都是0

对角矩阵:只在主对角线含有非0素,其他位置都是0

相似矩阵:矩阵A 与 矩阵B 相似,即有 P^{-1}AP=B

矩阵分解:当 矩阵A 有特征值和特征向量时,可分解为, A=Vdiag(\lambda)V^{-1}

迹:矩阵对角元素的和, Tr(A)=\sum_{i}{A_{i,i}}

转置: (A^{T})_{i,j}=A_{j,i} , (AB)^{T}=B^{T}A^{T} , x^{T}y=(x^{T}y)^T=y^{T}x

正交: x^{T}y=0 ,若n个向量范数都为1,则称 标准正交

正定,半正定矩阵:所有特征值都是正数的矩阵为正定矩阵,所有特征值都是非负数的矩阵称为半正定矩阵

正定矩阵: x^{T}Ax=0\Rightarrow x=0 半正定矩阵: \forall x,x^{T}Ax\geq0

广播:隐式复制向量,将向量扩充成等形状的矩阵,在numpy,TensorFlow有体现

对于(m,n)矩阵A,(1,n)矩阵B,A与B进行运算(包含加减乘除,下同),则都会将B扩充成(m,n),且每一行的值都一样,都是由第一行扩充出来的。这并不会改变B的值,而是在内存中进行临时的扩充,目的是为了计算出结果。

【线性变换】

变换,其实是函数的另外一个名字,但它暗示了可以用“运动”的方式可视化输入-输出关系

线性变换的性质:变换前后网格线保持平行且等距分布

这里暗示了两个点:

1、变换后所有直线依然为直线;

2、过原点。

仿射变换与线性变换的差别就在于仿射变换不过原点

例子: 考虑xy坐标系下 (-1,2) 所表示的向量。所有向量均可以看作是对基向量进行缩放和相加操作,所以向量 (-1, 2) 就是 \vec{v}=-1\hat{i}+2\hat{j} 。这里,我们可以把向量 \vec{v} 看作是基向量 \hat{i} 和 \hat{j} 的线性组合。根据线性变换的性质,以及张成空间的基向量线性无关,我们可以只追踪基向量 \hat{i} 、 \hat{j} 的变化便能知道变换后的空间的形状。也就是说,假设变换后的基向量分别为 \hat{a} 、\hat{b} ,向量 \vec{v} 应该有着同样的基向量线性组合。假设基向量 \hat{a} =(1,-2), \hat{b}=(3,0),则 \vec{v}=-1\hat{a}+2\hat{b} =-1\left[ \begin{array}{c} 1\\ -2 \\ \end{array} \right]+2\left[\begin{array}{c}3\\0\\\end{array}\right] =\left[\begin{array}{c}-1\times1+2\times3\\-1\times(-2)+2\times0\\\end{array}\right] =\left[\begin{array}{c}5\\2\\\end{array}\right]

也就是说,xy坐标系上的 (-1,2) 向量,在变换后的坐标系中仍然表示为 (-1,2) ,但在原坐标系的角度,向量变为了(5,2)(相同坐标表示的向量,在不同基向量下,代表不同

上面讲的这个例子,其实和高中学的坐标转换是一个意思,回想一下直角坐标系和极坐标系的基向量的转换,或许就加深了印象。

当然,看到这里,可能还不会觉得有什么,毕竟只是个变换函数而已。但是,如果注意到第二个等号的反推式,即 -1\left[ \begin{array}{c} 1\\ -2 \\ \end{array} \right]+2\left[\begin{array}{c}3\\0\\\end{array}\right] =-1\hat{a}+2\hat{b} 的话,我们就可以写成这样的形式:

\vec{v}=\left[\begin{array}{cc} 1&3\\-2&0\\\end{array}\right] \left[\begin{array}{c}-1\\2\\\end{array}\right]

矩阵的第一列为变换后的 \hat{i} ,第二列为变换后的 \hat{j} 。这种形式,是不是很熟悉呢?没错,就是矩阵与向量的相乘。

五、矩阵基本运算

【矩阵与向量相乘】*

结合前面的线性变换来理解,实际上,矩阵与向量的相乘,就是基向量的变换后再线性组合。也就是说,矩阵描述的就是基向量变换的这一过程。基向量 \hat{i} 向(a,c)方向运动并最终落在(a,c)点;基向量 \hat{j} 同理。这里,过程即结果。

而我们经常使用的计算方法(最后一个等号),实际上做的就是对应坐标值缩放再相加。相当于直接跳过变换的过程而直接给出变换的结果。

(在MIT的线性代数公开课里,最后一个等号做的其实就是向量的点积,在后面会讲到;而第一个等号,是将x、y看作是缩放的系数)

这里有个特殊情况,就是矩阵若是线性相关,则该矩阵描述的是将空间降维。

因此,线性变换是操纵空间的一种手段

【非方阵】

前面所说的矩阵与向量相乘,其实已经用到了矩阵乘法了。但在真正介绍它之前,有必要先聊聊非方阵。因为,向量,实质上可以看成一种特殊的非方阵。这样的话,我们就可以用矩阵乘法将线性变换给统一起来了。

m\times m 维方阵所代表的线性变换是只能在m维空间内变换,而 m\times n 维非方阵所代表的变换就是从n维空间到m维空间的变换。n表示输入空间的维度,m表示输出空间,也即变换后的每个基向量都由m个独立坐标所描述。当mn时,表示n维空间映射到m维空间。(插个题外话,三体中的二向箔,数学描述的话应该是一个2*3的矩阵?)

特别地,当m=1时,表示n维空间到数轴的投影。即变换后基向量只需要用数轴上的一个数字表示即可。这部分内容与点积相关,会在后续讲到。

非方阵部分看似都是空间不同维度间的变换,跟上面讲的线性变换在空间相同维度内的变换不同。但其实我们可以通过补0让m=n,就可以让两者统一起来,只需要将0看成是在该维度上基向量长度为0即可。

【矩阵乘法,矩阵点乘】

矩阵乘法就是左矩阵第i行的第k个元素与右矩阵第j列的第k个元素相乘,求和,得到新矩阵第i行第j列的元素。而矩阵点乘则是指两个矩阵对应元素的乘积,满足的条件是:两个矩阵的维度必须相等。具体地,矩阵乘法矩阵点乘定义为:

C=AB,C_{i,j}=\sum_{k}{A_{i,k}B_{k,j}}

C=A\odot B,C_{i,j}={A_{i,j}B_{i,j}}

【矩阵乘法的几个运算律】

不满足交换律[ AB\ne BA ]

满足乘法结合律[ (AB)C=A(BC) ]

左分配律[ (A+B)C=AC+BC ]和右分配律[ C(A+B)=CA+CB ]:

六、行列式

【行列式概念】

先给出结论:行列式,就是衡量矩阵(线性变换)时所占区域的缩放比例。这里的区域,即在张成空间中所占的区域,在二维中表现为面积,三维中表现为体积。

严格来说,行列式有正负之分。 行列式的绝对值才表示缩放比例,正负号表示空间是否翻转。在二维中,表现为平面的法向量是否翻转。从数值上理解正负号的话,给个提示,三角形面积公式 \frac{1}2absin\theta ,其中 \theta 取值范围为 [\pi/2, -\pi/2] 。

(有兴趣的同学可以了解下有向面积有向面积_百度百科。同理,也会有有向体积等)

【行列式为0】

当然,行列式除了正负外,还有种特殊情况,行列式为0

从几何上讲,空间被压缩了,即平面被压缩成一条线(二维行列式为0),三维空间被压缩成一个平面或一条线(三维行列式为0)

从矩阵的角度讲,行列式为0,则必然对应着矩阵列线性相关。也就是说,经过行列式为0的矩阵变换后,至少有两个基向量重叠了,所以张成空间的维度减小了。

在讨论矩阵的逆时,我们会发现行列式为0是判断一个矩阵有没有逆矩阵的重要方法之一。从几何的角度出发,张成空间维度减小后,相当于这一维的信息丢失了,无法恢复。

【右手法则】

右手法则不只是在高中物理“左力右电”时才成立。事实上,涉及到三维空间,很多时候会用到右手法则。比如三维行列式的正负。食指始终代表基向量 \hat{i} ,中指始终表示 \hat{j} ,则此时大拇指所示方向为 \hat{k} 。若变换后右手大拇指的方向没有发生翻转(即,本来向上的,变换后向下;本来向下的,变换后向上),则空间方向没有发生改变,行列式为正,否则行列式为负。

【行列式计算】

二维行列式计算及几何意义如下:

a、d分别表示基向量 \hat{i} 在水平方向、 \hat{j} 在竖直方向上拉伸了多少,b、c分别表示空间在对角线方向上拉伸了多少。经过这样的面积计算后,二维行列式简化为主对角线与反对角线的相减。三维的也类似

【行列式基本性质】

参照行列式的性质。下文约定,“体积”一词作为体积向所有维度的概念推广

性质1 行列式与它的转置行列式相等。解释:只是把向量按列写与按行写的区别而已,本质上还是这两个向量,“体积”不变。由此,在行列式中,行和列的地位相等

性质2 互换行列式的两行(列),行列式变号。解释:行列式表示有向“体积”,与计算顺序有关。互换行(列)后,计算顺序发生改变,故方向变化。

性质3 行列式的某一行(列)中所有的元素都乘以同一数k,等于用数k乘此行列式。解释:相当于把其中一个向量拉伸了k倍。由于“体积”正比于所有向量的乘积,故“体积”也增大k倍。推论 行列式中某一行(列)的所有元素的公因子可以提到行列式符号的外面。解释:性质3倒推。“体积”增大了k倍,等效于其中一个向量拉伸了k倍。

性质4 行列式中如果有两行(列)元素成比例,则此行列式等于零。解释:相当于用该行列式所表示的矩阵变换后,有两个基向量重叠了,张成空间维度减小。推论 如果行列式有两行(列)完全相同,则此行列式为零。解释:相当于基向量重合了。

性质5 若行列式的某一行(列)的元素都是两数之和,则此行列式等于两个子行列式之和(这部分是用我自己的话表述的,若有表达不清烦请指出)解释:相当于其中一个向量分解出了两个分向量,也即算得的“体积”被分为了两部分。最终的“体积”相当于这两部分之和。

性质6 把行列式的某一列(行)的各元素乘以同一数然后加到另一列(行)对应的元素上去,行列式不变。解释:相当于固定其他向量,对其中一个向量作剪切变换(即往一个方向斜拉)。实际上,底跟高都没改变,所以行列式也没有改变。(参考等底等高的平行四边形与长方形面积相等)

行列式这一节视频中最后一个问题的回答:由于行列式衡量的是对于原空间的拉伸率,经过两次变换后相对于原空间的拉伸率,与每经过一次变换算一次相对拉伸率,最后的结果是相等的。换句话说,缩放比例系数可以累乘。

七、逆矩阵

【线性方程组】

方阵 \left[\begin{array}{ccc}2&5&3\\4&0&8\\1&3&0\end{array}\right] 称为相关系数矩阵 A ,向量 \left[\begin{array}{c}x\\y\\z\end{array}\right] 称为未知变量 \vec{x} ,常数向量 \left[\begin{array}{c}-3\\0\\2\end{array}\right] 称为结果 \vec{v} 。则该线性方程组可简写为 A\vec{x}=\vec{v} 。(这里也就是矩阵乘法啦~)

该线性方程组的含义是,向量 \vec{x} 经过矩阵 A 所描述的变换后到达向量 \vec{v} 。所以,要求出向量 \vec{x} ,我们就要从结果 \vec{v} 开始,反向变换。于是就有了逆矩阵的概念。

【逆矩阵】

从上面的讨论可以看出,逆矩阵其实相当于一个倒推过程,即反向变换。但我们知道,矩阵存在着逆矩阵不存在的情况。在上面也说了,判断逆矩阵是否存在,方法之一就是看该矩阵的行列式是否为0。为什么这么说呢?

首先我们先来考察 det(A)\ne 0 的情况:

A 行列式不为0,意味着在该张成空间内进行线性变换,空间没有被压缩。所以,对每一个确定的 \vec{v} 和 A ,有且仅有一个 \vec {x} 与之对应,故有唯一解。从 \vec{v} 到 \vec{x} 的逆向变换矩阵,称为“矩阵A的逆”,记作 A^{-1} 。(这里也证明了为什么det(A)\ne 0 等价于 A 的逆矩阵存在)有了这样的介绍以后,我们就很容易理解, A^{-1}A=I 为什么成立了(又称恒等变换)。使用计算机求得 A^{-1} 后,就可以在原方程两边同时左乘 A^{-1} ,化简得 \vec{x}=A^{-1}\vec{v} ,此即原线性方程组的解。

接下来我们考察 det(A)=0 的情况:

此时空间被压缩到较低的维度,此时没有逆变换,因为无法将一条线无损地“解压缩”为一个平面。若压缩后的向量刚好落在压缩后的空间上,则解存在;否则不存在。如图所示。自然地,要完整明白地说清楚解的情况的话,必须要讲到齐次线性方程组、非齐次线性方程组、增广矩阵、秩等概念。下面可能会有所涉及。但这部分内容目的仅在于直观理解线代,所以不会进行讲解。估计以后会专门写一篇来填坑~

这里需要说明一下,前面介绍非方阵时提到过 m\times n 维非方阵( m > n )可以将低维空间映射到高维空间。注意这里是“映射”,而不是“解压缩”。映射的意思是将低维空间放到更高维度的空间里,好比从将一张没有厚度的纸放到三维空间,它还是二维的。纸不会因为被放到三维空间就变成了三维。(其实将非方阵补0成方阵后就会发现,全0的列对应的就是该维度基向量为0向量)

【列空间与秩】

对于det(A)=0使空间压缩的情况,我们使用“秩”(rank)来描述变换后空间的维度。当变换结果为一条直线时,即变换后空间为一维,称该变换的秩为1;当变换后结果为一个平面时,即变换后空间为二维,称该变换的秩为2;以此类推。注意,这里说的是“该变换的秩”,即秩这一概念的对象是变换矩阵,当变换矩阵为3*3维时,它的秩仍可能为2或1,意味着经过该矩阵变换后空间被压缩成一个平面或一条线。

列空间:所有可能的输出向量 A\vec{v} 构成的集合。也即矩阵列向量所张成的空间。

因此,秩的精确定义为矩阵列空间的维度。当秩与列数相等时,秩达到最大值,此时称“满秩”。

【零空间(核)】

零空间一定包含在列空间中,因为线性变换必须保持原点位置不变。对满秩变换来说,变换后落到原点的只有零向量自身。对非满秩变换,由于空间被压缩,变换后会有一系列向量被压成零向量,即落在原点。变换后落在原点的向量的集合,就称为矩阵的“零空间”,或称为“核”。对线性齐次方程组,零空间给出的就是向量方程所有可能的解。对非线性齐次方程组,若解存在,则零空间给出的就是基础解系。

八、特征分解和迹

【特征向量、特征值】

特征向量:特征向量就是线性变换后还留在原来直线上的向量;特征值:特征值就是特征向量的缩放系数。特征值为正时,特征向量在原方向上缩放;特征值为负时,特征向量反向缩放。在三维中,特征向量有个更直观的形象——旋转轴。当特征向量为旋转轴时,特征值必须为1

【矩阵的特征分解】

如何计算?

先来看公式:\mathbf{A}\vec{v}=\lambda\vec{v} 。 \mathbf{A} 表示变换矩阵, \vec{v} 表示特征向量, \lambda 表示特征值。也就是说,矩阵向量乘积,等效于向量的数乘。(再一次,结合矩阵乘法,这条公式的确也说明了特征向量变换后还留在原来的直线上(对向量的缩放也可以是对向量的变换的一种特殊形式),而不是偏离。)我们的目的是要求出 \lambda 与 \vec{v} 。

为了方便计算,我们要把等式右边变成矩阵向量相乘的形式,很简单,左乘一个单位矩阵 \mathbf{I} 就可以了(恒等变换)。于是整理一下,我们得到: (\mathbf{A}-\lambda\mathbf{I})\vec{v}=\vec{0}

自然地,零解总是存在的。但我们更关心的是非零解的情况。这时候,就要令矩阵 (\mathbf{A}-\lambda\mathbf{I}) 的行列式为0了。意思是,存在一个非零向量 \vec{v} ,使得变换矩阵 \mathbf{A} 减去 \lambda 乘以单位阵的结果,乘上 \vec{v} 等于零向量。这也就意味着,

\vec{v} 是 \mathbf{A} 的特征向量;(\mathbf{A}-\lambda\mathbf{I}) 将空间降维了。

求出特征值后,回代,即可求出特征向量。

注意,在实数域,二维空间不一定有特征向量,比如旋转。(由方阵引起的线性变换,实质效果只有两种,一名旋转,一名剪切)。作者在视频里有说(那么一大段话出现不超过一秒。。。):

不过有意思的是,与 i 相乘载复平面中表现为90°旋转和 i 是这个二维实向量旋转变换的特征值有所关联。这部分的具体细节略微超出我今天想讨论的内容,但是注意一点,特征值出现复数的情况一般对应于变换中的某种旋转。

重根:属于单个特征值的特征向量可以是一条直线上的相反方向(剪切变换),也可以不止在一条直线上(将所有向量同时缩放)。

假设矩阵A有n个线性无关的特征向量 (v^{(1)},...v^{(2)} ) ,对应着特征值 (\lambda_{1},...,\lambda_{n}) 。我们将特征向量连接成一个矩阵,使得每一列是一个特征向量: V=[v^{(1)},...,v^{(n)}] ,类似 地,我们也可以将特征值成一个向量 \lambda = [\lambda_{1},...,\lambda_{n}]^{T} ,因此,A的特征分解可以记作:

A=Vdiag(\lambda)V^{-1}

【与行列式的关系】

这一段是我在查找资料时发现的一个有趣的关系【1】,视频里面没有的。让我们稍微往回看一下。要求非零解,即要求 det(\mathbf{A}-\lambda\mathbf{I})=0 。设 \mathbf{A}=\left[\begin{matrix}a&b\\c&d\end{matrix}\right] ,则

det(\mathbf{A}-\lambda\mathbf{I})=(a-\lambda)(d-\lambda)-bc=0 \tag{1}

又,该方程是一元二次方程,可假设特征方程的解为 \lambda_1、\lambda_2 ,则特征方程可改写为:

(\lambda-\lambda_1)(\lambda-\lambda_2)=0 \tag{2}

(1)(2)两式为同一个式子的不同写法,故(1)=(2)。观察它们的常数项发现, \lambda_1\lambda_2=ad-bc=|\mathbf{A}|

看到这里,你肯定发现了什么对吧?事实上,对任意维度,都可以证明 |\mathbf{A}|=\prod_i\lambda_i 。

即,行列式的值等于特征值的乘积

从几何角度来理解,是比较直观的。行列式表示了变换后面积变化的大小,而特征值表示的是变换后仍留在原直线的向量的缩放的比例。借助微积分,我们只要沿这些特殊直线将区域切割成一个个很小的正方形即可,变换后就成为了菱形。将这些菱形的面积求和就得到了上面的结论。

【矩阵的迹(trace)】

这里同样部分参考了【1】。trace的公式为 trace(\mathbf{A})=\sum_{i}A_{ii} ,即为矩阵主对角线元素之和。然后,神奇的事再一次发生。如果没有忘记前面的(1)(2)式子的话,我们这次只观察一次项,就会惊喜地发现, \lambda_1+\lambda_2=a+d=\sum_iA_{ii}=trace(\mathbf{A}) 。(emmm说实话其实没什么好惊喜的,其实就是我们都学过的韦达定理。。。现在用矩阵表示罢了)

同样的,对于任意维度,都可证明 trace(\mathbf{A})=\sum_i\lambda_i 。

即,矩阵的迹等于特征值的和

行列式与迹,都是相似不变量,在方阵里有着重要的地位。

【特征基】

基向量都是特征向量,称为特征基

对角矩阵

每一列都是特征向量,非零值表示特征值单位矩阵 \mathbf{I} 是特征值全为1的对角矩阵

上一篇基向量末尾提到的相似矩阵中,有一个很重要的应用就是相似对角化求矩阵的n次幂。因为对角阵的特殊缘故,矩阵的n次幂简化成相当于求特征值的n次幂。 \mathbf{\Lambda}=\mathbf{P^{-1}}\mathbf{A}\mathbf{P}

注:不是所有的方阵都能找到对角矩阵,如剪切变换就不能,因为剪切变换的特征向量不足以张成全空间(只能张成一维空间)。只有特征向量能张成全空间的矩阵才能对角化。

九、函数与向量

【函数与向量】

因为主题是线性代数,所以这里的函数特指多项式函数

多项式函数的加减与函数的数乘与向量的加减和数乘相似,这是显而易见的,如:

(f+g)(x)=f(x)+g(x);(af)(x)=af(x)

(这里也可以看出为什么一定是多项式函数,因为其他如指数函数、对数函数、幂函数等都不满足上面两条式子。可加性与成比例性是最基础的性质

由于定义在向量上的操作只有相加和数乘两种,函数都满足了。那自然想到,向量其他特性是否也可以照搬到函数上呢?是可以的,比方说线性变换。

先来看线性变换的严格定义:

可加性: L(\vec{v}+\vec{w})=L(\vec{v})+L(\vec{w})成比例(一阶齐次): L(c\vec{v})=cL(\vec{v})

对向量来说,L代表矩阵;对函数来说,L代表函数。

对函数来说,线性算子有一个很直观的例子,求导:

\frac{d}{dx}(x^3+x^2)=\frac{d}{dx}(x^3)+\frac{d}{dx}(x^2)\frac{d}{dx}(4x^3)=4\frac{d}{dx}(x^3)

【矩阵求导】

事实上,观察多项式函数的结构, f(x)=a_0+a_1x+a_2x^2+\dots+a_nx^n ,不难发现与向量点积很像: \left[\begin{array}{c}a_0\\a_1\\a_2\\\vdots\end{array}\right]\cdot \left[\begin{array}{c}1\\x\\x^2\\\vdots\end{array}\right] 。左边的系数向量可以视作系数矩阵,即矩阵向量相乘,也即函数f。

多项式函数求导矩阵 \frac{d}{dx}=\left[\begin{matrix} 0&1&0&0&\dots\\ 0&0&2&0&\dots\\ 0&0&0&3&\dots\\ \vdots&\vdots&\vdots&\vdots&\ddots \end{matrix}\right] ,即在次对角线上元素从1开始,依次递增。

于是,求导与矩阵就这样联系起来了。(另,求不定积分时,就是求该方阵的逆)

线性代数与函数的概念之间对应:

线性变换-线性算子

点积-内积

特征向量-特征函数

参考:

【1】矩阵的特征:特征值,特征向量,行列式,trace

【2】深度学习

胖友,请不要忘了一键三连点赞哦!

转载请注明出处:QA Weekly



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3