机器学习数学原理专题

您所在的位置：网站首页 › 函数求导的作用和意义 › 机器学习数学原理专题

机器学习数学原理专题

2024-07-15 13:49| 来源: 网络整理| 查看: 265

二、从线性模型开始：回归

3.回归损失函数求导

（1）梯度下降法

（2）直接求导法

一、从线性模型开始：回归

在之前的文章中我们介绍了回归问题损失函数的推导，现在已知损失函数，想要使用损失函数来更新模型参数以实现最优化，就要涉及损失函数的求导问题了。

回归损失函数推导文章地址：https://blog.csdn.net/qq_58718853/article/details/137536043

3.回归损失函数求导（1）梯度下降法

机器学习的过程是对损失函数求导，然后根据导数优化参数的过程。因为损失函数衡量的是模型输出和实际数据的差异，因此我们希望这个差异值越小越好。对于回归函数的损失函数MSE来说，它具有很好的数学性质。

MSE损失函数是机器学习中不多的有唯一最优解的。MSE是一个凸（凸向x轴）函数，意味着有一个全局最小值。如下右图所示，像一个抛物线。

其特性意味着我们可以根据中学知识，直接对损失函数求导取零，其对应的参数值就是最优曲线的参数。这是非常特殊的，更常见的是梯度优化方式。

如上图，从一个随机的线出发，其对应于损失函数上一点（x轴代表该线的斜率参数，y值是损失函数值），假设其在最低点左侧，我们可以看到左侧所有点对应的导数（虚线：过该点损失曲线的切线斜率）都是负数。

需注意损失函数是关于参数的函数，因此图中x轴代表的含义是模型参数。在梯度下降法中，参数是减去梯度，因此梯度负数代表模型参数是不断增加。在最优点左侧，模型参数增加可以理解为损失函数上的点不断向右下移动，不断逼近最优点。右侧同理。在最低的梯度为零，没有移动的趋势，处于稳定。

进一步理解是，梯度下降法就像是“有老师监督的持续学习”，损失函数的导数就是“老师”，其正负告模型是学习的偏“右”了，还是偏“左”了，此时模型的参数就会根据“老师的指导”，在数轴上往对应相反（正确）的方向移动。直到到达最优模型，也是损失函数最低点时，“老师闭嘴了”（损失函数求导为0。模型参数就固定下来了。下式为具体的梯度更新公式， $eq?%5Ceta$ 为学习率，用于控制更新的速率。

$eq?W%5Crightarrow%20W-%5Ceta%20%5Cfrac%7B%5Cpartial%20L%28W%29%7D%7B%5Cpartial%20W%7D$

其实之前图例是一个简化的版本，其假设模型参数只有一个。但实际的模型参数是一个向量甚至矩阵，实际的损失函数图像十分复杂，需要升到更高维度的空间，下图给出一个比较简单的两个参数 $eq?w%2C%5Csigma$ 的例子。先给出损失函数形式如下。

$eq?L%28w%2C%5Csigma%20%29%3D%5Cfrac%7B1%7D%7BN%7D%5Csum_%7Bi%3D1%7D%5E%7BN%7D%5B%5C%2C%5C%2Cy_%7Bi%7D-%5Cbegin%7Bpmatrix%7D%20w%26%20%5Csigma%20%5Cend%7Bpmatrix%7D%5Cbegin%7Bpmatrix%7D%20x_i%5C%5C%201%5Cend%7Bpmatrix%7D%5C%2C%5D%5E%7B2%7D$

$eq?%3D%5Cfrac%7B1%7D%7BN%7D%5Csum_%7Bi%3D1%7D%5E%7BN%7D%28y_%7Bi%7D-wx_i-%5Csigma%20%29%5E2$

下图可以看到梯度下降方向和求导方向相反，因此参数更新公式中使用减号。

将上图梯度下降过程投影到二维平面（俯视视角），可以进一步看清不同的参数 $eq?w%2C%5Csigma$ 对于梯度下降的不同分量影响。

（2）直接求导法

之前提到MSE损失函数有一种简单有效的方法快速求解最优模型参数，即将损失函数求导然后取零，其对应的参数值就是是损失最小的最优模型参数。相较梯度下降法的迭代过程，直接求导“一步到位”。下面给出其数学求导公式推导过程。

① MSE损失函数转为矩阵形式：

之前的似然函数和最小二乘法都推出过MSE损失函数的标准形式如下。

$eq?Loss%20%3D%20%5Cfrac%7B1%7D%7BN%7D%5Csum_%7Bi%3D1%7D%5E%7BN%7D%28y_%7Bi%7D-%5Chat%7By_%7Bi%7D%7D%29%5E%7B2%7D$

$eq?%3D%20%5Cfrac%7B1%7D%7BN%7D%5Csum_%7Bi%3D1%7D%5E%7BN%7D%28y_%7Bi%7D-W%5E%7BT%7DX_%7Bi%7D%29%5E%7B2%7D$

假如将 $eq?y_%7Bi%7D-W%5E%7BT%7DX_%7Bi%7D$ 视为一个整体 $eq?a_%7Bi%7D$ ，即定义一个矩阵A

$eq?A%3D%5Cbegin%7Bpmatrix%7D%20a_%7B1%7D%20%3D%20y_%7B1%7D-W%5E%7BT%7DX_%7B1%7D%5C%5C%20a_%7B2%7D%3D%20y_%7B2%7D-W%5E%7BT%7DX_%7B2%7D%5C%5C%20...%5C%5C%20a_%7BN%7D%20%3D%20y_%7BN%7D-W%5E%7BT%7DX_%7BN%7D%5C%5C%20%5Cend%7Bpmatrix%7D_%7B%28N*1%29%7D$

那么 $eq?A%5E%7BT%7DA$ 等价于标准形式中实现的对每个样本差的平方求和。

$eq?A%5E%7BT%7DA%3D%5Cbegin%7Bpmatrix%7D%20a_%7B1%7D%20%26a_%7B2%7D%20%26...%20%26a_%7BN%7D%20%5Cend%7Bpmatrix%7D%5Cbegin%7Bpmatrix%7D%20a_%7B1%7D%5C%5C%20a_%7B2%7D%5C%5C%20...%5C%5C%20a_%7BN%7D%5C%5C%20%5Cend%7Bpmatrix%7D$

$eq?%3Da_%7B1%7D%5E%7B2%7D+a_%7B2%7D%5E%7B2%7D+...+a_%7BN%7D%5E%7B2%7D$

$eq?%3D%28y_%7B1%7D-W%5E%7BT%7DX_%7B1%7D%29%5E%7B2%7D+%28y_%7B2%7D-W%5E%7BT%7DX_%7B2%7D%29+...+%28y_%7BN%7D-W%5E%7BT%7DX_%7BN%7D%29$

$eq?%3D%20%5Csum_%7Bi%3D1%7D%5E%7BN%7D%28y_%7Bi%7D-W%5E%7BT%7DX_%7Bi%7D%29%5E%7B2%7D$

可以看出标准形式Loss损失函数和新构建矩阵 $eq?A%5E%7BT%7DA$ 只差取样本平均的关系，具体如下。

$eq?Loss%3D%5C%2C%5Cfrac%7B1%7D%7BN%7DA%5E%7BT%7DA$

对于矩阵 $eq?A$ ，定义两个矩阵为样本集 $eq?Y$ 和预测集 $eq?%5Chat%7BY%7D$

$eq?Y%20%3D%20%5Cbegin%7Bpmatrix%7D%20y_%7B1%7D%5C%5C%20y_%7B2%7D%5C%5C%20...%5C%5Cy_%7BN%7D%20%5Cend%7Bpmatrix%7D_%7B%28N*1%29%7D$ , $eq?%5Chat%7BY%7D%3D%5Cbegin%7Bpmatrix%7D%20%5Chat%7By_1%7D%3DW%5E%7BT%7DX_%7B1%7D%5C%5C%20%5Chat%7By_2%7D%3DW%5E%7BT%7DX_%7B2%7D%5C%5C%20...%5C%5C%20%5Chat%7By_N%7D%3DW%5E%7BT%7DX_%7BN%7D%20%5C%5C%5Cend%7Bpmatrix%7D_%7B%28N*1%29%7D$

此处，再将 $eq?%5Chat%7BY%7D$ 进一步展开成关于模型参数 $eq?W$ 和样本特征输入 $eq?X%20_i$ 的式子。对于这里的每一个样本 $eq?X%20_i$ ，我们可以将其合并成一个大矩阵，代表整个数据集的特征空间矩阵。

假设将每个样本的特征向量按行横向依次拼接，即构建一个大矩阵 $eq?X$ 。

$eq?X%20%3D%20%5Cbegin%7Bpmatrix%7D%5C%2C%5C%2C%5C%2C%5C%2C%5C%2C%5C%2CX_1%26%26%20%26%5C%2C%5C%2CX_2%20%26%26%26%5C%2C%5C%2C...%20%26%26%26%5C%2C%5C%2CX_N%5C%2C%5C%2C%5C%2C%20%5C%2C%5Cend%7Bpmatrix%7D$

$eq?%3D%5Cbegin%7Bpmatrix%7D%20%5Cbegin%7Bpmatrix%7D%20x%5E1_1%5C%5C%5C%5C%20x%5E1_2%5C%5C%5C%5C%20...%5C%5C%5C%5C%20x%5E1_n%5C%5C%5C%5C1%20%5Cend%7Bpmatrix%7D%20%2C%26%5Cbegin%7Bpmatrix%7D%20x%5E2_1%5C%5C%5C%5C%20x%5E2_2%5C%5C%20%5C%5C...%5C%5C%20%5C%5Cx%5E2_n%5C%5C%5C%5C1%20%5Cend%7Bpmatrix%7D%2C%20%26%20%5Cbegin%7Bpmatrix%7D%20...%5C%5C%5C%5C%20...%5C%5C%5C%5C%20...%5C%5C%5C%5C%20...%20%5C%5C%5C%5C1%5Cend%7Bpmatrix%7D%2C%20%26%20%5Cbegin%7Bpmatrix%7D%20x%5EN_1%5C%5C%5C%5C%20x%5EN_2%5C%5C%5C%5C%20...%5C%5C%5C%5C%20x%5EN_n%5C%5C%5C%5C1%20%5Cend%7Bpmatrix%7D%20%5Cend%7Bpmatrix%7D_%7B%28n+1%29*N%7D$

因为每个样本特征维有(n+1)（多的一个是加入的误差项）个（ $eq?X$ 矩阵行数），数据集一共有N个样本（ $eq?X$ 矩阵列数），因此矩阵 $eq?X$ 形状为（n+1）*N。注意此时小x上下标含义：x上标代表是第几个样本的数据，下标代表当前数据的第几维的特征值。

⬇（上标N）：第N个样本的数据：第N套房源数据

展开式中小 x 举例： $eq?x%5EN_n$

⬆（下标 n）：第N个样本中第n维特征值：n代表房屋面积维度

注意：如果按上述设计大矩阵 $eq?X$ ，对 $eq?%5Chat%7BY%7D$ 的拆解处理在后续的运算过程中，要进行相应的维度数的变化，以匹配其中 $eq?W%2CX$ 运算后的到的矩阵维度数。

此时设计的大矩阵跟模型参数乘积 $eq?W%5ETX$ 得到的预测值 $eq?%5Chat%7BY%7D%27$ 。需特别注意此处 $eq?X$ 的含义，是区别于定义回归模型时使用的特征向量 $eq?X_i$ ，此处是一个矩阵，代表了全体样本的特征值，是整个数据的矩阵形式，如上述定义。但此时矩阵计算，导致最终结果 $eq?Y$ 维度发生了变化。具体可以看下述 $eq?%5Chat%7BY%7D%7B%7D%27$ 和 $eq?%5Chat%7BY%7D$ 的对比。其实只是对结果做了一个转置处理。

$eq?%5Chat%7BY%7D%27%20%3D%20W%5ETX$

$eq?%3D%5Cbegin%7Bpmatrix%7D%20w_1%20%26w_2%20%26...%20%26w_n%26%5Cepsilon%20%5Cend%7Bpmatrix%7D%5Cbegin%7Bpmatrix%7D%20%5Cbegin%7Bpmatrix%7D%20x%5E1_1%5C%5C%5C%5C%20x%5E1_2%5C%5C%5C%5C%20...%5C%5C%5C%5C%20x%5E1_n%5C%5C%5C%5C1%20%5Cend%7Bpmatrix%7D%20%2C%26%5Cbegin%7Bpmatrix%7D%20x%5E2_1%5C%5C%5C%5C%20x%5E2_2%5C%5C%20%5C%5C...%5C%5C%20%5C%5Cx%5E2_n%5C%5C%5C%5C1%20%5Cend%7Bpmatrix%7D%2C%20%26%20%5Cbegin%7Bpmatrix%7D%20...%5C%5C%5C%5C%20...%5C%5C%5C%5C%20...%5C%5C%5C%5C%20...%5C%5C%5C%5C1%20%5Cend%7Bpmatrix%7D%2C%20%26%20%5Cbegin%7Bpmatrix%7D%20x%5EN_1%5C%5C%5C%5C%20x%5EN_2%5C%5C%5C%5C%20...%5C%5C%5C%5C%20x%5EN_n%5C%5C%5C%5C1%20%5Cend%7Bpmatrix%7D%20%5Cend%7Bpmatrix%7D$

$eq?%3D%5Cbegin%7Bpmatrix%7D%20W%5ETX_1%2C%20%26W%5ETX_2%20%2C%26...%20%26%2CW%5ETX_N%20%5Cend%7Bpmatrix%7D_%7B%281*N%29%7D$

$eq?%5Chat%7BY%7D%3D%5Cbegin%7Bpmatrix%7D%20W%5E%7BT%7DX_%7B1%7D%5C%5C%20W%5E%7BT%7DX_%7B2%7D%5C%5C%20...%5C%5C%20W%5E%7BT%7DX_%7BN%7D%20%5C%5C%5Cend%7Bpmatrix%7D_%7B%28N*1%29%7D$

可以看出 $eq?%5Chat%7BY%7D%27$ 和 $eq?%5Chat%7BY%7D$ 是转置关系，因此可以最终得到 $eq?%5Chat%7BY%7D$ 和模型参数 $eq?W$ 和数据特征集矩阵 $eq?X$ 的关系为下。

$eq?%5Chat%7BY%7D%20%3D%20%28%5Chat%7BY%7D%27%29%5ET$

$eq?%3D%20%28W%5ETX%29%5ET$

$eq?%3DX%5ETW$

根据矩阵 $eq?A$ 的定义，存在以下关系。

$eq?A%20%3D%20Y-%5Chat%7BY%7D$

$eq?%3D%20Y-X%5ETW$

将上式代入Loss和A的关系式，可得到损失函数的矩阵形式。

MSE损失函数矩阵形式：

$eq?%5Crightarrow%20Loss%20%3D%5Cfrac%7B1%7D%7BN%7D%28Y-%5Chat%7BY%7D%29%5E%7BT%7D%28Y-%5Chat%7BY%7D%29$

$eq?%3D%5Cfrac%7B1%7D%7BN%7D%28Y-X%5ETW%29%5E%7BT%7D%28Y-X%5ETW%29$

关键的模型参数 $eq?W$ “藏”在 $eq?%5Chat%7BY%7D$ 中；虽然式子右侧都是矩阵，但是最后经过矩阵运算可以检验最后得出的结果是一个“标量”，即一个数，这和标准形式的损失函数契合。

②MSE损失函数的矩阵求导讨论

下面对上述矩阵形式的损失函数进行求导讨论。

矩阵求导方法：“XY”拉伸术 1.标量（一个值）不变，向量拉伸

2.“Y”横向拉伸，“X”纵向拉伸

eg: 假设函数 $eq?Y%20%3D%20g%28X%29$ ，其中 $eq?Y%2CX$ 都是向量，代表这个函数输入多变量，输出多值。

$eq?Y%3D%5Cbegin%7Bpmatrix%7D%20y_%7B1%7D%5C%5C%20y_%7B2%7D%5C%5C%20...%5C%5C%20y_%7Bn%7D%5C%5C%20%5Cend%7Bpmatrix%7D%2CX%3D%5Cbegin%7Bpmatrix%7D%20x_%7B1%7D%5C%5C%20x_%7B2%7D%5C%5C%20...%5C%5C%20x_%7Bm%7D%5C%5C%20%5Cend%7Bpmatrix%7D$

（横向拉伸） $eq?%5Cbegin%7Bpmatrix%7D%20y_%7B1%7D%20%5C%2C%26y_%7B2%7D%5C%2C%20%26...%20%26%5C%2Cy_%7Bn%7D%20%5Cend%7Bpmatrix%7D$

$eq?%5Cfrac%7B%5Cpartial%20Y%7D%7B%5Cpartial%20X%7D%3D%5Cbegin%7Bpmatrix%7D%20%5Cfrac%7B%5Cpartial%20y_%7B1%7D%7D%7B%5Cpartial%20x_%7B1%7D%7D%20%26%20%5Cfrac%7B%5Cpartial%20y_%7B2%7D%7D%7B%5Cpartial%20x_%7B1%7D%7D%20%26...%20%26%5Cfrac%7B%5Cpartial%20y_%7Bn%7D%7D%7B%5Cpartial%20x_%7B1%7D%7D%20%5C%5C%20%5Cfrac%7B%5Cpartial%20y_%7B1%7D%7D%7B%5Cpartial%20x_%7B2%7D%7D%20%26%5Cfrac%7B%5Cpartial%20y_%7B2%7D%7D%7B%5Cpartial%20x_%7B2%7D%7D%20%26%20...%20%26%20%5Cfrac%7B%5Cpartial%20y_%7Bn%7D%7D%7B%5Cpartial%20x_%7B2%7D%7D%20%5C%5C%20...%26%20...%20%26...%20%26...%20%5C%5C%20%5Cfrac%7B%5Cpartial%20y_%7B1%7D%7D%7B%5Cpartial%20x_%7Bm%7D%7D%20%26%5Cfrac%7B%5Cpartial%20y_%7B2%7D%7D%7B%5Cpartial%20x_%7Bm%7D%7D%20%26...%20%26%5Cfrac%7B%5Cpartial%20y_%7Bn%7D%7D%7B%5Cpartial%20x_%7Bm%7D%7D%20%5Cend%7Bpmatrix%7D$ $eq?%5Cbegin%7Bpmatrix%7D%20x_%7B1%7D%5C%5C%20x_%7B2%7D%5C%5C%20...%5C%5C%20x_%7Bm%7D%5C%5C%20%5Cend%7Bpmatrix%7D$

（纵向拉伸）

可以看到Y向量下的每一个分量被放在“横向”，X下的每一个变量放在“纵向”上，Y,X对应的分量都是单一标量，可以求出偏导，这样构成的偏导矩阵就是对Y求X偏导结果。

将矩阵形式的损失函数回到之前跟 $eq?A$ 矩阵的关系式，此时损失 $eq?Loss$ 是一个标量，因为最后得到的是一个值（所有样本损失的平方和）。但 $eq?A$ 是一个矩阵（向量），根据矩阵求导方法：XY拉伸术第一条，不需要对 $eq?Loss$ (Y)做处理，但需要将 $eq?A$ （X)纵向拉伸。

$eq?Loss%3D%5C%2C%5Cfrac%7B1%7D%7BN%7DA%5E%7BT%7DA$

$eq?%5Cfrac%7B%5Cpartial%20Loss%7D%7B%5Cpartial%20A%7D%3D%5Cbegin%7Bpmatrix%7D%20%5Cfrac%7B%5Cpartial%20Loss%7D%7B%5Cpartial%20a_%7B1%7D%7D%5C%5C%20%5Cfrac%7B%5Cpartial%20Loss%7D%7B%5Cpartial%20a_%7B2%7D%7D%5C%5C%20...%5C%5C%20%5Cfrac%7B%5Cpartial%20Loss%7D%7B%5Cpartial%20a_%7BN%7D%7D%5C%5C%20%5Cend%7Bpmatrix%7D$ $eq?%5Cbegin%7Bpmatrix%7D%20a_%7B1%7D%5C%5C%20a_%7B2%7D%5C%5C%20...%5C%5C%20a_%7BN%7D%5C%5C%20%5Cend%7Bpmatrix%7D%3DA$

（纵向拉伸）

通过 $eq?A%5E%7BT%7DA$ 的定义，我们可以将 $eq?Loss$ 表达式展开写出来。

$eq?Loss%20%3D%5Cfrac%7B1%7D%7BN%7D%28a_%7B1%7D%5E%7B2%7D+a_%7B2%7D%5E%7B2%7D+...+a_%7BN%7D%5E%7B2%7D%29$

那么 $eq?Loss$ 对每个 $eq?a_%7Bi%7D$ 的偏导就显而易见了。

$eq?%5Cfrac%7B%5Cpartial%20Loss%7D%7B%5Cpartial%20a_%7B1%7D%7D%3D%5Cfrac%7B2%7D%7BN%7Da_%7B1%7D%2C%5Cfrac%7B%5Cpartial%20Loss%7D%7B%5Cpartial%20a_%7B2%7D%7D%3D%5Cfrac%7B2%7D%7BN%7Da_%7B2%7D%2C...%2C%5Cfrac%7B%5Cpartial%20Loss%7D%7B%5Cpartial%20a_%7BN%7D%7D%3D%5Cfrac%7B2%7D%7BN%7Da_%7BN%7D$

提出公因数 $eq?%5Cfrac%7B2%7D%7BN%7D$ ，将其代入偏导矩阵 $eq?%5Cfrac%7B%5Cpartial%20Loss%7D%7B%5Cpartial%20A%7D$ 。

$eq?%5Cfrac%7B%5Cpartial%20Loss%7D%7B%5Cpartial%20A%7D%3D%5Cfrac%7B2%7D%7BN%7D%5Cbegin%7Bpmatrix%7D%20a_%7B1%7D%5C%5C%20a_%7B2%7D%5C%5C%20...%5C%5C%20a_%7BN%7D%5C%5C%20%5Cend%7Bpmatrix%7D$

$eq?%3D%5Cfrac%7B2%7D%7BN%7DA$

可以看到，如果忽略掉常数 $eq?%5Cfrac%7B1%7D%7BN%7D$ ，其实可以得到一个矩阵求导的公式，即

$eq?%5Cfrac%7B%5Cpartial%20A%5E%7BT%7DA%7D%7B%5Cpartial%20A%7D%3D2A$

这里多出一个常数2，为了计算方便，同时不影响损失函数优化的本质，可以改进我们的损失函数得到损失函数的求导矩阵形式。

MSE损失函数求导矩阵形式：

$eq?%5Crightarrow%20Loss%20%3D%5Cfrac%7B1%7D%7B2N%7D%28Y-%5Chat%7BY%7D%29%5E%7BT%7D%28Y-%5Chat%7BY%7D%29$

$eq?%3D%5Cfrac%7B1%7D%7B2N%7D%28Y-X%5ETW%29%5E%7BT%7D%28Y-X%5ETW%29$

仅仅在式子前多乘以一个1/2，用于抵消求导过程中的2倍值作用。

③MSE损失函数的求导链式法则

求导链式法则：

假设 Z=f(X)，Y=g(X)，则存在关系式

$eq?%5Cfrac%7B%5Cpartial%20Z%7D%7B%5Cpartial%20X%7D%3D%5Cfrac%7B%5Cpartial%20Y%7D%7B%5Cpartial%20X%7D%5Cfrac%7B%5Cpartial%20Z%7D%7B%5Cpartial%20Y%7D$

在矩阵求导中，对一个向量求向量导，使用链式法则时可能存在维度方向不匹配的情况，需要交换调整乘法次序。因此矩阵乘法与普通链式法则的乘法顺序相反。

我们关心的是 $eq?Loss$ 关于参数 $eq?W$ 的导数，根据链式法则，可得已知条件如下。

$eq?%5Cleft%5C%7B%5Cbegin%7Bmatrix%7D%5Cfrac%7B%5Cpartial%20Loss%7D%7B%5Cpartial%20W%7D%3D%5Cfrac%7B%5Cpartial%20%5Chat%7BY%7D%7D%7B%5Cpartial%20W%7D%5Cfrac%7B%5Cpartial%20A%7D%7B%5Cpartial%20%5Chat%7BY%7D%7D%5Cfrac%7B%5Cpartial%20Loss%7D%7B%5Cpartial%20A%7D%5C%5C%5C%5C%5Cfrac%7B%5Cpartial%20Loss%7D%7B%5Cpartial%20A%7D%3D%5Cfrac%7B1%7D%7BN%7DA%20%5C%5C%5C%5CA%20%3D%20Y-%5Chat%7BY%7D%20%5C%5C%5Chat%7BY%7D%3DX%5ETW%5C%5C%5C%5CY%20%3D%20%5Cbegin%7Bpmatrix%7D%20y_%7B1%7D%5C%5C%20y_%7B2%7D%5C%5C%20...%5C%5Cy_%7BN%7D%20%5Cend%7Bpmatrix%7D%2C%5Chat%7BY%7D%3D%5Cbegin%7Bpmatrix%7D%20W%5E%7BT%7DX_%7B1%7D%5C%5C%20W%5E%7BT%7DX_%7B2%7D%5C%5C%20...%5C%5C%20W%5E%7BT%7DX_%7BN%7D%20%5C%5C%5Cend%7Bpmatrix%7D%5C%5C%5C%5CX%3D%5Cbegin%7Bpmatrix%7D%20%5Cbegin%7Bpmatrix%7D%20x%5E1_1%5C%5C%20x%5E1_2%5C%5C%20...%5C%5C%20x%5E1_n%5C%5C1%20%5Cend%7Bpmatrix%7D%20%5Cbegin%7Bpmatrix%7D%20x%5E2_1%5C%5C%20x%5E2_2%5C%5C...%5C%5C%20x%5E2_n%20%5C%5C1%5Cend%7Bpmatrix%7D%20%5Cbegin%7Bpmatrix%7D%20...%5C%5C%20...%5C%5C%20...%5C%5C%20...%20%5C%5C1%5Cend%7Bpmatrix%7D%5Cbegin%7Bpmatrix%7D%20x%5EN_1%5C%5C%20x%5EN_2%5C%5C%20...%5C%5C%20x%5EN_n%5C%5C1%20%5Cend%7Bpmatrix%7D%20%5Cend%7Bpmatrix%7D%20%2CW%3D%5Cbegin%7Bpmatrix%7D%20w_1%5C%5C%20w_2%5C%5C%20...%5C%5C%20w_n%5C%5C%5Cepsilon%20%5Cend%7Bpmatrix%7D%5Cend%7Bmatrix%7D%5Cright.$

那么根据已知条件，我们现在需要关心的就是根据求导链式法则得到的损失函数求导中的 $eq?%5Cfrac%7B%5Cpartial%20A%7D%7B%5Cpartial%20%5Chat%7BY%7D%7D$ 和 $eq?%5Cfrac%7B%5Cpartial%20%5Chat%7BY%7D%7D%7B%5Cpartial%20W%7D$ 具体计算结果。

计算 $eq?%5Cfrac%7B%5Cpartial%20A%7D%7B%5Cpartial%20%5Chat%7BY%7D%7D$ ，根据矩阵求导方法，首先确定 $eq?A%2C%5Chat%7BY%7D$ 都为向量。

$eq?A%20%3D%20%5Cbegin%7Bpmatrix%7D%20a_%7B1%7D%3Dy_%7B1%7D-%5Chat%7By_%7B1%7D%7D%5C%5C%20a_%7B2%7D%3Dy_%7B2%7D-%5Chat%7By_%7B2%7D%7D%5C%5C%20...%5C%5C%20a_%7BN%7D%3Dy_%7BN%7D-%5Chat%7By_%7BN%7D%7D%5C%5C%20%5Cend%7Bpmatrix%7D%2C%5Chat%7BY%7D%3D%5Cbegin%7Bpmatrix%7D%20%5Chat%7By_%7B1%7D%7D%5C%5C%20%5Chat%7By_%7B2%7D%7D%5C%5C%20...%5C%5C%20%5Chat%7By_%7BN%7D%7D%5C%5C%20%5Cend%7Bpmatrix%7D$

因此需要对Y（ $eq?A$ ）横向拉伸，对X（ $eq?%5Chat%7BY%7D$ ）纵向拉伸。上述矩阵 $eq?A$ 内已给出各分量 $eq?a_i$ 和 $eq?%5Chat%7BY%7D$ 各分量 $eq?y_i$ 的等式关系。因此可以直接写出各分量求导结果如下。

$eq?%5Cfrac%7B%5Cpartial%20A%7D%7B%5Cpartial%20%5Chat%7BY%7D%7D%20%3D%5Cbegin%7Bpmatrix%7D%20%5Cfrac%7B%5Cpartial%20a_%7B1%7D%7D%7B%5Cpartial%20%5Chat%7By_1%7D%7D%3D-1%20%26%20%5Cfrac%7B%5Cpartial%20a_%7B2%7D%7D%7B%5Cpartial%20%5Chat%7By_1%7D%7D%3D0%20%26%20...%26%5Cfrac%7B%5Cpartial%20a_%7BN%7D%7D%7B%5Cpartial%20%5Chat%7By_1%7D%7D%3D0%20%5C%5C%5C%5C%20%5Cfrac%7B%5Cpartial%20a_%7B1%7D%7D%7B%5Cpartial%20%5Chat%7By_2%7D%7D%3D0%20%26%5Cfrac%7B%5Cpartial%20a_%7B2%7D%7D%7B%5Cpartial%20%5Chat%7By_2%7D%7D%3D-1%20%26...%20%26%5Cfrac%7B%5Cpartial%20a_%7BN%7D%7D%7B%5Cpartial%20%5Chat%7By_2%7D%7D%3D0%20%26%20%5C%5C...%20%26%20...%26%20...%26%20...%26%20%5C%5C%20%5Cfrac%7B%5Cpartial%20a_%7B1%7D%7D%7B%5Cpartial%20%5Chat%7By_N%7D%7D%3D0%20%26%20%5Cfrac%7B%5Cpartial%20a_%7B2%7D%7D%7B%5Cpartial%20%5Chat%7By_N%7D%7D%3D0%20%26%20...%26%5Cfrac%7B%5Cpartial%20a_%7BN%7D%7D%7B%5Cpartial%20%5Chat%7By_%7BN%7D%7D%7D%3D-1%20%26%20%5Cend%7Bpmatrix%7D$

$eq?%3D-I$

$eq?I$ 是对角线全为1的矩阵。

计算 $eq?%5Cfrac%7B%5Cpartial%20%5Chat%7BY%7D%7D%7B%5Cpartial%20W%7D$ ，可确定 $eq?%5Chat%7BY%7D%2CW$ 都为向量。这里对于 $eq?%5Chat%7BY%7D$ 回归到最初的定义形式，方便对分量展开。

$eq?%5Chat%7BY%7D%3D%5Cbegin%7Bpmatrix%7D%20W%5E%7BT%7DX_%7B1%7D%5C%5C%20W%5E%7BT%7DX_%7B2%7D%5C%5C%20...%5C%5C%20W%5E%7BT%7DX_%7BN%7D%20%5C%5C%5Cend%7Bpmatrix%7D%2CW%20%3D%20%5Cbegin%7Bpmatrix%7D%20w_%7B1%7D%5C%5C%20w_%7B2%7D%5C%5C%20...%5C%5C%20w_%7Bn%7D%5C%5C%20%5Cepsilon%20%5C%5C%20%5Cend%7Bpmatrix%7D%2CX_i%3D%5Cbegin%7Bpmatrix%7D%20x%5Ei_1%5C%5C%20x%5Ei_2%5C%5C%20...%5C%5C%20x%5Ei_n%5C%5C%201%20%5Cend%7Bpmatrix%7D$

同理需要对Y（ $eq?%5Chat%7BY%7D$ ）横向拉伸，对X（ $eq?W$ ）纵向拉伸。此处也要将 $eq?%5Chat%7BY%7D$ 的具体式展开。

$eq?%5Chat%7BY%7D%3D%5Cbegin%7Bpmatrix%7D%20%5Chat%7By_%7B1%7D%7D%5C%2C%5C%2C%3D%5C%2C%5C%2CW%5E%7BT%7DX_%7B1%7D%5C%2C%5C%2C%3D%5C%2C%5C%2Cw_%7B1%7Dx_%7B1%7D%5E%7B1%7D+w_%7B2%7Dx_%7B2%7D%5E%7B1%7D+...+w_%7Bn%7Dx_%7Bn%7D%5E%7B1%7D+%5Cepsilon%20%5C%5C%5C%5C%20%5Chat%7By_2%7D%5C%2C%5C%2C%3D%5C%2C%5C%2CW%5E%7BT%7DX_%7B2%7D%5C%2C%5C%2C%3D%5C%2C%5C%2Cw_%7B1%7Dx_%7B1%7D%5E%7B2%7D+w_%7B2%7Dx_%7B2%7D%5E%7B2%7D+...+w_%7Bn%7Dx_%7Bn%7D%5E%7B2%7D+%5Cepsilon%20%5C%5C%20...%5C%5C%5C%5C%20%5C%2C%5C%2C%5Chat%7By_N%7D%3DW%5E%7BT%7DX_%7BN%7D%20%3Dw_%7B1%7Dx_%7B1%7D%5E%7BN%7D+w_%7B2%7Dx_%7B2%7D%5E%7BN%7D+...+w_%7Bn%7Dx_%7Bn%7D%5E%7BN%7D+%5Cepsilon%20%5C%5C%5Cend%7Bpmatrix%7D$

此时使用XY拉伸术，求导结果如下。

$eq?%5Cfrac%7B%5Cpartial%20%5Chat%7BY%7D%7D%7B%5Cpartial%20W%7D%3D%5Cbegin%7Bpmatrix%7D%5Cfrac%7B%5Cpartial%20%5Chat%7By_1%7D%7D%7B%5Cpartial%20w_1%7D%3Dx_1%5E1%20%26%20%5Cfrac%7B%5Cpartial%20%5Chat%7By_2%7D%7D%7B%5Cpartial%20w_1%7D%3Dx_1%5E2%26%20...%26%5Cfrac%7B%5Cpartial%20%5Chat%7By_%7BN%7D%7D%7D%7B%5Cpartial%20w_1%7D%3Dx_1%5EN%20%5C%5C%5C%5C%5Cfrac%7B%5Cpartial%20%5Chat%7By_1%7D%7D%7B%5Cpartial%20w_2%7D%3Dx_2%5E1%20%26%5Cfrac%7B%5Cpartial%20%5Chat%7By_2%7D%7D%7B%5Cpartial%20w_2%7D%3Dx_2%5E2%20%26...%20%26%5Cfrac%7B%5Cpartial%20%5Chat%7By_N%7D%7D%7B%5Cpartial%20w2%7D%3Dx_2%5EN%20%5C%5C%5C%5C%20...%26%20...%26...%20%26...%20%5C%5C%5C%5C%5Cfrac%7B%5Cpartial%20%5Chat%7By_1%7D%7D%7B%5Cpartial%20w_n%7D%3Dx_n%5E1%20%26%20%5Cfrac%7B%5Cpartial%20%5Chat%7By_2%7D%7D%7B%5Cpartial%20w_n%7D%3Dx_n%5E2%26...%20%26%5Cfrac%7B%5Cpartial%20%5Chat%7By_N%7D%7D%7B%5Cpartial%20w_n%7D%3Dx_n%5EN%5C%5C%5C%5C%5Cfrac%7B%5Cpartial%20%5Chat%7By_1%7D%7D%7B%5Cpartial%20%5Cepsilon%20%7D%3D1%20%26%20%5Cfrac%7B%5Cpartial%20%5Chat%7By_2%7D%7D%7B%5Cpartial%20%5Cepsilon%20%7D%3D1%26...%20%26%5Cfrac%7B%5Cpartial%20%5Chat%7By_N%7D%7D%7B%5Cpartial%20%5Cepsilon%20%7D%3D1%20%5Cend%7Bpmatrix%7D$

$eq?%3D%5Cbegin%7Bpmatrix%7D%20x_1%5E1%20%5Cmid%20%26x_1%5E2%20%5Cmid%26...%20%5Cmid%26x_1%5EN%20%5C%5Cx_2%5E1%5Cmid%20%26x_2%5E2%20%5Cmid%26...%5Cmid%20%26x_2%5EN%20%5C%5C...%20%5C%2C%5Cmid%26%20...%5C%2C%5Cmid%26...%20%5Cmid%26...%20%5C%5Cx_n%5E1%20%5Cmid%26x_n%5E2%20%5Cmid%26...%5Cmid%20%26x_n%5EN%20%5C%5C1%5C%2C%5C%2C%5C%2C%5Cmid%261%5C%2C%5C%2C%5C%2C%20%5Cmid%26...%5Cmid%20%261%5Cend%7Bpmatrix%7D$

$eq?%3DX$

可以发现求导结果恰好就是我们之前定义的数据特征集大矩阵 $eq?X$ 。可以将这个结果代入矩阵公式中，得到一个矩阵求导的通式。

$eq?%5Cfrac%7B%5Cpartial%20%5Chat%7BY%7D%7D%7B%5Cpartial%20W%7D%20%3D%5Cfrac%7B%5Cpartial%20%28X%5ETW%29%7D%7B%5Cpartial%20W%7D$

$eq?%3D%28X%5ET%29%5ET$

$eq?%3DX$

最终，将 $eq?%5Cfrac%7B%5Cpartial%20A%7D%7B%5Cpartial%20%5Chat%7BY%7D%7D$ , $eq?%5Cfrac%7B%5Cpartial%20%5Chat%7BY%7D%7D%7B%5Cpartial%20W%7D$ 结果代入，可得求导结果。

$eq?%5Cfrac%7B%5Cpartial%20Loss%7D%7B%5Cpartial%20W%7D%3D%5Cfrac%7B%5Cpartial%20Loss%7D%7B%5Cpartial%20A%7D%5Cfrac%7B%5Cpartial%20A%7D%7B%5Cpartial%20%5Chat%7BY%7D%7D%5Cfrac%7B%5Cpartial%20%5Chat%7BY%7D%7D%7B%5Cpartial%20W%7D$

$eq?%3D%5Cfrac%7B1%7D%7BN%7DX%5Ccdot%20%28-I%29%5Ccdot%20A$

$eq?%3D%5Cfrac%7B1%7D%7BN%7DX%5Ccdot%20%28-I%29%5Ccdot%20%28Y-%5Chat%7BY%7D%29$

$eq?%3D%5Cfrac%7B1%7D%7BN%7D%20X%28%5Chat%7BY%7D-Y%29$

$eq?%3D%5Cfrac%7B1%7D%7BN%7DX%28X%5ETW-Y%29$

④MSE的矩阵二阶导的凸性保证

在梯度下降法中，我们给出了MSE损失函数的图像（一个开口向上的抛物线），此时损失函数是凸的，因此导数等于零时有唯一最小解。但是并没有证明损失函数一定是凸的，因此对于直接求导法对导数取零以算出最优参数前，还需证明损失函数是凸的，即导数等于零的点一定是函数唯一的最小值点，而不是局部极小值。这需要二阶导来判断。

对上述一阶导结果 $eq?%5Cfrac%7B%5Cpartial%20Loss%7D%7B%5Cpartial%20W%7D$ ，我们再对 $eq?W$ 求导，首先先将一阶导结果展开，跟 $eq?W$ 相关的项只有 $eq?XX%5ETW$ ,根据我们之前总结的公式，可以将 ( $eq?XX%5ET$ )视作一个整体，因此可以直接计算出损失函数的二阶导如下。

$eq?%5Cfrac%7B%5Cpartial%20Loss%7D%7B%5Cpartial%20W%7D%3D%5Cfrac%7B1%7D%7BN%7DX%28X%5ETW-Y%29$

$eq?%3D%5Cfrac%7B1%7D%7BN%7D%28XX%5ETW-XY%29$

$eq?%5Cfrac%7B%5Cpartial%20XX%5ETW%7D%7B%5Cpartial%20W%7D%3D%28XX%5ET%29%5ET$

$eq?%3DXX%5ET$

$eq?%5Cfrac%7B%5Cpartial%5E2%20Loss%7D%7B%5Cpartial%20W%5E2%7D%20%3D%20%5Cfrac%7B1%7D%7BN%7DXX%5ET$

现在来研究一下这个二阶导矩阵的形状， $eq?X$ 是一个（n+1)*N 的矩阵，因此 $eq?XX%5ET$ 是一个（n+1)*(n+1) 的矩阵。这个二阶导矩阵被称为Hessian矩阵，只要可以证明其是正定矩阵，则说明损失函数是严格的凸函数。

正定矩阵：对于实对称方阵 $eq?A$ ，满足 $eq?x%5ETAx%3E%200$ ，则 $eq?A$ 为正定矩阵

矩阵合同：存在可逆矩阵 $eq?P$ ，使得 $eq?B%20%3D%20P%5ETAP$ ，则 $eq?A%2CB$ 合同

合同、二次型与正定性： $eq?A%2CB$ 合同，其二次型也相等，即 $eq?x%5ETAx%3Dx%5ETBx$ ，则 $eq?A%2CB$ 具有相同正定性。

观测二阶导结果，可知一定存在可逆矩阵 $eq?X$ ，使得二阶导结果 $eq?%5Cfrac%7B1%7D%7BN%7DXX%5ET$ 合同于单位阵 $eq?I$ ，而单位阵一定是正定矩阵，说明二阶导也是正定的，损失函数一定是凸的，因此可以直接对一阶导取零得出唯一的最小值点。

$eq?%5Cexists%20X%2C%20%5Cleft%20%7C%20X%20%5Cright%20%7C%5Cneq%200%2C%5C%5CX%5ET%5Ccdot%20%28XX%5ET%29%5Ccdot%20X%20%3DI%5C%5CXX%5ET%5Csim%20I$

终于，我们可以取一阶导为零，然后得到模型的最优解 $eq?W%5E*$ 。

$eq?%5Cfrac%7B%5Cpartial%20Loss%7D%7B%5Cpartial%20W%7D%3D%5Cfrac%7B1%7D%7BN%7DX%28X%5ETW-Y%29%3D0%5C%5C%5C%5C%5CRightarrow%20XX%5ETW%3DXY%5C%5C%5CRightarrow%20W%5E*%3D%28XX%5ET%29%5E%7B-1%7DXY$

这意味着我们如果使用线性模型，已知训练的特征数据和目标数据，我们马上就可以根据上式得到最优的模型参数（回归模型各个权值）。

【本文地址】

机器学习数学原理专题

机器学习数学原理专题

今日新闻

推荐新闻