上篇博客介绍了最小均方算法(LMS),其实里面的东西包含的很多,其中有最小二乘法,梯度下降以及随机梯度下降法。这篇博客着重介绍最小二乘法的推导,来源以及做一点儿推广。下面进入正题:
最小二乘法的闭形式推导
在上篇博客我们引入了 J(θ) 成本函数的具体形式,这里我们要推导出关于 θ 的“闭形式”,数学上也称为解析解的形式。下面我们要重新将 J 写成矩阵乘向量的形式。
给定一个训练集,定义“设计矩阵”
X
是一个 m∗n 的矩阵(实际上就是样本输入变量写成的矩阵,下面就看到了),这里要注意实际上是 m∗(n+1) 维矩阵,至于为什么 n+1 维矩阵呢?这里要回头看看上篇博客里面的截矩项,他多占了其中的一个维度。不过为了叙述方便,我们还是统一为 n 维。 我们先给出
X
的矩阵形式,
⎡⎣⎢⎢⎢⎢⎢⎢x(1)Tx(2)T⋮x(m)T⎤⎦⎥⎥⎥⎥⎥⎥
这里我们还是保留了老传统,样本数量是
m
个,特征的维度总数为
n
维。另外,里面的
x
都是列向量。
接下来,相对应的就是数据项,也就是我们样本已经有的观测数据项,再清楚点儿就是我们监督学习里面起到“监督”二字的关键,那么他本身应该是对应
x
的维度的,那么这样的话,我们就能够得到
m
维的向量
y
了,见下面形式
Y
为:
⎡⎣⎢⎢⎢⎢⎢y(1)y(2)⋮y(m)⎤⎦⎥⎥⎥⎥⎥
现在因为
hθ(x(i))=(x(i))Tθ
,那么我们简单的写出数据拟合的形式即
Xθ−Y=⎡⎣⎢⎢⎢⎢⎢⎢x(1)
|