为什么沿着梯度相反的方向更新参数

您所在的位置:网站首页 方向导数一定为正吗为什么 为什么沿着梯度相反的方向更新参数

为什么沿着梯度相反的方向更新参数

#为什么沿着梯度相反的方向更新参数| 来源: 网络整理| 查看: 265

为什么说,沿着梯度相反的方向函数值下降最快

我们假设损失函数是 f ( x ) f(x) f(x), x x x就是神经网络的参数,我们的目的是最小化损失函数,也就是不断让 f ( x ) f(x) f(x)减小。

那么根据高等数学中的泰勒公式,我们知道函数 f ( x ) f(x) f(x)的一阶泰勒公式如下 f ( x + Δ x ) = f ( x ) + f ′ ( x ) Δ x + o ( Δ x ) f(x+\Delta x)=f(x)+f'(x)\Delta x+o(\Delta x) f(x+Δx)=f(x)+f′(x)Δx+o(Δx)

其中 f ′ ( x ) f'(x) f′(x)我们都知道是导数,在神经网络中,它就是梯度,因为 x x x是很多的参数,所以 x x x和 f ′ ( x ) f'(x) f′(x)都是向量。

我们的目的是让函数值减小,所以 f ( x + Δ x ) f(x+\Delta x) f(x+Δx)要小于 f ( x ) f(x) f(x)。 那么根据上式我们知道,想要 f ( x + Δ x ) < f ( x ) f(x+\Delta x)



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3