为什么沿着梯度相反的方向更新参数 |
您所在的位置:网站首页 › 方向导数一定为正吗为什么 › 为什么沿着梯度相反的方向更新参数 |
为什么说,沿着梯度相反的方向函数值下降最快
我们假设损失函数是 f ( x ) f(x) f(x), x x x就是神经网络的参数,我们的目的是最小化损失函数,也就是不断让 f ( x ) f(x) f(x)减小。 那么根据高等数学中的泰勒公式,我们知道函数 f ( x ) f(x) f(x)的一阶泰勒公式如下 f ( x + Δ x ) = f ( x ) + f ′ ( x ) Δ x + o ( Δ x ) f(x+\Delta x)=f(x)+f'(x)\Delta x+o(\Delta x) f(x+Δx)=f(x)+f′(x)Δx+o(Δx) 其中 f ′ ( x ) f'(x) f′(x)我们都知道是导数,在神经网络中,它就是梯度,因为 x x x是很多的参数,所以 x x x和 f ′ ( x ) f'(x) f′(x)都是向量。 我们的目的是让函数值减小,所以 f ( x + Δ x ) f(x+\Delta x) f(x+Δx)要小于 f ( x ) f(x) f(x)。 那么根据上式我们知道,想要 f ( x + Δ x ) < f ( x ) f(x+\Delta x) |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |