凸优化 [1]:梯度与次梯度

您所在的位置:网站首页 什么叫梯度场的概念 凸优化 [1]:梯度与次梯度

凸优化 [1]:梯度与次梯度

2024-07-15 19:59| 来源: 网络整理| 查看: 265

凸优化 [1]:梯度与次梯度 一元微积分中

在数学分析中,引入可微和可导的概念。(摘自《数学分析(高等教育出版社)》第四章)

可微

对函数 y = f ( x ) y=f(x) y=f(x) ,若 ∀ x ∈ X \forall x \in X ∀x∈X ,若存在一个只与 x x x 有关的数 g ( x ) g(x) g(x) 使得:

Δ y = g ( x ) Δ x + o ( Δ x ) \Delta y=g(x)\Delta x + o(\Delta x) Δy=g(x)Δx+o(Δx)

则称 f ( x ) f(x) f(x) 在 X X X 上可微。

可导

若函数 y = f ( x ) y=f(x) y=f(x) ,若 ∀ x ∈ X \forall x\in X ∀x∈X,极限:

lim ⁡ Δ x → 0 f ( x + Δ x ) − f ( x ) Δ x \lim_{\Delta x\rightarrow 0}\frac{f(x+\Delta x)-f(x)}{\Delta x} Δx→0lim​Δxf(x+Δx)−f(x)​

存在,则称 f ( x ) f(x) f(x) 可导。

一元条件下,可导与可微是等价的,但是更高维条件下,并不是等价的。

高维梯度

一般考虑 n n n 维 Euclid 空间。

这里说明之前可导不一定可微的情况:在高维下:

可微必定可偏导可导不一定可微(若函数在任一个方向上偏导都存在,并不能说明该点可微)。反例:在 ( 0 , 0 ) (0,0) (0,0) 处的全微分

f ( x , y ) = { 2 x y 3 x 2 + y 4 x 2 + y 2 ≠ 0 0 o t h e r w i s e f(x,y)=\begin{cases} \frac{2xy^3}{x^2+y^4} &x^2+y^2\ne 0\\ 0&otherwise \end{cases} f(x,y)={x2+y42xy3​0​x2+y2​=0otherwise​

梯度

函数 f ( x ) f(x) f(x), 其中 x = [ x 1 ⋮ x n ] x=\left[\begin{matrix}x_1\\\vdots\\x_n\end{matrix}\right] x=⎣⎢⎡​x1​⋮xn​​⎦⎥⎤​ ,这一般是凸优化中的目标函数。若凸优化是无约束的,当梯度为 0 0 0 的时候,这个点就是局部最优点。则该函数的梯度为:

∇ f ( x ) = [ ∂ f ( x ) ∂ x 1 ⋮ ∂ f ( x ) ∂ x n ] \nabla f(x) = \left[\begin{matrix}\frac{\partial f(x)}{\partial x_1}\\\vdots\\\frac{\partial f(x)}{\partial x_n}\end{matrix}\right] ∇f(x)=⎣⎢⎢⎡​∂x1​∂f(x)​⋮∂xn​∂f(x)​​⎦⎥⎥⎤​

梯度满足如下性质:

∇ ( f ( x ) + g ( x ) ) = ∇ f ( x ) + ∇ g ( x ) \nabla (f(x)+g(x))=\nabla f(x) + \nabla g(x) ∇(f(x)+g(x))=∇f(x)+∇g(x) ∇ α f ( x ) = α ∇ f ( x ) \nabla \alpha f(x)=\alpha \nabla f(x) ∇αf(x)=α∇f(x) ∇ f ( g ( x ) ) = ∇ g ( x ) ∇ f ( g ( x ) ) \nabla f(g(x))=\nabla g(x) \nabla f(g(x)) ∇f(g(x))=∇g(x)∇f(g(x)) 高维函数的二阶导

一般在优化问题中,需要对目标函数进行二阶 Taylor 展开:

f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ( y − x ) T ∇ 2 f ( x ) ( y − x ) + o ( ∥ y − x ∥ 2 ) f(y) = f(x)+\nabla f(x)^T(y-x)+\frac{1}{2}(y-x)^T\nabla^2 f(x)(y-x)+o(\|y-x\|^2) f(y)=f(x)+∇f(x)T(y−x)+21​(y−x)T∇2f(x)(y−x)+o(∥y−x∥2)

这里就用到了高位函数的二阶导(Hessian矩阵)。

H = ∇ 2 f ( x ) = [ ∂ 2 f ( x ) ∂ x 1 ∂ x 1 ⋯ ∂ 2 f ( x ) ∂ x 1 ∂ x n ⋮ ⋱ ⋮ ∂ 2 f ( x ) ∂ x n ∂ x 1 ⋯ ∂ 2 f ( x ) ∂ x n ∂ x n ] ∈ R n × n H = \nabla^2 f(x) = \left[\begin{matrix}\frac{\partial^2 f(x)}{\partial x_1\partial x_1}&\cdots&\frac{\partial^2 f(x)}{\partial x_1\partial x_n} \\ \vdots&\ddots&\vdots\\ \frac{\partial^2 f(x)}{\partial x_n\partial x_1}&\cdots&\frac{\partial^2 f(x)}{\partial x_n\partial x_n}\end{matrix}\right]\in \R^{n\times n} H=∇2f(x)=⎣⎢⎢⎡​∂x1​∂x1​∂2f(x)​⋮∂xn​∂x1​∂2f(x)​​⋯⋱⋯​∂x1​∂xn​∂2f(x)​⋮∂xn​∂xn​∂2f(x)​​⎦⎥⎥⎤​∈Rn×n

Hessian 矩阵满足性质: H T = H H^T=H HT=H。对于对称矩阵,可以进行谱分解。严格凸函数来说,Hessian 一定对称正定的。根据对称矩阵谱分解的性质,可以推出Hessian 所有特征值都是正的。

Hessian 矩阵的性质:

∇ 2 α f ( x ) = α ∇ 2 f ( x ) \nabla^2 \alpha f(x) = \alpha\nabla^2 f(x) ∇2αf(x)=α∇2f(x) ∇ 2 ( f ( x ) + g ( x ) ) = ∇ 2 f ( x ) + ∇ 2 g ( x ) \nabla^2 (f(x)+g(x))=\nabla^2 f(x) + \nabla^2 g(x) ∇2(f(x)+g(x))=∇2f(x)+∇2g(x) 向量值函数

对于向量值函数 f ( x ) = [ f 1 ( x ) ⋮ f m ( x ) ] f(x)=\left[\begin{matrix}f_1(x)\\\vdots\\f_m(x)\end{matrix}\right] f(x)=⎣⎢⎡​f1​(x)⋮fm​(x)​⎦⎥⎤​, 其中 x = [ x 1 ⋮ x n ] x=\left[\begin{matrix}x_1\\\vdots\\x_n\end{matrix}\right] x=⎣⎢⎡​x1​⋮xn​​⎦⎥⎤​ ,这类函数经常作为凸优化中的约束函数出现。该函数的导函数为一个 Jacobi 矩阵:

∇ f ( x ) = [ ∂ f 1 ( x ) ∂ x 1 ⋯ ∂ f 1 ( x ) ∂ x n ⋮ ⋱ ⋮ ∂ f m ( x ) ∂ x 1 ⋯ ∂ f m ( x ) ∂ x n ] ∈ R m × n \nabla f(x) = \left[\begin{matrix}\frac{\partial f_1(x)}{\partial x_1}&\cdots&\frac{\partial f_1(x)}{\partial x_n} \\ \vdots&\ddots&\vdots\\ \frac{\partial f_m(x)}{\partial x_1}&\cdots&\frac{\partial f_m(x)}{\partial x_n}\end{matrix}\right]\in \R^{m\times n} ∇f(x)=⎣⎢⎢⎡​∂x1​∂f1​(x)​⋮∂x1​∂fm​(x)​​⋯⋱⋯​∂xn​∂f1​(x)​⋮∂xn​∂fm​(x)​​⎦⎥⎥⎤​∈Rm×n

次梯度

对于 Lagrange 对偶问题来说,因为求解的是上界的下界,会有不连续点的出现,在这个时候,就会出现梯度不存在的情况。因此这里引入了次梯度的概念:

由凸函数满足的不等式:

f ( y ) ≥ ∇ f ( x ) T ( y − x ) f(y) \ge \nabla f(x)^T(y-x) f(y)≥∇f(x)T(y−x)

可以类似的推出次梯度的形式:

f ( y ) ≥ g T ( y − x ) , ∀ y f(y)\ge g^T (y-x),\forall y f(y)≥gT(y−x),∀y

给定 x x x ,满足上式的 g g g 的集合就是次梯度,记作 ∂ f = g \partial f=g ∂f=g 。次梯度是一个集合,如果梯度存在,则次梯度内只存在一个元素:就是梯度本身。

次梯度满足的性质:

∂ ( α f ) = α ∂ f \partial (\alpha f)=\alpha\partial f ∂(αf)=α∂f ∂ ( f 1 + f 2 ) = ∂ f 1 + ∂ f 2 \partial (f_1+f_2)=\partial f_1+\partial f_2 ∂(f1​+f2​)=∂f1​+∂f2​若 g ( x ) = f ( A x + b ) g(x)=f(Ax+b) g(x)=f(Ax+b) 则: ∂ g ( x ) = A T ∂ f ( A x + b ) \partial g(x)=A^T\partial f(Ax+b) ∂g(x)=AT∂f(Ax+b)。注:这里形式上与梯度类似,但只限于仿射变换形式下才成立。


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3