凸优化 [1]：梯度与次梯度

您所在的位置：网站首页 › 什么叫梯度场的概念 › 凸优化 [1]：梯度与次梯度

凸优化 [1]：梯度与次梯度

2024-07-15 19:59| 来源: 网络整理| 查看: 265

凸优化 [1]：梯度与次梯度一元微积分中

在数学分析中，引入可微和可导的概念。（摘自《数学分析（高等教育出版社）》第四章）

可微

对函数 y = f ( x ) y=f(x) y=f(x) ，若 ∀ x ∈ X \forall x \in X ∀x∈X ，若存在一个只与 x x x 有关的数 g ( x ) g(x) g(x) 使得：

Δ y = g ( x ) Δ x + o ( Δ x ) \Delta y=g(x)\Delta x + o(\Delta x) Δy=g(x)Δx+o(Δx)

则称 f ( x ) f(x) f(x) 在 X X X 上可微。

可导

若函数 y = f ( x ) y=f(x) y=f(x) ，若 ∀ x ∈ X \forall x\in X ∀x∈X，极限：

lim ⁡ Δ x → 0 f ( x + Δ x ) − f ( x ) Δ x \lim_{\Delta x\rightarrow 0}\frac{f(x+\Delta x)-f(x)}{\Delta x} Δx→0limΔxf(x+Δx)−f(x)

存在，则称 f ( x ) f(x) f(x) 可导。

一元条件下，可导与可微是等价的，但是更高维条件下，并不是等价的。

高维梯度

一般考虑 n n n 维 Euclid 空间。

这里说明之前可导不一定可微的情况：在高维下：

可微必定可偏导可导不一定可微（若函数在任一个方向上偏导都存在，并不能说明该点可微）。反例：在 ( 0 , 0 ) (0,0) (0,0) 处的全微分

f ( x , y ) = { 2 x y 3 x 2 + y 4 x 2 + y 2 ≠ 0 0 o t h e r w i s e f(x,y)=\begin{cases} \frac{2xy^3}{x^2+y^4} &x^2+y^2\ne 0\\ 0&otherwise \end{cases} f(x,y)={x2+y42xy30x2+y2=0otherwise

梯度

函数 f ( x ) f(x) f(x)，其中 x = [ x 1 ⋮ x n ] x=\left[\begin{matrix}x_1\\\vdots\\x_n\end{matrix}\right] x=⎣⎢⎡x1⋮xn⎦⎥⎤ ，这一般是凸优化中的目标函数。若凸优化是无约束的，当梯度为 0 0 0 的时候，这个点就是局部最优点。则该函数的梯度为：

∇ f ( x ) = [ ∂ f ( x ) ∂ x 1 ⋮ ∂ f ( x ) ∂ x n ] \nabla f(x) = \left[\begin{matrix}\frac{\partial f(x)}{\partial x_1}\\\vdots\\\frac{\partial f(x)}{\partial x_n}\end{matrix}\right] ∇f(x)=⎣⎢⎢⎡∂x1∂f(x)⋮∂xn∂f(x)⎦⎥⎥⎤

梯度满足如下性质：

∇ ( f ( x ) + g ( x ) ) = ∇ f ( x ) + ∇ g ( x ) \nabla (f(x)+g(x))=\nabla f(x) + \nabla g(x) ∇(f(x)+g(x))=∇f(x)+∇g(x) ∇ α f ( x ) = α ∇ f ( x ) \nabla \alpha f(x)=\alpha \nabla f(x) ∇αf(x)=α∇f(x) ∇ f ( g ( x ) ) = ∇ g ( x ) ∇ f ( g ( x ) ) \nabla f(g(x))=\nabla g(x) \nabla f(g(x)) ∇f(g(x))=∇g(x)∇f(g(x)) 高维函数的二阶导

一般在优化问题中，需要对目标函数进行二阶 Taylor 展开：

f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ( y − x ) T ∇ 2 f ( x ) ( y − x ) + o ( ∥ y − x ∥ 2 ) f(y) = f(x)+\nabla f(x)^T(y-x)+\frac{1}{2}(y-x)^T\nabla^2 f(x)(y-x)+o(\|y-x\|^2) f(y)=f(x)+∇f(x)T(y−x)+21(y−x)T∇2f(x)(y−x)+o(∥y−x∥2)

这里就用到了高位函数的二阶导（Hessian矩阵）。

H = ∇ 2 f ( x ) = [ ∂ 2 f ( x ) ∂ x 1 ∂ x 1 ⋯ ∂ 2 f ( x ) ∂ x 1 ∂ x n ⋮ ⋱ ⋮ ∂ 2 f ( x ) ∂ x n ∂ x 1 ⋯ ∂ 2 f ( x ) ∂ x n ∂ x n ] ∈ R n × n H = \nabla^2 f(x) = \left[\begin{matrix}\frac{\partial^2 f(x)}{\partial x_1\partial x_1}&\cdots&\frac{\partial^2 f(x)}{\partial x_1\partial x_n} \\ \vdots&\ddots&\vdots\\ \frac{\partial^2 f(x)}{\partial x_n\partial x_1}&\cdots&\frac{\partial^2 f(x)}{\partial x_n\partial x_n}\end{matrix}\right]\in \R^{n\times n} H=∇2f(x)=⎣⎢⎢⎡∂x1∂x1∂2f(x)⋮∂xn∂x1∂2f(x)⋯⋱⋯∂x1∂xn∂2f(x)⋮∂xn∂xn∂2f(x)⎦⎥⎥⎤∈Rn×n

Hessian 矩阵满足性质： H T = H H^T=H HT=H。对于对称矩阵，可以进行谱分解。严格凸函数来说，Hessian 一定对称正定的。根据对称矩阵谱分解的性质，可以推出Hessian 所有特征值都是正的。

Hessian 矩阵的性质：

∇ 2 α f ( x ) = α ∇ 2 f ( x ) \nabla^2 \alpha f(x) = \alpha\nabla^2 f(x) ∇2αf(x)=α∇2f(x) ∇ 2 ( f ( x ) + g ( x ) ) = ∇ 2 f ( x ) + ∇ 2 g ( x ) \nabla^2 (f(x)+g(x))=\nabla^2 f(x) + \nabla^2 g(x) ∇2(f(x)+g(x))=∇2f(x)+∇2g(x) 向量值函数

对于向量值函数 f ( x ) = [ f 1 ( x ) ⋮ f m ( x ) ] f(x)=\left[\begin{matrix}f_1(x)\\\vdots\\f_m(x)\end{matrix}\right] f(x)=⎣⎢⎡f1(x)⋮fm(x)⎦⎥⎤，其中 x = [ x 1 ⋮ x n ] x=\left[\begin{matrix}x_1\\\vdots\\x_n\end{matrix}\right] x=⎣⎢⎡x1⋮xn⎦⎥⎤ ，这类函数经常作为凸优化中的约束函数出现。该函数的导函数为一个 Jacobi 矩阵：

∇ f ( x ) = [ ∂ f 1 ( x ) ∂ x 1 ⋯ ∂ f 1 ( x ) ∂ x n ⋮ ⋱ ⋮ ∂ f m ( x ) ∂ x 1 ⋯ ∂ f m ( x ) ∂ x n ] ∈ R m × n \nabla f(x) = \left[\begin{matrix}\frac{\partial f_1(x)}{\partial x_1}&\cdots&\frac{\partial f_1(x)}{\partial x_n} \\ \vdots&\ddots&\vdots\\ \frac{\partial f_m(x)}{\partial x_1}&\cdots&\frac{\partial f_m(x)}{\partial x_n}\end{matrix}\right]\in \R^{m\times n} ∇f(x)=⎣⎢⎢⎡∂x1∂f1(x)⋮∂x1∂fm(x)⋯⋱⋯∂xn∂f1(x)⋮∂xn∂fm(x)⎦⎥⎥⎤∈Rm×n

次梯度

对于 Lagrange 对偶问题来说，因为求解的是上界的下界，会有不连续点的出现，在这个时候，就会出现梯度不存在的情况。因此这里引入了次梯度的概念：

由凸函数满足的不等式：

f ( y ) ≥ ∇ f ( x ) T ( y − x ) f(y) \ge \nabla f(x)^T(y-x) f(y)≥∇f(x)T(y−x)

可以类似的推出次梯度的形式：

f ( y ) ≥ g T ( y − x ) , ∀ y f(y)\ge g^T (y-x),\forall y f(y)≥gT(y−x),∀y

给定 x x x ，满足上式的 g g g 的集合就是次梯度，记作 ∂ f = g \partial f=g ∂f=g 。次梯度是一个集合，如果梯度存在，则次梯度内只存在一个元素：就是梯度本身。

次梯度满足的性质：

∂ ( α f ) = α ∂ f \partial (\alpha f)=\alpha\partial f ∂(αf)=α∂f ∂ ( f 1 + f 2 ) = ∂ f 1 + ∂ f 2 \partial (f_1+f_2)=\partial f_1+\partial f_2 ∂(f1+f2)=∂f1+∂f2若 g ( x ) = f ( A x + b ) g(x)=f(Ax+b) g(x)=f(Ax+b) 则： ∂ g ( x ) = A T ∂ f ( A x + b ) \partial g(x)=A^T\partial f(Ax+b) ∂g(x)=AT∂f(Ax+b)。注：这里形式上与梯度类似，但只限于仿射变换形式下才成立。

【本文地址】

凸优化 [1]：梯度与次梯度

凸优化 [1]：梯度与次梯度

今日新闻

推荐新闻