凸优化 [1]:梯度与次梯度 |
您所在的位置:网站首页 › 什么叫梯度场的概念 › 凸优化 [1]:梯度与次梯度 |
凸优化 [1]:梯度与次梯度
一元微积分中
在数学分析中,引入可微和可导的概念。(摘自《数学分析(高等教育出版社)》第四章) 可微对函数 y = f ( x ) y=f(x) y=f(x) ,若 ∀ x ∈ X \forall x \in X ∀x∈X ,若存在一个只与 x x x 有关的数 g ( x ) g(x) g(x) 使得: Δ y = g ( x ) Δ x + o ( Δ x ) \Delta y=g(x)\Delta x + o(\Delta x) Δy=g(x)Δx+o(Δx) 则称 f ( x ) f(x) f(x) 在 X X X 上可微。 可导若函数 y = f ( x ) y=f(x) y=f(x) ,若 ∀ x ∈ X \forall x\in X ∀x∈X,极限: lim Δ x → 0 f ( x + Δ x ) − f ( x ) Δ x \lim_{\Delta x\rightarrow 0}\frac{f(x+\Delta x)-f(x)}{\Delta x} Δx→0limΔxf(x+Δx)−f(x) 存在,则称 f ( x ) f(x) f(x) 可导。 一元条件下,可导与可微是等价的,但是更高维条件下,并不是等价的。 高维梯度一般考虑 n n n 维 Euclid 空间。 这里说明之前可导不一定可微的情况:在高维下: 可微必定可偏导可导不一定可微(若函数在任一个方向上偏导都存在,并不能说明该点可微)。反例:在 ( 0 , 0 ) (0,0) (0,0) 处的全微分f ( x , y ) = { 2 x y 3 x 2 + y 4 x 2 + y 2 ≠ 0 0 o t h e r w i s e f(x,y)=\begin{cases} \frac{2xy^3}{x^2+y^4} &x^2+y^2\ne 0\\ 0&otherwise \end{cases} f(x,y)={x2+y42xy30x2+y2=0otherwise 梯度函数 f ( x ) f(x) f(x), 其中 x = [ x 1 ⋮ x n ] x=\left[\begin{matrix}x_1\\\vdots\\x_n\end{matrix}\right] x=⎣⎢⎡x1⋮xn⎦⎥⎤ ,这一般是凸优化中的目标函数。若凸优化是无约束的,当梯度为 0 0 0 的时候,这个点就是局部最优点。则该函数的梯度为: ∇ f ( x ) = [ ∂ f ( x ) ∂ x 1 ⋮ ∂ f ( x ) ∂ x n ] \nabla f(x) = \left[\begin{matrix}\frac{\partial f(x)}{\partial x_1}\\\vdots\\\frac{\partial f(x)}{\partial x_n}\end{matrix}\right] ∇f(x)=⎣⎢⎢⎡∂x1∂f(x)⋮∂xn∂f(x)⎦⎥⎥⎤ 梯度满足如下性质: ∇ ( f ( x ) + g ( x ) ) = ∇ f ( x ) + ∇ g ( x ) \nabla (f(x)+g(x))=\nabla f(x) + \nabla g(x) ∇(f(x)+g(x))=∇f(x)+∇g(x) ∇ α f ( x ) = α ∇ f ( x ) \nabla \alpha f(x)=\alpha \nabla f(x) ∇αf(x)=α∇f(x) ∇ f ( g ( x ) ) = ∇ g ( x ) ∇ f ( g ( x ) ) \nabla f(g(x))=\nabla g(x) \nabla f(g(x)) ∇f(g(x))=∇g(x)∇f(g(x)) 高维函数的二阶导一般在优化问题中,需要对目标函数进行二阶 Taylor 展开: f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ( y − x ) T ∇ 2 f ( x ) ( y − x ) + o ( ∥ y − x ∥ 2 ) f(y) = f(x)+\nabla f(x)^T(y-x)+\frac{1}{2}(y-x)^T\nabla^2 f(x)(y-x)+o(\|y-x\|^2) f(y)=f(x)+∇f(x)T(y−x)+21(y−x)T∇2f(x)(y−x)+o(∥y−x∥2) 这里就用到了高位函数的二阶导(Hessian矩阵)。 H = ∇ 2 f ( x ) = [ ∂ 2 f ( x ) ∂ x 1 ∂ x 1 ⋯ ∂ 2 f ( x ) ∂ x 1 ∂ x n ⋮ ⋱ ⋮ ∂ 2 f ( x ) ∂ x n ∂ x 1 ⋯ ∂ 2 f ( x ) ∂ x n ∂ x n ] ∈ R n × n H = \nabla^2 f(x) = \left[\begin{matrix}\frac{\partial^2 f(x)}{\partial x_1\partial x_1}&\cdots&\frac{\partial^2 f(x)}{\partial x_1\partial x_n} \\ \vdots&\ddots&\vdots\\ \frac{\partial^2 f(x)}{\partial x_n\partial x_1}&\cdots&\frac{\partial^2 f(x)}{\partial x_n\partial x_n}\end{matrix}\right]\in \R^{n\times n} H=∇2f(x)=⎣⎢⎢⎡∂x1∂x1∂2f(x)⋮∂xn∂x1∂2f(x)⋯⋱⋯∂x1∂xn∂2f(x)⋮∂xn∂xn∂2f(x)⎦⎥⎥⎤∈Rn×n Hessian 矩阵满足性质: H T = H H^T=H HT=H。对于对称矩阵,可以进行谱分解。严格凸函数来说,Hessian 一定对称正定的。根据对称矩阵谱分解的性质,可以推出Hessian 所有特征值都是正的。 Hessian 矩阵的性质: ∇ 2 α f ( x ) = α ∇ 2 f ( x ) \nabla^2 \alpha f(x) = \alpha\nabla^2 f(x) ∇2αf(x)=α∇2f(x) ∇ 2 ( f ( x ) + g ( x ) ) = ∇ 2 f ( x ) + ∇ 2 g ( x ) \nabla^2 (f(x)+g(x))=\nabla^2 f(x) + \nabla^2 g(x) ∇2(f(x)+g(x))=∇2f(x)+∇2g(x) 向量值函数对于向量值函数 f ( x ) = [ f 1 ( x ) ⋮ f m ( x ) ] f(x)=\left[\begin{matrix}f_1(x)\\\vdots\\f_m(x)\end{matrix}\right] f(x)=⎣⎢⎡f1(x)⋮fm(x)⎦⎥⎤, 其中 x = [ x 1 ⋮ x n ] x=\left[\begin{matrix}x_1\\\vdots\\x_n\end{matrix}\right] x=⎣⎢⎡x1⋮xn⎦⎥⎤ ,这类函数经常作为凸优化中的约束函数出现。该函数的导函数为一个 Jacobi 矩阵: ∇ f ( x ) = [ ∂ f 1 ( x ) ∂ x 1 ⋯ ∂ f 1 ( x ) ∂ x n ⋮ ⋱ ⋮ ∂ f m ( x ) ∂ x 1 ⋯ ∂ f m ( x ) ∂ x n ] ∈ R m × n \nabla f(x) = \left[\begin{matrix}\frac{\partial f_1(x)}{\partial x_1}&\cdots&\frac{\partial f_1(x)}{\partial x_n} \\ \vdots&\ddots&\vdots\\ \frac{\partial f_m(x)}{\partial x_1}&\cdots&\frac{\partial f_m(x)}{\partial x_n}\end{matrix}\right]\in \R^{m\times n} ∇f(x)=⎣⎢⎢⎡∂x1∂f1(x)⋮∂x1∂fm(x)⋯⋱⋯∂xn∂f1(x)⋮∂xn∂fm(x)⎦⎥⎥⎤∈Rm×n 次梯度对于 Lagrange 对偶问题来说,因为求解的是上界的下界,会有不连续点的出现,在这个时候,就会出现梯度不存在的情况。因此这里引入了次梯度的概念: 由凸函数满足的不等式: f ( y ) ≥ ∇ f ( x ) T ( y − x ) f(y) \ge \nabla f(x)^T(y-x) f(y)≥∇f(x)T(y−x) 可以类似的推出次梯度的形式: f ( y ) ≥ g T ( y − x ) , ∀ y f(y)\ge g^T (y-x),\forall y f(y)≥gT(y−x),∀y 给定 x x x ,满足上式的 g g g 的集合就是次梯度,记作 ∂ f = g \partial f=g ∂f=g 。次梯度是一个集合,如果梯度存在,则次梯度内只存在一个元素:就是梯度本身。 次梯度满足的性质: ∂ ( α f ) = α ∂ f \partial (\alpha f)=\alpha\partial f ∂(αf)=α∂f ∂ ( f 1 + f 2 ) = ∂ f 1 + ∂ f 2 \partial (f_1+f_2)=\partial f_1+\partial f_2 ∂(f1+f2)=∂f1+∂f2若 g ( x ) = f ( A x + b ) g(x)=f(Ax+b) g(x)=f(Ax+b) 则: ∂ g ( x ) = A T ∂ f ( A x + b ) \partial g(x)=A^T\partial f(Ax+b) ∂g(x)=AT∂f(Ax+b)。注:这里形式上与梯度类似,但只限于仿射变换形式下才成立。 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |