Subgradients 次梯度
S. Boyd and L. Vandenberghe
Notes for EE364b, Stanford University, Winter 2006-07
April 13, 2008

1 定义
我们称一个矢量g∈Rn是函数f:Rn→R在x∈domf处的次梯度，如果对于所有的z∈domf满足：

f (z) \geq f (x) + g T (z - x) (1)

如果

f是凸函数，并且可微，那么该函数在

x处的梯度是一个此梯度。但是当函数

f不可微时，也可能存在次梯度，如图1.同样的例子表明函数

f在点

x存在不止一个次梯度。
可以通过几个不同的方式来解释次梯度。如果仿射函数(关于z)

f (x) + g T (z - x)

是函数f的全局下界(underestimator)，那么矢量g是函数f的一个次梯度。从几何上讲，如果(g,-1)在(x,f(x))处支持撑

epi，那么g是函数f在x处的次梯度，如图2所示。
如果函数f在x处，至少存在一个次微分，那么我们称函数f在x处可次微的(subdifferentiable)。函数f在点x处的次梯度的集合成为函数f在x处的次微分（subdifferential)，用

∂f(x)表示。如果函数f在其定义域内的每一点都次微分，那么我们称函数是可次微分的。

例子：绝对值。考虑f(z)=|z|。对于所有的x<0，次微分是唯一的:∂f(x)]={−1}.类似的，对于x>0，我们有∂f(x)={1}.在x=0处，次微分定义为，对于所有的z，满足不等式：
$| z | \geq g z$
我们通过上面的不等式，求解g的取值范围。当z>0时，z≥gz，g≤1.当z<0时，−z≥gz，−1≤g。因此,for all z,−1≤g≤1。因此： ∂f(0)=[−1,1]，如图3.

2 基本属性

即使f不是凸函数，其次梯度∂f(x)总是闭凸集。这是因为，其是无限个半空间构成的集合的交集：

\partial f (x) = ⋃ z \in d o m f {g | f (z) \geq f (x) + g T (z - x)}

图1：在x1处，凸函数f是可微的，并且g1（即函数f在x1处的偏导数）是在x1处的唯一次梯度。在点x2处，函数不可微，并且在该点处，函数f有很多次梯度：图中演示了g2,g3两个次梯度。

图2：当且仅当(g,-1)定义了上镜图f在(x,f(x))处的一个支撑超平面，那么矢量g∈Rn是函数f在x处的一个次梯度。

图3：绝对值函数(左），它的次微分∂f(x)是关于x的函数(右）。

2.1 次梯度的存在性

如果f是凸函数，并且x∈int domf,那么函数的次微分∂f(x)存在，并且有界。
为了证明∂f(x)≠ϕ,我们在上镜图凸集的边界点(x,f(x))上应用超平面理论，得到如下的结论：
存在a∈Rn，b∈R，不全为0，满足：

[a b] T ([z t] - [x f (x)]) = a T (z - x) + b (t - f (x)) \leq 0

对于all

(z,t)∈epif .
这意味着

b≤0，并且对于所有的z满足：

a T (z - x) + b (f (z) - f (x)) \leq 0

如果

b≠0，除以b，我们得到：

f (z) \geq f (x) - (a / b) T (z - x)

这表明，

−a/b∈∂f(x)。现在我们证明

b≠0，也就是说超平面不能是垂直的。证明方法为，先假定成立，然后推出矛盾。如果

b=0，我们可以得到,对于所有的

z∈domf，

aT(z−x)≤0,然而这是不可能的，因为

x∈domf
上面的讨论表明，如果一个凸函数的上镜图

epif在(x,f(x))处，至少存在一个非垂直的支撑超平面，那么该函数在x处，存在一个次梯度。例如，如果函数连续，则满足该情况。存在一些病态的凸函数，它们在一些点处不存在次梯度，但是在后续的文章中，我们假定所有的凸函数是可次微分的（在 dom f中的每一点）

2.2 可微函数的次梯度

如果f是凸函数，并且在x处可微，那么∂f(x)={▽f(x)}，也就是说梯度是它唯一的次梯度。相反地，如果f是凸函数，并且∂f(x)={g},那么函数f在x处可微，并且g=▽f(x)

2.3 非可微函数的最小值

一个点x*，当且仅当凸函数f在该点处可次微分，并且0∈∂f(x∗)时，该点是函数f的最小值点。
也就是说，g=0是函数f在x*处的一个次梯度。我们可以直接通过:对于x∈domf，f(x)≥f(x∗)推断得到。
如果函数f在点x*处是可微的，条件0∈∂f(x∗)降为 ▽f(x∗)=0

次梯度的微分

本节，我们描述构造凸函数次梯度的规则。我们将区分两种不同等级的细节。在次梯度的“弱”微分中，即使存在更多的次梯度，目标也只是产生一个次梯度。这在实际应用中已经足够了，因为次梯度，定位(localization)，切平面方法仅需要任意点一个次梯度。
另外一个更加困难的任务是将次梯度∂f(x)的完备集描述为关于x的函数，我们称这个为次梯度的“强”微分。其在理论性的研究中很重要，例如，当描述精确的最优条件时。

3.1 非负缩放

对于α≥0,∂(αf)(x)=α∂f(x)

和and 积分

假定f=f1+...+fm，其中f1,...,fm是凸函数，那么我们有：

\partial f (x) = \partial f 1 (x) + . . . + \partial f m (x)

这个属性（性质）可以扩展到无限和，积分和期望（如果存在的话)

3.3 定义域上的仿射转换

Affine transformations of domain
假定函数f是凸函数，令h(x)=f(Ax+b),那么∂h(x)=AT∂f(Ax+b)

3.4逐点最大

假定f是一组凸函数f1,...,fm的的逐点最大：

f (x) = max i = 1, . . ., m f i (x)

其中函数

fi是可次微分的。我们首先展示如何构造函数f在x处的一个次梯度。
令k表示任意的索引，其满足

fk(x)=f(x)，也就是说我们波动的选择k，使得

fk(x)=f(x)，并且，我们令

g∈∂fk(x)，那么

g∈∂f(x),换句话说，为了找到这些函数中最大值的梯度，我们选择其中一个在该点处达到最大值的函数，并且选择该函数在该点处的任意一个次梯度，满足：

f (z) \geq f k (z) \geq f k (x) + g T (z - x) = f (x) + g T (z - x)

理解：第一个不等式f(z)≥fk(z)是很显然的，因为f(x)是所有函数的最大值，第二项和第三项对应的不等式，由凸函数的性质得到。最后一个等式，因为我们的前提条件是选择的k满足fk(x)=f(x)

更一般地，我们有：

\partial f (x) = C o \cup {\partial f i (x) | f i (x) = f (x)}

理解：对于任意的x，我们找到某个k，满足fk(x)=f(x)，然后求解∂fk(x)作为∂f(x)
$\partial f (x) = C o {\cup {\partial f i (x) | f i (x) = f (x)}}$

也就说这些函数的最大值的次梯度是在x点处，”活跃”的函数的并集的凸包。

例子：可微分函数的最大值。假定f(x)=maxi=1,...,mfi(x),其中fi是凸函数并且可微，那么我有：

\partial f (x) = C o {▽ f i (x) | f i (x) = f (x)}

在一个点，只有一个函数fk是“活跃”的，那么f是可微的，并且梯度为▽fk(x)。如果在一个点，多个函数是“活跃“，那么∂f(x)是一个多面体。

例子：l1−norm。表示为：

f (x) = | | x | | 1 = | x 1 | + . . . + | x n |

是一个关于x的不可微的凸函数。目的是找到该函数的次梯度，我们注意到f可以表示为

2n个线性函数的最大值：

| | x | | 1 = max {s T x | s i \in {- 1, 1}}

我们可以应用最大值梯度的规则。第一步确定“活跃”函数

sTx，也就是说，找到一个

s∈{−1,+1}n，满足

sTx=||x||1。如果

xi>0，我们选择

si=+1，如果

xi<0，我们选择

si=−1。如果

xi=0，不止一函数是“活跃”的，此时,

si=+1,si=−1都是有效的。函数

sTx是可微的，并且有唯一的次梯度s。因此，我们可以取:

g i = ⎧ ⎩ ⎨ ⎪ ⎪ + 1 - 1 - 1 o r + 1 x i > 0 x i < 0 x i = 0

所有次梯度的凸包形成次微分，其可以表示为下面的形式：

\partial f (x) = {g | | | g | | \infty \leq 1, g T x = | | x | | 1}

3.5上确界

接下来，我们考虑扩展到无限个函数的上确界，也就是说，我们考虑:

f (x) = sup α \in A f α (x)

其中函数

falpha可次微分的。我们在这里仅考虑弱属性。
假定可以达到f(x)定义中的上确界。令

β∈A是满足

fβ=f(x)的索引，我们令

g∈∂fβ(x)，那么

g∈∂f(x).如果定义中的上确界不能达到，函数f在x处可能可次微分也可能不可以次微分，这取决于索引集A。
然而，如果我们假定A是紧凑的（采用某个度量），并且函数

α→fα(x)对于每个x是上半连续的。那么：

\partial f (x) = C o \cup {\partial f α (x) | f α (x) = f (x)}

例子：对称矩阵的最大特征值。令

f(x)=λmax(A(x))，其中

A(x)=A0+x1A1+...+xnAn，并且

Ai∈Am，我们可以将f表示为凸函数的逐点上确界：

f (x) = λ m a x (A (x)) = sup | | y | | 2 = 1 y T A (x) y

这里，索引集A是

A={y∈Rn| ||y||2=1}
固定y，每一个函数

fy(x)=yTA(x)y是x的仿射函数，可以通过下面的展开形式很容易看出:

y T A (x) y = y T A 0 y + x 1 y T A 1 y + . . . + x n y T A n y

因此函数

fy(x)是可微的，并且梯度为:

▽fy(x)=(yTA1y,...,yTAny).
活跃函数

yTA(x)y是对应最大特征值的特征矢量y的活跃函数。因此，为了找到次梯度，我们即使特征值

λmax对应的特征向量，并且规范化为1，并且取：

g = (y T A 1 y, y T A 2 y, . . ., y T A n y)

在这个例子中的索引集是

{y| ||y||=1}是一个紧凑的集，因此：

\partial f (x) = C o {▽ f y | A (x) y = λ m a x (A (x)) y, | | y | | = 1}

3.6 关于一些变量的最小化

Minimization over some variable
次梯度的微分规则应用于下面的函数形式：

f (x) = inf x F (x, y)

其中F(x,y)是可微分的，并且是关于x和y的联合凸函数，在这里我们也仅讨论弱属性。
假定，针对某个

x^，在上面的

f(x^)定义中关于y的下确界，在

y=y^处达到，也就是说,

f(x^)=F(x^,y^)并且对于所有的x,

F(x,y^)≥F(x^,y^)。那么存在一个g满足

(g,0)∈∂F(x^,y^),并且，这样的任何一个g是函数f在

x^处的一个次梯度。
强属性(strong property)。令

x2满足

f(x1)=infx2F(x1,x2)，那么

∂f(x1)={g1|(g1,0)∈∂F(x1,x2)}（并且，得到次微分独立于

x2的选择。

3.7 一个凸优化问题的最优值函数

Optimal value function of a convex optimization problem
假定f:Rm×Rp→定义为标准形式的凸优化问题的最优值，z∈Rn是优化变量：

minimize f 0 (z)

subject to f i (z) \leq x i, i = 1, . . ., m (2)

A z = y

换句话说，

f(x,y)=infzF(x,y,z)，其中：

F (x, y z) = {+ \infty - \infty f i (z) \leq x i, i = 1, . . ., m, A z = y o t h e r w i s e

其中函数F是关于x,y,z上的联合凸函数。f的次梯度与下面的公式(2)的对偶问题有关。
假定，我们对函数f在

(x^,y^)处的次微分感兴趣，我们可以将公式(2)的对偶问题表示为：

maximize g (λ) - x T λ - g T v

subject to λ \geq 0

其中:

g (λ) = inf z (f 0 (z) + \sum i = 1 m λ i f i (z) + v T A z)

假定问题(2)和(3)在

x=x^ and y=y^处满足强对偶，并且在

λ∗,v∗处，达到对偶最优值（例如，因为Slater条件满足）。从全局不等式我们知道:

f (x, y) \geq f (x^, y^) - λ * T (x - x^) - v * T (y - y^)

换句话说，对偶最优解提供了一个次梯度：

- (λ *, v *) \in \partial f (x^, y^)

转载于:https://www.cnblogs.com/raby/p/5886692.html

01-subgradients_notes

2 基本属性

2.1 次梯度的存在性

2.2 可微函数的次梯度

2.3 非可微函数的最小值

次梯度的微分

3.1 非负缩放

和and 积分

3.3 定义域上的仿射转换

3.4逐点最大

3.5上确界

3.6 关于一些变量的最小化

3.7 一个凸优化问题的最优值函数

相关文章

前端学习（2040）vue之电商管理系统电商系统之执行build命令所有的警告

前端学习（2041）vue之电商管理系统电商系统之只是在发布阶段生效

解决Unity3D导出apk失败:Failed to re-package resources

代码块的总结

前端学习（2042）vue之电商管理系统电商系统之优化生成打包报告

前端学习（2043）vue之电商管理系统电商系统之优化web.config.js的配置文件

Abstract 的使用

改进MySQL Order By Rand()的低效率

前端学习（2044）vue之电商管理系统电商系统之优化configwebpack和chainwebpack

匿名子类对象

内部类访问局部变量的时候，为什么变量必须加上final修饰

前端学习（2045）vue之电商管理系统电商系统之优化chainwebpack自定义打包入口

创建接口匿名实现类的对象的四种方法

Thinkphp 数据库配置参数

前端学习（2046）vue之电商管理系统电商系统之通过externals加载外部资源

代理模式简单模板

写出gradle风格的groovy代码

前端学习（2047）vue之电商管理系统电商系统之使用cdn优化打包

这个社会根本不存在值得我们去仰视的人和事

前端学习（2048）vue之电商管理系统电商系统之实现首页内容自定制