对偶问题笔记(1)

目录

  • 1 从 Lagrange 函数引入对偶问题
  • 2. 强对偶性与 KKT 条件
  • 3. 对偶性的鞍点特征

1 从 Lagrange 函数引入对偶问题

考虑如下优化问题 { min ⁡ f 0 ( x ) s . t f i ( x ) ≤ 0 , i = 1 , ⋯ , p , h j ( x ) = 0 , j = 1 , ⋯ , q , x ∈ Ω , \begin{align} \begin{cases}\min f_0(x)\\\mathrm{s.t}\quad f_i(x)\leq0,\quad i=1,\cdots,p,\\h_j(x)=0,\quad j=1,\cdots,q,\\x\in\Omega,\end{cases}\end{align} minf0(x)s.tfi(x)0,i=1,,p,hj(x)=0,j=1,,q,xΩ,其中 { f i } i = 0 p , { h j } j = 1 q \{f_i\}_{i=0}^p,\:\{h_j\}_{j=1}^q {fi}i=0p,{hj}j=1q 均为定义在 R n \mathbb{R}^n Rn 取值于 R ‾ \overline{\mathbb{R}} R 上的函数, Ω ⊂ R n \Omega\subset\mathbb{R}^n ΩRn. 设可行集 D : = { x ∈ Ω ∣ f i ( x ) ≤ 0 , i = 1 , ⋯ , p ; h j ( x ) = 0 , j = 1 , ⋯ , q } \mathcal{D}:=\{x\in\Omega|f_i(x)\leq0,~i=1,\cdots,p;~h_j(x)=0,j=1,\cdots,q\} D:={xΩ∣fi(x)0, i=1,,p; hj(x)=0,j=1,,q}满足如下条件(该条件是为了后面定义的拉格朗日函数) { − ∞ < f i ( x ) ≤ ∞ i = 0 , 1 , ⋯ , p , − ∞ < h j ( x ) < ∞ j = 1 , ⋯ , q , ∀ x ∈ Ω . \begin{align}\begin{cases}-\infty<f_i(x)\leq\infty&i=0,1,\cdots,p,\\-\infty<h_j(x)<\infty&j=1,\cdots,q,\end{cases}\quad\forall x\in\Omega.\end{align} {<fi(x)<hj(x)<i=0,1,,p,j=1,,q,xΩ.该问题的 Lagrange 函数定义为
L ( x , λ , μ ) : = f 0 ( x ) + ∑ i = 1 p λ i f i ( x ) + ∑ j = 1 q μ j h j ( x ) , ( x , λ , μ ) ∈ Ω × R + p × R q , \begin{aligned}L(x,\lambda,\mu)&:=f_0(x)+\sum_{i=1}^p\lambda_if_i(x)+\sum_{j=1}^q\mu_jh_j(x),\quad(x,\lambda,\mu)\in\Omega\times\mathbb{R}_+^p\times\mathbb{R}^q,\end{aligned} L(x,λ,μ):=f0(x)+i=1pλifi(x)+j=1qμjhj(x),(x,λ,μ)Ω×R+p×Rq,

其中 λ : = ( λ 1 , . . . , λ p ) T , μ : = ( μ 1 , . . . , μ q ) T . \begin{aligned}\lambda&:=(\lambda_1,...,\lambda_p)^T,\quad\mu:=(\mu_1,...,\mu_q)^T.\end{aligned} λ:=(λ1,...,λp)T,μ:=(μ1,...,μq)T.

从正则化的角度来看 Lagrange 函数可以发现 Lagrange 乘子 { λ i } i = 1 p \{\lambda_i\}_{i=1}^p {λi}i=1p { μ j } j = 1 q \{\mu_j\}_{j=1}^q {μj}j=1q 充当了惩罚项的作用:对任意给定的 x ∈ Ω x\in\Omega xΩ 1 ≤ i ≤ p 1\leq i\leq p 1ip, 如果 f i ( x ) > 0 , f_i( x) > 0, fi(x)>0,那么 L ( x , λ , μ ) → L( x, \lambda, \mu) \to L(x,λ,μ) ∞ ( λ i → ∞ ) \infty~(\lambda_i\to\infty)  (λi).类似地,对任意 1 ≤ j ≤ q 1\leq j\leq q 1jq,如果 h j ( x ) ≠ 0 h_j(x)\neq0 hj(x)=0, 也有 L ( x , λ , μ ) → ∞ ( μ j → L(x,\lambda,\mu)\to\infty~(\mu_j\to L(x,λ,μ) (μj ∞ \infty − ∞ ) -\infty) ).

所以根据 (2) 有 sup ⁡ λ ⪰ 0 , μ L ( x , λ , μ ) = { f 0 ( x ) x ∈ D , ∞ x ∈ Ω ∖ D , \begin{align} &&\sup\limits_{\lambda\succeq0,\mu}L(x,\lambda,\mu)=\begin{cases}f_0(x)&x\in\mathcal{D},\\\infty&x\in\Omega\setminus\mathcal{D},\end{cases}& \end{align} λ0,μsupL(x,λ,μ)={f0(x)xD,xΩD,
从而
ξ ∗ : = inf ⁡ x ∈ D f 0 ( x ) = inf ⁡ x ∈ Ω sup ⁡ λ ⪰ 0 , μ L ( x , λ , μ ) . \begin{aligned}\xi^{*}:=\inf_{x\in\mathcal{D}}f_{0}(x)=\inf_{x\in\Omega}\sup_{\lambda\succeq0,\mu}L(x,\lambda,\mu). \end{aligned} ξ:=xDinff0(x)=xΩinfλ0,μsupL(x,λ,μ).
根据上确界和下确界的性质有:
sup ⁡ λ ⪰ 0 , μ inf ⁡ x ∈ Ω L ( x , λ , μ ) ≤ inf ⁡ x ∈ Ω sup ⁡ λ ⪰ 0 , μ L ( x , λ , μ ) . \begin{align}\sup_{\lambda\succeq0,\mu}\inf_{x\in\Omega}L(x,\lambda,\mu)\leq\inf_{x\in\Omega}\sup_{\lambda\succeq0,\mu}L(x,\lambda,\mu).\end{align} λ0,μsupxΩinfL(x,λ,μ)xΩinfλ0,μsupL(x,λ,μ). η ∗ : = sup ⁡ λ ⪰ 0 , μ g ( λ , μ ) , \begin{aligned}\eta^*:=\sup_{\lambda\succeq0,\mu}g(\lambda,\mu),\end{aligned} η:=λ0,μsupg(λ,μ),其中 g ( λ , μ ) : = inf ⁡ x ∈ Ω L ( x , λ , μ ) , ( λ , μ ) ∈ R + p × R q . \begin{align}g(\lambda,\mu):=\inf_{x\in\Omega}L(x,\lambda,\mu),\quad(\lambda,\mu)\in\mathbb{R}_+^p\times\mathbb{R}^q.\end{align} g(λ,μ):=xΩinfL(x,λ,μ),(λ,μ)R+p×Rq.则有
η ∗ = sup ⁡ λ ⪰ 0 , μ g ( λ , μ ) ≤ inf ⁡ x ∈ D f 0 ( x ) = ξ ∗ . \begin{aligned}\eta^*=\sup_{\lambda\succeq0,\mu}g(\lambda,\mu)\leq\inf_{x\in\mathcal{D}}f_0(x)=\xi^*.\end{aligned} η=λ0,μsupg(λ,μ)xDinff0(x)=ξ.上式给出了优化问题 (1)的最优值 ξ ∗ \xi^* ξ 的一个下界,这个下界可以通过求解如下优化问题而得到 { max ⁡ g ( λ , μ ) , s . t λ ⪰ 0 \begin{align}\begin{cases}\max g(\lambda,\mu),\\\mathrm{s.t}\quad\lambda\succeq0&\end{cases}\end{align} {maxg(λ,μ),s.tλ0

定义 1.1.1 (对偶函数,对偶问题,对偶性) 我们称(6)为(1)的对偶问题,相对地, 称(1)为原问题. (5)所定义的函数 g ( λ , μ ) g(\lambda,\mu) g(λ,μ) 称为 Lagrange 对偶函数,简称为对偶函数,向量 λ , μ \lambda,\mu λ,μ 称为对偶变量. 不等式(4), 即 η ∗ ≤ ξ ∗ \eta^*\leq\xi^* ηξ, 称为问题 (1)的弱对偶性. 若等式 η ∗ = ξ ∗ \eta^*=\xi^* η=ξ 成立,则称问题 (1)满足强对偶性.

命题 1.1.1 (对偶问题是凸的) 由(5)所定义的对偶函数 g g g R + p × R q \mathbb{R}_+^p\times\mathbb{R}^q R+p×Rq 上上半连续的凹函数.

.对任意固定的 x ∈ R n x\in\mathbb{R}^n xRn,易见 L ( x , λ , μ ) L(x,\lambda,\mu) L(x,λ,μ) λ , μ \lambda,\mu λ,μ 的仿射函数,因而 g ( λ , μ ) g(\lambda,\mu) g(λ,μ) 是仿射函数的逐点下确界,所以是 R + p × R q \mathbb{R}_+^p\times\mathbb{R}^q R+p×Rq 上凹函数.(这是因为有命题:凸函数是仿射函数的逐点上确界)

( λ k , μ k ) ∈ R + p × R q (\lambda_k,\mu_k)\in\mathbb{R}_+^p\times\mathbb{R}^q (λk,μk)R+p×Rq 满足 ( λ k , μ k ) → ( λ 0 , μ 0 ) ∈ R + p × R q (\lambda_k,\mu_k)\to(\lambda_0,\mu_0)\in\mathbb{R}_+^p\times\mathbb{R}^q (λk,μk)(λ0,μ0)R+p×Rq,那么, ∀ x ∈ Ω \forall x\in\Omega xΩ, 有 g ( λ k , μ k ) ≤ L ( x , λ k , μ k ) \begin{aligned}g(\lambda_k,\mu_k)\le L(x,\lambda_k,\mu_k)\end{aligned} g(λk,μk)L(x,λk,μk)从而
lim ⁡ k → ∞ g ( λ k , μ k ) ≤ lim ⁡ ‾ k → ∞ L ( x , λ k , μ k ) = L ( x , λ 0 , μ 0 ) \begin{aligned}\lim_{k\to\infty}g(\lambda_k,\mu_k)\le\overline{\lim}_{k\to\infty}L(x,\lambda_k,\mu_k)=L(x,\lambda_0,\mu_0)\end{aligned} klimg(λk,μk)limkL(x,λk,μk)=L(x,λ0,μ0) x x x 的任意性, 两边对 x ∈ Ω x ∈ Ω x 求下确界, 得 l i m ‾ ⁡ k → ∞ g ( λ k , μ k ) ≤ g ( λ 0 , μ 0 ) . \operatorname*{\overline{lim}}_{k\to\infty}g(\lambda_k,\mu_k)\leq g(\lambda_0,\mu_0). klimg(λk,μk)g(λ0,μ0).所以 g g g是上半连续的.

:当
− ∞ < f i ( x ) , h j ( x ) < ∞ , ∀ x ∈ Ω , i = 1 , . . . , p ; j = 1 , . . . , q \begin{align} -\infty<f_i(x),h_j(x)<\infty,\quad\forall x\in\Omega,\quad i=1,...,p;\quad j=1,...,q\end{align} <fi(x),hj(x)<,xΩ,i=1,...,p;j=1,...,q时,Lagrange 函数 L ( x , λ , μ ) L(x,\lambda,\mu) L(x,λ,μ) 对所有 ( x , λ , μ ) ∈ Ω × R p × R q (x,\lambda,\mu)\in\Omega\times\mathbb{R}^p\times\mathbb{R}^q (x,λ,μ)Ω×Rp×Rq 有定义,且对偶函数 g ( λ , μ ) : = inf ⁡ x ∈ Ω L ( x , λ , μ ) g(\lambda,\mu):=\inf_{x\in\Omega}L(x,\lambda,\mu) g(λ,μ):=xΩinfL(x,λ,μ)对所有 ( λ , μ ) ∈ R p × R q (\lambda,\mu)\in\mathbb{R}^p\times\mathbb{R}^q (λ,μ)Rp×Rq 有定义. 考察命题 1.1.1的证明可知,此时 g g g 是定义在 R p × R q \mathbb{R}^p\times\mathbb{R}^q Rp×Rq的上凹函数.

2. 强对偶性与 KKT 条件

对偶问题可以提供原问题重要的信息. 如上所述, 优化问题(1)恒满足弱对偶性. 它说明对偶问题的最优值 η ∗ η^∗ η 是原问题的最优值 ξ ∗ ξ^∗ ξ 的一个下界. 实际上在强对偶条件下, 原问题与对偶问题的解满足
一个与 KKT 条件类似但更一般的条件, 它无需目标函数和约束函数的可微性以及点 x ∗ x^∗ x的正则性. 当这些函数可微时, 它可以导出 KKT 条件. 从这个视角导出 KKT 条件使得对 Lagrange 乘子有更好的了解, 它们实际上是对偶问题的解.

命题 2.1 设优化问题(1)满足(2), ( x ∗ , λ ∗ , μ ∗ ) ∈ D × R + p × R q (x^*,\lambda^*,\mu^*)\in\mathcal{D}\times\mathbb{R}_+^p\times\mathbb{R}^q (x,λ,μ)D×R+p×Rq. 那么
ξ ∗ = η ∗ , f 0 ( x ∗ ) = ξ ∗ , g ( λ ∗ , μ ∗ ) = η ∗ , \begin{align} \xi^*=\eta^*,\quad f_0(x^*)=\xi^*,\quad g(\lambda^*,\mu^*)=\eta^*,\end{align} ξ=η,f0(x)=ξ,g(λ,μ)=η,等价于 λ i ∗ f i ( x ∗ ) = 0 , i = 1 , ⋯ , p ; L ( x ∗ , λ ∗ , μ ∗ ) = inf ⁡ x ∈ Ω L ( x , λ ∗ , μ ∗ ) . \begin{align} \lambda_i^*f_i(x^*)=0,\quad i=1,\cdots,p;\quad L(x^*,\lambda^*,\mu^*)=\inf_{x\in\Omega}L(x,\lambda^*,\mu^*).\end{align} λifi(x)=0,i=1,,p;L(x,λ,μ)=xΩinfL(x,λ,μ).此外,上述任一条成立时,有 L ( x ∗ , λ ∗ , μ ∗ ) = ξ ∗ = η ∗ L(x^*,\lambda^*,\mu^*)=\xi^*=\eta^* L(x,λ,μ)=ξ=η, 且若还存在 x ∈ Ω x\in\Omega xΩ 使得 f 0 ( x ) < ∞ , f i ( x ) < ∞ , − ∞ < h j ( x ) < ∞ , f_0(x)<\infty,\quad f_i(x)<\infty,\quad-\infty<h_j(x)<\infty, f0(x)<,fi(x)<,<hj(x)<, ξ ∗ < ∞ . \xi^*<\infty. ξ<∞.

. 设(9)成立,则 inf ⁡ x ∈ D f 0 ( x ) = ξ ∗ ≤ f 0 ( x ∗ ) = L ( x ∗ , λ ∗ , μ ∗ ) = inf ⁡ x ∈ Ω L ( x , λ ∗ , μ ∗ ) = g ( λ ∗ , μ ∗ ) ≤ η ∗ ≤ ξ ∗ . \begin{align}\inf_{x\in\mathcal{D}}f_{0}(x)= \xi^*\leq f_0(x^*)=L(x^*,\lambda^*,\mu^*)=\inf_{x\in\Omega}L(x,\lambda^*,\mu^*)=g(\lambda^*,\mu^*)\leq\eta^*\leq\xi^*.\end{align} xDinff0(x)=ξf0(x)=L(x,λ,μ)=xΩinfL(x,λ,μ)=g(λ,μ)ηξ.所以,(8)成立.

反之,设(8)成立,则 ξ ∗ = f 0 ( x ∗ ) ≥ L ( x ∗ , λ ∗ , μ ∗ ) ≥ inf ⁡ x ∈ Ω L ( x , λ ∗ , μ ∗ ) = g ( λ ∗ , μ ∗ ) = η ∗ = ξ ∗ . \xi^*=f_0(x^*)\geq L(x^*,\lambda^*,\mu^*)\geq\inf_{x\in\Omega}L(x,\lambda^*,\mu^*)=g(\lambda^*,\mu^*)=\eta^*=\xi^*. ξ=f0(x)L(x,λ,μ)xΩinfL(x,λ,μ)=g(λ,μ)=η=ξ.所以 f 0 ( x ∗ ) = L ( x ∗ , λ ∗ , μ ∗ ) = g ( λ ∗ , μ ∗ ) f_0(x^*)=L(x^*,\lambda^*,\mu^*)=g(\lambda^*,\mu^*) f0(x)=L(x,λ,μ)=g(λ,μ).第一个等号是(8)给出的条件,以及由 λ ∗ ⪰ 0 , x ∗ ∈ D \lambda^*\succeq0,\quad x^*\in\mathcal{D} λ0,xD 可以推导出 (9)的第一式;第二个等号即为(9) 的第二式.

上述条件成立时,有(10)成立,因而 L ( x ∗ , λ ∗ , μ ∗ ) = ξ ∗ = η ∗ L(x^*,\lambda^*,\mu^*)=\xi^*=\eta^* L(x,λ,μ)=ξ=η. 若还存在 x ∈ Ω x\in\Omega xΩ 使得
(9)成立,则利用(8)有, ξ ∗ = L ( x ∗ , λ ∗ , μ ∗ ) ≤ L ( x , λ ∗ , μ ∗ ) < ∞ . \xi^*=L(x^*,\lambda^*,\mu^*)\leq L(x,\lambda^*,\mu^*)<\infty. ξ=L(x,λ,μ)L(x,λ,μ)<∞. 我们称条件 x ∗ ∈ D x^*\in\mathcal{D} xD 为优化问题(1)的可行条件,而称条件(9)为其对偶可行条件,它的关键作用可以从不等式(10)中看出,它确保了强对偶性以及原问题与对偶问题的可解性. 特别,(9)的第一式 “ λ i ∗ f i ( x ∗ ) = 0 , i = 1 , ⋯ , p ∗ \lambda_i^*f_i(x^*)=0,\quad i=1,\cdots,p^* λifi(x)=0,i=1,,p 被称为互补松弛条件.

命题 2.2 (强对偶性等价于 KKT 条件) 设优化问题(1)满足(2), ( x ∗ , λ ∗ , μ ∗ ) ∈ (x^*,\lambda^*,\mu^*)\in (x,λ,μ) R n × R p × R q \mathbb{R}^n\times\mathbb{R}^p\times\mathbb{R}^q Rn×Rp×Rq.那么, x ∗ x^* x ( λ ∗ , μ ∗ ) (\lambda^*,\mu^*) (λ,μ) 分别是原问题(1)以及对偶问题(6)的解且满足强对偶性 ξ ∗ = η ∗ \xi^*=\eta^* ξ=η 当且仅当 { x ∗ ∈ D , λ i ∗ ≥ 0 , i = 1 , ⋯ , p ; λ i ∗ f i ( x ∗ ) = 0 , i = 1 , ⋯ , p ; L ( x ∗ , λ ∗ , μ ∗ ) = inf ⁡ x ∈ Ω L ( x , λ ∗ , μ ∗ ) . \begin{align} \begin{cases}x^*\in\mathcal{D},\\\lambda_i^*\geq0,\quad i=1,\cdots,p;\\\lambda_i^*f_i(x^*)=0,\quad i=1,\cdots,p;\\L(x^*,\lambda^*,\mu^*)=\inf_{x\in\Omega}L(x,\lambda^*,\mu^*).\end{cases}\end{align} xD,λi0,i=1,,p;λifi(x)=0,i=1,,p;L(x,λ,μ)=infxΩL(x,λ,μ).. 必要性. x ∗ x^* x 是原问题(1)的解,按照定义可以推出 x ∗ ∈ D x^*\in\mathcal{D} xD f 0 ( x ∗ ) = ξ ∗ ; ( λ ∗ , μ ∗ ) f_0(x^*)=\xi^*;(\lambda^*,\mu^*) f0(x)=ξ;(λ,μ) 是对偶问题(6)的解,同样地按照定义可以推出 λ ∗ ⪰ 0 \lambda^*\succeq0 λ0 g ( λ ∗ , μ ∗ ) = η ∗ ; g(\lambda^*,\mu^*)=\eta^*; g(λ,μ)=η; 又由于 ξ ∗ = η ∗ \xi^*=\eta^* ξ=η, 所以 ( x ∗ , λ ∗ , μ ∗ ) ∈ (x^*,\lambda^*,\mu^*)\in (x,λ,μ) D × R + p × R q \mathcal{D}\times\mathbb{R}_+^p\times\mathbb{R}^q D×R+p×Rq 且(8)成立. 显然 x ∗ ∈ D x^*\in\mathcal{D} xD 即为 (11)的第一式成立; λ ∗ ∈ R + p \lambda^*\in\mathbb{R}_+^p λR+p 蕴含(11)的第二行成立;根据 命题 2.1 可知, ξ ∗ = η ∗ , f 0 ( x ∗ ) = ξ ∗ , g ( λ ∗ , μ ∗ ) = η ∗ , \xi^*=\eta^*,\quad f_0(x^*)=\xi^*,\quad g(\lambda^*,\mu^*)=\eta^*, ξ=η,f0(x)=ξ,g(λ,μ)=η, 等价于 λ i ∗ f i ( x ∗ ) = 0 , i = 1 , ⋯ , p ; L ( x ∗ , λ ∗ , μ ∗ ) = inf ⁡ x ∈ Ω L ( x , λ ∗ , μ ∗ ) . \lambda_i^*f_i(x^*)=0,\quad i=1,\cdots,p;\quad L(x^*,\lambda^*,\mu^*)=\inf_{x\in\Omega}L(x,\lambda^*,\mu^*). λifi(x)=0,i=1,,p;L(x,λ,μ)=infxΩL(x,λ,μ).,即(11)的最后两行成立.

充分性. 设(11)也就是KKT条件成立,显然由KKT条件的前两行可以推出 ( x ∗ , λ ∗ , μ ∗ ) ∈ D × R + p × R q (x^*,\lambda^*,\mu^*)\in\mathcal{D}\times\mathbb{R}_+^p\times\mathbb{R}^q (x,λ,μ)D×R+p×Rq,而KKT条件的后两行即为(9). 由命题 2.1知 (8)与(9)等价,从而有(9)的条件 ξ ∗ = η ∗ , f 0 ( x ∗ ) = ξ ∗ , g ( λ ∗ , μ ∗ ) = η ∗ \xi^*=\eta^*,\quad f_0(x^*)=\xi^*,\quad g(\lambda^*,\mu^*)=\eta^* ξ=η,f0(x)=ξ,g(λ,μ)=η 成立.

:当满足KKT条件(或者说满足强对偶性时),条件 L ( x ∗ , λ ∗ , μ ∗ ) = inf ⁡ x ∈ Ω L ( x , λ ∗ , μ ∗ ) L(x^*,\lambda^*,\mu^*)=\inf_{x\in\Omega}L(x,\lambda^*,\mu^*) L(x,λ,μ)=infxΩL(x,λ,μ) 可以写成 L ( x ∗ , λ ∗ , μ ∗ ) = g ( λ ∗ , μ ∗ ) . L(x^*,\lambda^*,\mu^*)=g(\lambda^*,\mu^*). L(x,λ,μ)=g(λ,μ).

推论 2.3 设优化问题(1)满足 ( 2 ) , ( λ ∗ , μ ∗ ) ∈ R p × R q , x ∗ ∈ r i ( Ω ) (2),\quad(\lambda^*,\mu^*)\in\mathbb{R}^p\times\mathbb{R}^q,\quad x^*\in\mathbf{ri}(\Omega) (2),(λ,μ)Rp×Rq,xri(Ω),且 { f i } i = 0 p \{f_i\}_{i=0}^p {fi}i=0p { h j } j = 1 q \{h_j\}_{j=1}^q {hj}j=1q 均在 x ∗ x^* x 处可微,那么,
L ( x ∗ , λ ∗ , μ ∗ ) = inf ⁡ x ∈ Ω L ( x , λ ∗ , μ ∗ ) \begin{align} L(x^*,\lambda^*,\mu^*)=\inf_{x\in\Omega}L(x,\lambda^*,\mu^*)\end{align} L(x,λ,μ)=xΩinfL(x,λ,μ)蕴含 ∇ x L ( x ∗ , λ ∗ , μ ∗ ) ⊥ V Ω . \begin{align}\nabla_xL(x^*,\lambda^*,\mu^*)\perp V_\Omega.\end{align} xL(x,λ,μ)VΩ.并且当优化问题(1)是凸问题时,二者等价.

证. 由于 x ∗ ∈ r i ( Ω ) x^*\in\mathbf{ri}(\Omega) xri(Ω), 利用优化问题笔记中的 命题 1.2.1 可知 (12)能够推导出(13). 特别地当优化问题(1)是凸问题时,由于 L ( x , λ ∗ , μ ∗ ) L(x,\lambda^*,\mu^*) L(x,λ,μ) 关于 x x x 为凸函数,由优化问题笔记中的命题 3.1.2 可知 x ∗ x^* x ( f , D ) (f,\mathcal{D}) (f,D) 的一个全局最优解当且仅当 ∇ f ( x ∗ ) T ( x − x ∗ ) ≥ 0 , ∀ x ∈ D \nabla f(x^*)^T(x-x^*)\ge0,\quad\forall x\in\mathcal{D} f(x)T(xx)0,xD,(12)等价于
∇ x L ( x ∗ , λ ∗ , μ ∗ ) T ( x − x ∗ ) ≥ 0 , ∀ x ∈ Ω . \nabla_xL(x^*,\lambda^*,\mu^*)^T(x-x^*)\geq0,\quad\forall x\in\Omega. xL(x,λ,μ)T(xx)0,xΩ.由于 x ∗ ∈ r i ( Ω ) x^*\in\mathbf{ri}(\Omega) xri(Ω),根据优化问题中的引理 1.2.2可知此条件等价于 (13).

命题 2.2 说明当优化问题(1) 满足强对偶性, 且原问题和对偶问题均可解时, 可以按一定的步骤求解其最优解 x ∗ x^* x:

算法 2.1 优化问题(1)的求解算法:
(2.1.1) 计算对偶函数 g ( λ , μ ) g(\lambda,\mu) g(λ,μ);
(2.1.2) 求解对偶问题(6), 得解 ( λ ∗ , μ ∗ ) ∈ R + p × R q ; (\lambda^*,\mu^*)\in\mathbb{R}_+^p\times\mathbb{R}^q; (λ,μ)R+p×Rq;
(2.1.3) 求解 L ( x ∗ , λ ∗ , μ ∗ ) = g ( λ ∗ , μ ∗ ) L(x^*,\lambda^*,\mu^*)=g(\lambda^*,\mu^*) L(x,λ,μ)=g(λ,μ),得解 x ∗ ; x^*; x;
(2.1.4) 检验 x ∗ x^* x 是否对偶可行条件的第一项:
x ∗ ∈ D , λ i ∗ f i ( x ∗ ) = 0 , i = 1 , ⋯ , p . \begin{align} x^*\in\mathcal{D},\quad\lambda_i^*f_i(x^*)=0,\quad i=1,\cdots,p.\end{align} xD,λifi(x)=0,i=1,,p.

:根据对偶函数 g ( λ , μ ) g(\lambda,\mu) g(λ,μ) 的定义可知,步骤 (2.1.) 等价于求解优化问题
x ∗ = argmin ⁡ x ∈ Ω L ( x , λ ∗ , μ ∗ ) . x^*=\operatorname*{argmin}_{x\in\Omega}L(x,\lambda^*,\mu^*). x=xΩargminL(x,λ,μ).一旦 算法 2.1 能执行完成,并使所求得的 x ∗ x^* x 以及 ( λ ∗ , μ ∗ ) (\lambda^*,\mu^*) (λ,μ) 满足(14), 那么,根据 命题 2.2, x ∗ x^* x ( λ ∗ , μ ∗ ) (\lambda^*,\mu^*) (λ,μ) 必是优化问题(1)及其对偶问题 (6)的解,且满足强对偶性.

3. 对偶性的鞍点特征

在这小节中将说明强对偶性的几何表现。

首先,强对偶性 η ∗ = ξ ∗ \eta^*=\xi^* η=ξ, 即 sup ⁡ λ ⪰ 0 , μ ∈ R q inf ⁡ x ∈ Ω L ( x , λ , μ ) = inf ⁡ x ∈ Ω sup ⁡ λ ⪰ 0 , μ ∈ R q L ( x , λ , μ ) \begin{align} \sup_{\lambda\succeq0,\mu\in\mathbb{R}^q}\inf_{x\in\Omega}L(x,\lambda,\mu)=\inf_{x\in\Omega}\sup_{\lambda\succeq0,\mu\in\mathbb{R}^q}L(x,\lambda,\mu)\end{align} λ0,μRqsupxΩinfL(x,λ,μ)=xΩinfλ0,μRqsupL(x,λ,μ)中,拉格朗日函数 L ( x , λ , μ ) L(x,\lambda,\mu) L(x,λ,μ) 可以看成由两部分所组成: ( x ) (x) (x) ( λ , μ ) (\lambda,\mu) (λ,μ),更为一般地,考虑多元函数 f ( x , y ) f(x,y) f(x,y)以及类似于(15)的等式: sup ⁡ y ∈ B inf ⁡ x ∈ A f ( x , y ) = inf ⁡ x ∈ A sup ⁡ y ∈ B f ( x , y ) \begin{align}\sup_{y\in B}\inf_{x\in A}f(x,y)=\inf_{x\in A}\sup_{y\in B}f(x,y)\end{align} yBsupxAinff(x,y)=xAinfyBsupf(x,y)其中有效定义域为 dom ( f ) = A × B ⊂ R n × R m \begin{aligned}\textbf{dom}(f)=A\times B\subset\mathbb{R}^n\times\mathbb{R}^m\end{aligned} dom(f)=A×BRn×Rm,记 ξ ∗ : = inf ⁡ x ∈ A sup ⁡ y ∈ B f ( x , y ) , η ∗ = sup ⁡ y ∈ B inf ⁡ x ∈ A f ( x , y ) . \begin{align}\xi^*:=\inf_{x\in A}\sup_{y\in B}f(x,y),\quad\eta^*=\sup_{y\in B}\inf_{x\in A}f(x,y).\end{align} ξ:=xAinfyBsupf(x,y),η=yBsupxAinff(x,y).

命题 3.1 (极大极小不等式) 给定函数 f : A × B → R ‾ f:A\times B\to\overline{\mathbb{R}} f:A×BR,其中 A ⊂ R n , B ⊂ R m A\subset\mathbb{R}^n,~B\subset\mathbb{R}^m ARn, BRm 均为非空子集,有 η ∗ ≤ ξ ∗ . \eta^*\leq\xi^*. ηξ.

. 对任意的 x ∈ A , y ∈ B x\in A,\:y\in B xA,yB,根据确界的定义,有 inf ⁡ x ∈ A f ( x , y ) ≤ f ( x , y ) \inf_{x\in A}f(x,y)\leq f(x,y) infxAf(x,y)f(x,y).两边对 y ∈ B y\in B yB 求上确界,得
sup ⁡ y ∈ B inf ⁡ x ∈ A f ( x , y ) ≤ sup ⁡ y ∈ B f ( x , y ) . \sup\limits_{y\in B}\inf\limits_{x\in A}f(x,y)\leq\sup\limits_{y\in B}f(x,y). yBsupxAinff(x,y)yBsupf(x,y).两边再对 x ∈ A x\in A xA 求下确界即得 η ∗ ≤ ξ ∗ . \eta^*\leq\xi^*. ηξ.

类似于Larange 对偶函数的情况,称 η ∗ ≤ ξ ∗ . \eta^*\leq\xi^*. ηξ. 为弱对偶性,称 η ∗ = ξ ∗ . \eta^*=\xi^*. η=ξ.为强对偶性.

若(16)左边的上确界能达到,那么,存在 y ∗ ∈ B y^*\in B yB, 使得 η ∗ = inf ⁡ x ∈ A f ( x , y ∗ ) = sup ⁡ y ∈ B inf ⁡ x ∈ A f ( x , y ) . \begin{aligned}\eta^*=\inf_{x\in A}f(x,y^*)=\sup_{y\in B}\inf_{x\in A}f(x,y).\end{aligned} η=xAinff(x,y)=yBsupxAinff(x,y).同理,对于(16)式右边的下确界,若可以达到,则存在 x ∗ ∈ A x^*\in A xA, 使得 ξ ∗ = sup ⁡ y ∈ B f ( x ∗ , y ) = inf ⁡ x ∈ A sup ⁡ y ∈ B f ( x , y ) . \begin{aligned}\xi^*=\sup_{y\in B}f(x^*,y)=\inf_{x\in A}\sup_{y\in B}f(x,y).\end{aligned} ξ=yBsupf(x,y)=xAinfyBsupf(x,y).所以,当(16)成立的时候,也就是 ξ ∗ = η ∗ \xi^* = \eta^* ξ=η,则有: sup ⁡ y ∈ B f ( x ∗ , y ) = ξ ∗ = η ∗ = inf ⁡ x ∈ A f ( x , y ∗ ) . \sup_{y\in B}f(x^*,y)=\xi^*=\eta^*=\inf_{x\in A}f(x,y^*). yBsupf(x,y)=ξ=η=xAinff(x,y).从而
f ( x ∗ , y ) ≤ sup ⁡ y ∈ B f ( x ∗ , y ) = ξ ∗ = η ∗ = inf ⁡ x ∈ A f ( x , y ∗ ) ≤ f ( x , y ∗ ) , ∀ x ∈ A , y ∈ B . \begin{aligned}f(x^*,y)\leq\sup\limits_{y\in B}f(x^*,y)=\xi^*=\eta^*=\inf\limits_{x\in A}f(x,y^*)\leq f(x,y^*),\quad\forall x\in A,\:y\in B.\end{aligned} f(x,y)yBsupf(x,y)=ξ=η=xAinff(x,y)f(x,y),xA,yB.上式中取 x = x ∗ , y = y ∗ x=x^*,\:y=y^* x=x,y=y, 可以得到 f ( x ∗ , y ∗ ) = ξ ∗ = η ∗ f(x^*,y^*)=\xi^*=\eta^* f(x,y)=ξ=η. 所以
f ( x ∗ , y ) ≤ f ( x ∗ , y ∗ ) ≤ f ( x , y ∗ ) , ∀ x ∈ A , y ∈ B . \begin{align} f(x^*,y)\leq f(x^*,y^*)\leq f(x,y^*),\quad\forall x\in A,\:y\in B.\end{align} f(x,y)f(x,y)f(x,y),xA,yB.这说明 ( x ∗ , y ∗ ) (x^*,y^*) (x,y) f f f 中的鞍点,定义如下.

定义 3.1 (鞍点) 对于函数 f : A × B → R ‾ f:A\times B\to\overline{\mathbb{R}} f:A×BR,其中 A ⊂ R n , B ⊂ R m A\subset\mathbb{R}^n,\quad B\subset\mathbb{R}^m ARn,BRm ,若 ( x ∗ , y ∗ ) ∈ A × B (x^*,y^*)\in A\times B (x,y)A×B 满足(18),则称之为 f f f 的一个鞍点.


图 3.1:鞍点示意图

命题 3.2 (强对偶性的鞍点刻画) 给定函数 f : A × B → R ‾ f:A\times B\to\overline{\mathbb{R}} f:A×BR,其中 A ⊂ R n , B ⊂ R m A\subset\mathbb{R}^n,~B\subset\mathbb{R}^m ARn, BRm, ( x ∗ , y ∗ ) ∈ A × B (x^*,y^*)\in A\times B (x,y)A×B f f f 的一个鞍点,即满足(18), 当且仅当 sup ⁡ y ∈ B f ( x ∗ , y ) = ξ ∗ = η ∗ = inf ⁡ x ∈ A f ( x , y ∗ ) . \begin{align} \sup\limits_{y\in B}f(x^*,y)=\xi^*=\eta^*=\inf\limits_{x\in A}f(x,y^*).\end{align} yBsupf(x,y)=ξ=η=xAinff(x,y).此外,当 ( x ∗ , y ∗ ) (x^*,y^*) (x,y) f f f的鞍点时,有 f ( x ∗ , y ∗ ) = ξ ∗ . f( x^* , y^* ) = \xi^* . f(x,y)=ξ.

.充分性如上已证,下证必要性.

( x ∗ , y ∗ ) (x^*,y^*) (x,y) f f f 的一个鞍点,则(18)式成立,即 f ( x ∗ , y ) ≤ f ( x ∗ , y ∗ ) ≤ f ( x , y ∗ ) , ∀ x ∈ A , y ∈ B f(x^*,y)\leq f(x^*,y^*)\leq f(x,y^*),\quad\forall x\in A,\:y\in B f(x,y)f(x,y)f(x,y),xA,yB,这个式子的第一个不等式对 y ∈ B y \in B yB 求上确界,第而个不等式对 x ∈ A x \in A xA 求下确界,可以得到 sup ⁡ y ∈ B f ( x ∗ , y ) ≤ f ( x ∗ , y ∗ ) ≤ inf ⁡ x ∈ A f ( x , y ∗ ) . \begin{align}\sup_{y\in B}f(x^*,y)\leq f(x^*,y^*)\leq\inf_{x\in A}f(x,y^*).\end{align} yBsupf(x,y)f(x,y)xAinff(x,y).从而有 ξ ∗ = inf ⁡ x ∈ A sup ⁡ y ∈ B f ( x , y ) ≤ sup ⁡ y ∈ B f ( x ∗ , y ) ≤ f ( x ∗ , y ∗ ) ≤ inf ⁡ x ∈ A f ( x , y ∗ ) ≤ sup ⁡ y ∈ B inf ⁡ x ∈ A f ( x , y ) = η ∗ . \begin{aligned}\xi^*&=\inf_{x\in A}\sup_{y\in B}f(x,y)\le\sup_{y\in B}f(x^*,y)\le f(x^*,y^*)\le\inf_{x\in A}f(x,y^*)\le\sup_{y\in B}\inf_{x\in A}f(x,y)=\eta^*.\end{aligned} ξ=xAinfyBsupf(x,y)yBsupf(x,y)f(x,y)xAinff(x,y)yBsupxAinff(x,y)=η.

如果我们将鞍点的定义用到优化问题(1)的拉格朗日函数中去,会发生什么呢?设 g ( λ , μ ) g(\lambda,\mu) g(λ,μ)是优化问题(1)的对偶函数,而 ξ ∗ \xi^* ξ η ∗ \eta^* η 分别是优化问题(1)及其对偶问题的最优解,我们称解 ( x ∗ , λ ∗ , μ ∗ ) (x^*,\lambda^*,\mu^*) (x,λ,μ)为拉格朗日函数 L ( x , λ , μ ) L(x,\lambda,\mu) L(x,λ,μ)的鞍点,如果满足条件: L ( x ∗ , λ , μ ) ≤ L ( x ∗ , λ ∗ , μ ∗ ) ≤ L ( x , λ ∗ , μ ∗ ) , ∀ x ∈ Ω , ( λ , μ ) ∈ R + p × R q . L(x^*,\lambda,\mu)\leq L(x^*,\lambda^*,\mu^*)\leq L(x,\lambda^*,\mu^*),\quad\forall x\in\Omega,(\lambda,\mu)\in\mathbb{R}_+^p\times\mathbb{R}^q. L(x,λ,μ)L(x,λ,μ)L(x,λ,μ),xΩ,(λ,μ)R+p×Rq.于是,这就可以说明鞍点是可以用来刻画优化问题(1)及其对偶问题(6)的解以及强对偶性.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/231209.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在linux上基于shell自动部署Java项目

一&#xff0c;安装git yum list git 列出git安装包 yum install git 在线安装git 使用 git -varsion 查看是否安装成功 安装成功 二&#xff0c; Git克隆代码 git clone 远程仓库地址 三&#xff0c;创建shell脚本 touch shell.sh shell脚本 #!/bin/sh echo echo 自动…

健康手表数据洞察台

健康手表数据洞察台 1. 背景介绍2. 数据获取与处理3. Django平台搭建4. 数据可视化5. 整体数据分析6. 数据监控与紧急警报7. 用户界面优化8. 创新点结语 1. 背景介绍 在当今健康意识不断提升的社会&#xff0c;人们越来越关注身体健康。本文将介绍如何使用Pandas进行数据分析&…

NTC和温度的关系

一、NTC介绍 NTC&#xff08;nagative temperature coefficient&#xff09;负温度系数的热敏电阻。随着温度的升高&#xff0c;电阻越来越小 二、NTC和温度的关系 生产NTC的厂家会提供一个RT表格&#xff0c;里面记录了温度和电阻的关系&#xff0c;他们的关系是一一对应的…

C# 使用FluentHttpClient请求WebApi

写在前面 FluentHttpClient 是一个REST API 异步调用 HTTP 客户端&#xff0c;调用过程非常便捷&#xff0c;采用流式编程&#xff0c;可以将所有请求所需的参数一次性发送&#xff0c;并直接获取序列化后的结果。 老规矩从NuGet上安装该类库&#xff1a; 这边一定要认准是 P…

React系列:配置@别名路径并配置联想

&#x1f341; 作者&#xff1a;知识浅谈&#xff0c;CSDN签约讲师&#xff0c;CSDN博客专家&#xff0c;华为云云享专家&#xff0c;阿里云专家博主 &#x1f4cc; 擅长领域&#xff1a;全栈工程师、爬虫、ACM算法 &#x1f492; 公众号&#xff1a;知识浅谈 &#x1f525;网站…

汽车火花塞行业分析:全球市场需求量约为26.3亿个

在汽车日常保养里,更换火花塞算是比较常见的一种,爱车懂车的车主们都非常清楚火花塞对于汽车的重要性,可以说火花塞直接影响到发动机的运作,决定了汽车能否顺利启程。 火花塞(sparkplug)&#xff0c;俗称火咀&#xff0c;它的作用是把高压导线(火嘴线)送来的脉冲高压电放电&…

zkSend — — 在Sui上发红包像发电子邮件一样简单

*12月14日&#xff0c;知名区块链媒体平台The Block发表了这篇关于对Mysten Labs联合创始人Adeniyi Abiodun的采访&#xff0c;文中“我们”指代该媒体&#xff0c;数据均为截止撰写文章时数据&#xff0c;以下是正文。 两年前&#xff0c;当五名前Facebook工程师创立Mysten L…

MySQL数据库 函数

目录 函数概述 字符串函数 数值函数 日期函数 流程函数 函数概述 函数是指一段可以直接被另一段程序调用的程序或代码。也就意味着&#xff0c;这一段程序或代码在MysQL中已经给我们提供了&#xff0c;我们要做的就是在合适的业务场景调用对应的函数完成对应的业务需求即…

如何提高股票交易速度?极速交易哪家好?

极速交易模式是一种交易方式&#xff0c;它以最短的时间进行快速交易。这种模式通常用于贵金属、外汇、原油、期权等金融产品的交易。 在极速交易模式中&#xff0c;交易者可以在最短时间内进行买卖操作&#xff0c;从而快速获取利润。这种交易方式通常需要高超的技术和经验&a…

【03】GeoScene创建海图或者电子航道图数据

1 配置Nautical属性 1.1 管理长名称 长名称&#xff08;LNAM&#xff09;是一个必要的对象标识符&#xff0c;是生产机构&#xff08;AGEN&#xff09;、要素识别号码&#xff08;FIDN&#xff09;和要素识别子项&#xff08;FIDS&#xff09;组件的串联。这三个子组件用于数…

【Spring】09 BeanClassLoaderAware 接口

文章目录 1. 简介2. 作用3. 使用3.1 创建并实现接口3.2 配置 Bean 信息3.3 创建启动类3.4 启动 4. 应用场景总结 Spring 框架为开发者提供了丰富的扩展点&#xff0c;其中之一就是 Bean 生命周期中的回调接口。本文将聚焦于其中的一个接口 BeanClassLoaderAware&#xff0c;介…

11889个字带你彻底弄清tcp/ip协议栈

tcpip协议栈 tcpip模型以太网协议ARP地址解析协议TCP协议 tcpip模型 OSI模型linux tcpip模型常用协议网络设备应用层应用层telnet/DHCP/TFTP/FTP/MQTT/NFS/DNS/FTP/SNMP表示层会话层传输层传输层TCP/UDP四层交换机网络层网络层IP/ICMP/IGMP/ARP路由器&#xff0c;三层交换机…

01|LangChain系统安装和快速入门

01&#xff5c;LangChain系统安装和快速入门 什么是大语言模型 大语言模型是一种人工智能模型&#xff0c;通常使用深度学习技术&#xff0c;比如神经网络&#xff0c;来理解和生成人类语言。这些模型的“大”在于它们的参数数量非常多&#xff0c;可以达到数十亿甚至更多&am…

日本药典数据库

日本药典&#xff08;Japanese Pharmacopoeia&#xff0c;简称JP&#xff09;&#xff0c;对于药品研究人员来说&#xff0c;日本药典查询可以提供药品标准的参考&#xff0c;设定研究指标&#xff0c;支持药物注册和上市&#xff0c;以及了解行业趋势和发展。这些信息对于研究…

找出一个二维数组中的鞍点

找出一个二维数组中的鞍点&#xff0c;即该位置上的元素在该行上的最大、在该列上最小。也有可能没有鞍点。 #define _CRT_SECURE_NO_WARNINGS #include<stdio.h> int main() {int a[10][10] { 0 };int n 0, m 0;int i 0, j 0;printf("请输入这个数组有n行m列…

Yapi详细安装过程(亲测可用)

1. 前置条件 1、Git 2、NodeJs&#xff08;7.6&#xff09; 3、Mongodb&#xff08;2.6&#xff09; 2. NodeJs的安装 1、获取资源 curl -sL https://rpm.nodesource.com/setup_8.x | bash - 2、安装NodeJS yum install -y nodejs 3、查看NodeJs和Npm node -v npm -v…

【数据结构复习之路】图(严蔚敏版)两万余字超详细讲解

专栏&#xff1a;数据结构复习之路 复习完上面四章【线性表】【栈和队列】【串】【数组和广义表】【树和二叉树】&#xff0c;我们接着复习 图&#xff0c;这篇文章我写的非常详细且通俗易懂&#xff0c;看完保证会带给你不一样的收获。如果对你有帮助&#xff0c;看在我这么辛…

奥迦插件23.12.5支持32和64位图色模拟(和大漠插件类似)

源码名称&#xff1a;奥迦插件23.12.5和大漠插件类似奥迦插件在Windows 10操作系统上使用Visual Studio 2019编写,适用于所有较新的Windows平台,是一款集网络验证,深度学习,内核,视觉,文字,图色,后台,键鼠,窗口,内存,汇编,进程,文件,网络,系统,算法及其它功能于一身的综合插件插…

针对海量数据的存储与访问瓶颈的解决方案

背景 在当今这个时代&#xff0c;人们对互联网的依赖程度非常高&#xff0c;也因此产生了大量的数据&#xff0c;企业视这些数据为瑰宝。而这些被视为瑰宝的数据为我们的系统带来了很大的烦恼。这些海量数据的存储与访问成为了系统设计与使用的瓶颈&#xff0c;而这些数据往往存…

Python装饰器泛化公有和私有属性

Python装饰器是一种强大的功能&#xff0c;允许程序员修改函数或类的行为。通过装饰器&#xff0c;可以在不修改函数或类本身的情况下&#xff0c;添加额外的功能或修改其行为。本文将深入探讨如何利用装饰器来泛化公有和私有属性的访问和修改方式。 Python装饰器的概念和作用…