Block Successive Upper Bound Minimization Method(BSUM)算法

BSUM优化方法学习

  • 先验知识
  • 参考资料1 A Unified Convergence Analysis of Block Successive Minimization Methods for Nonsmooth Optimization
  • SUCCESSIVE UPPER-BOUND MINIMIZATION (SUM) 连续上限最小化算法
  • THE BLOCK SUCCESSIVE UPPER-BOUND MINIMIZATION ALGORITHM 块连续上限最小化算法
  • 应用案例
  • 参考资料2 A Block Successive Upper Bound Minimization Method of Multipliers for Linearly Constrained Convex Optimization
    • 概述
    • 应用例子
    • 文献综述

先验知识

在这里插入图片描述

参考资料1 A Unified Convergence Analysis of Block Successive Minimization Methods for Nonsmooth Optimization

块坐标下降 (BCD) 方法广泛用于最小化多个块变量的连续函数 f。 在此方法的每次迭代中,都会优化单个变量块,而其余变量保持固定。 为了保证BCD方法的收敛性,每次迭代中待优化的子问题都需要准确地求解到其唯一的最优解。 不幸的是,这些要求对于许多实际场景来说往往限制太多。 在本文中,我们研究了一种替代的不精确 BCD 方法,该方法通过连续最小化 f 的一系列近似值来更新变量块,这些近似值要么是 f 的局部紧上限,要么是 f 的严格凸局部近似值。 我们专注于表征相当广泛的此类方法的收敛特性,特别是对于目标函数不可微或非凸的情况。 我们的结果统一并扩展了许多经典算法的现有收敛结果,例如BCD方法、凸函数差(DC)方法、期望最大化(EM)算法以及交替近端最小化算法。

Block Coordinate Descent, Block Successive Upper-bound Minimization, Successive Convex Ap-
proximation, Successive Inner Approximation在这里插入图片描述

SUCCESSIVE UPPER-BOUND MINIMIZATION (SUM) 连续上限最小化算法

为了深入了解一般的不精确 BCD 方法,让我们首先考虑一种简单的连续上限最小化 (SUM) 方法,其中所有变量都分组到一个块中。 尽管形式简单,SUM 算法却是 DC 编程 [33] 和 EM 算法 [4] 等许多重要算法的关键。 考虑以下优化问题

考虑以下优化问题
min ⁡ f ( x ) s.t. x ∈ X , \begin{array}{cc}\min&f(x)\\\\\text{s.t.}&x\in\mathcal{X},\end{array} mins.t.f(x)xX,

其中 X \mathcal{X} X 是闭凸集。 不失一般性,我们可以假设 dom f = X \text{dom} \mathcal{f} = \mathcal{X} domf=X。当目标函数 f ( ⋅ ) \mathcal{f}(·) f() 非凸和/或非光滑时,直接求解 (2) 可能并不容易。 SUM 算法通过优化一系列近似目标函数来规避这种困难。 更具体地说,从可行点 x 0 x^0 x0开始,算法根据以下更新规则生成序列 { x r } \{x^r\} {xr}
x r ∈ arg ⁡ min ⁡ x ∈ X u ( x , x r − 1 ) x^r\in\arg\min_{x\in\mathcal{X}}\quad u(x,x^{r-1}) xrargxXminu(x,xr1)

其中, x r − 1 x^{r-1} xr1 是由算法在第 r − 1 r-1 r1 次迭代生成的点,而 u ( x , x r − 1 ) u(x, x^{r-1}) u(x,xr1) 是第 r r r 次迭代中对 f ( x ) f(x) f(x) 的近似。通常需要选择近似函数 u ( ⋅ , ⋅ ) u(\cdot, \cdot) u(,),使得子问题(3)易于求解。此外,为了保证 SUM 算法的收敛性,需要满足 u ( ⋅ , ⋅ ) u(\cdot, \cdot) u(,) 的某些规律性条件(稍后将讨论)。在其它要求中, u ( x , x r − 1 ) u(x, x^{r-1}) u(x,xr1) 需要是 f ( x ) f(x) f(x) 的全局上界,因此得名该算法。SUM 算法的主要步骤如图 1 1 1 所示。

在这里插入图片描述

我们指出,所提出的 SUM 算法在许多方面与[21]中开发的内近似算法(IAA)相似,但有以下主要区别:
• IAA 算法近似目标函数和可行集。 相反,SUM算法仅近似目标函数。
• IAA 算法仅适用于具有光滑目标的问题,而SUM 算法也能够处理非光滑目标。

值得一提的是,现有的IAA算法的收敛结果相当弱。 特别是,[21,定理 1] 指出,如果整个序列收敛,那么算法应该收敛到一个驻点。 接下来,我们表明,只要近似函数 u ( ⋅ , ⋅ ) u(\cdot, \cdot) u(,)满足我们在下面概述的某些温和假设1,SUM 算法就可以提供更强的收敛保证。

Assumption 1 Let the approximation function u ( ⋅ , ⋅ ) u(\cdot,\cdot) u(,) satisfy the following
(A1)(A2)(A3)(A4)
u ( y , y ) = f ( y ) , ∀ y ∈ X u ( x , y ) ≥ f ( x ) , ∀ x , y ∈ X u ′ ( x , y ; d ) ∣ x = y = f ′ ( y ; d ) , ∀ d w i t h y + d ∈ X u ( x , y ) is continuous in  ( x , y ) \begin{aligned} &u(y,y)=f(y),\quad\forall y\in\mathcal{X} \\ &u(x,y)\geq f(x),\quad\forall x,y\in\mathcal{X} \\ &u^{\prime}(x,y;d)\bigg|_{x=y}=f^{\prime}(y;d),\quad\forall d \mathrm{with} y+d\in\mathcal{X} \\ &u(x,y)\text{ is continuous in }(x,y) \end{aligned} u(y,y)=f(y),yXu(x,y)f(x),x,yXu(x,y;d) x=y=f(y;d),dwithy+dXu(x,y) is continuous in (x,y)

The assumptions (Al) and (A2) imply that the approximate function u ( ⋅ , x r − 1 ) u(\cdot,x^{r-1}) u(,xr1) in (3) is a tight upper bound of the original function. The assumption (A3) guarantees that the first order behavior of u ( ⋅ , x r − 1 ) u(\cdot,x^{r-1}) u(,xr1) is the same as f ( ⋅ ) f(\cdot) f() locally (note that the directional derivative u ′ ( x , y ; d ) u^{\prime}(x,y;d) u(x,y;d) is only with respect to the variable x ) . x). x). Although directly checking (A3) may not be easy, the following proposition provides a sufficient condition under which (A3) holds true automatically.

假设(Al)和(A2)意味着在(3)中的近似函数 u ( ⋅ , x r − 1 ) u(\cdot, x^{r-1}) u(,xr1) 是原始函数的紧上界。假设(A3)保证了 u ( ⋅ , x r − 1 ) u(\cdot, x^{r-1}) u(,xr1) 的一阶导数为与局部的 f ( ⋅ ) f(\cdot) f() 相同(注意,方向导数 u ′ ( x , y ; d ) u'(x, y; d) u(x,y;d) 仅针对变量 x x x)。虽然直接验证(A3)可能并不容易,但以下命题提供了一个充分条件,在此条件下(A3)自动成立。


Proposition 1 Assume f ( x ) = f 0 ( x ) + f 1 ( x ) , w h e r e f(x)=f_0(x)+f_1(x),where f(x)=f0(x)+f1(x),where f 0 ( ⋅ ) f_0(\cdot) f0() is continuously differentiable and the directional derivative o f f 1 ( ⋅ ) off_{1}( \cdot ) off1() exists a t at at every point x ∈ X . x\in \mathcal{X} . xX. Consider u ( x , y ) = u 0 ( x , y ) + f 1 ( x ) u( x, y) = u_{0}( x, y) + f_{1}( x) u(x,y)=u0(x,y)+f1(x), where u 0 ( x , y ) u_{0}( x, y) u0(x,y) is a a a continuously differentiable function satisfying the following conditions

命题 1 假设 f ( x ) = f 0 ( x ) + f 1 ( x ) f(x) = f_0(x) + f_1(x) f(x)=f0(x)+f1(x),其中 f 0 ( ⋅ ) f_0(\cdot) f0() 是连续可微的,并且 f 1 ( ⋅ ) f_1(\cdot) f1() 的方向导数在每一点 x ∈ X x \in \mathcal{X} xX 都存在。考虑 u ( x , y ) = u 0 ( x , y ) + f 1 ( x ) u(x, y) = u_{0}(x, y) + f_{1}(x) u(x,y)=u0(x,y)+f1(x),其中 u 0 ( x , y ) u_{0}(x, y) u0(x,y) 是一个连续可微的函数,满足以下条件:
u 0 ( y , y ) = f 0 ( y ) , ∀ y ∈ X u 0 ( x , y ) ≥ f 0 ( x ) , ∀ x , y ∈ X . \begin{aligned}&u_{0}(y,y)=f_{0}(y),\quad\forall y\in\mathcal{X}\\&u_{0}(x,y)\geq f_{0}(x),\quad\forall x,y\in\mathcal{X}.\end{aligned} u0(y,y)=f0(y),yXu0(x,y)f0(x),x,yX.

Then, (A1), (A2) and (A3) hold for u ( ⋅ , ⋅ ) u(\cdot, \cdot) u(,).


Theorem 1 : Assume that Assumption 1 is satisfied. Then every limit point of the iterates generated by
the SUM algorithm is a stationary point of the problem (2).

定理 1 假设满足假设 1。那么,由 SUM 算法生成的迭代序列的每一个极限点都是问题(2)的稳定点。

(10)

P r o o f : Proof{:} Proof: Firstly, we observe the following series of inequalities

f ( x r + 1 ) ≤ ( i ) u ( x r + 1 , x r ) ≤ ( i i ) u ( x r , x r ) = f ( x r ) , ∀ r = 0 , 1 , 2 , … f(x^{r+1})\stackrel{(\mathrm{i})}{\leq}u(x^{r+1},x^r)\stackrel{(\mathrm{ii})}{\leq}u(x^r,x^r)=f(x^r),\quad\forall\:r=0,1,2,\ldots f(xr+1)(i)u(xr+1,xr)(ii)u(xr,xr)=f(xr),r=0,1,2,

where step (i) is due to (Al), step (ii) follows from the optimality of x t + 1 x^{t+1} xt+1 (cf. step 4 and 5 in Figll), and the last equality is due to (A2). A straightforward consequence of (10) is that the sequence of the objective function values are non-increasing, that is

f ( x 0 ) ≥ f ( x 1 ) ≥ f ( x 2 ) ≥ … f(x^0)\geq f(x^1)\geq f(x^2)\geq\ldots f(x0)f(x1)f(x2)

Assume that there exists a subsequence { x r j } \{x^{r_j}\} {xrj} converging to a limit point z . z. z. Then Assumptions (A1),
(A2) together with (11) imply that

u ( x r j + 1 , x r j + 1 ) = f ( x r j + 1 ) ≤ f ( x r j + 1 ) ≤ u ( x r j + 1 , x r j ) ≤ u ( x , x r j ) , ∀ x ∈ X u(x^{r_{j+1}},x^{r_{j+1}})=f(x^{r_{j+1}})\leq f(x^{r_{j}+1})\leq u(x^{r_{j}+1},x^{r_{j}})\leq u(x,x^{r_{j}}),\quad\forall\:x\in\mathcal{X} u(xrj+1,xrj+1)=f(xrj+1)f(xrj+1)u(xrj+1,xrj)u(x,xrj),xX
Letting j → ∞ j\to\infty j, we obtain

u ( z , z ) ≤ u ( x , z ) , ∀ x ∈ X , u(z,z)\leq u(x,z),\quad\forall\:x\in\mathcal{X}, u(z,z)u(x,z),xX,

(11)

which implies

u ′ ( x , z ; d ) ∣ x = z ≥ 0 , ∀ d ∈ R m with z + d ∈ X . \left.u'(x,z;d)\right|_{x=z}\geq0,\quad\forall\:d\in\mathbb{R}^m\:\text{with}\:z+d\in\mathcal{X}. u(x,z;d)x=z0,dRmwithz+dX.

Combining with (A3), we obtain

f ′ ( z ; d ) ≥ 0 , ∀ d ∈ R m with z + d ∈ X , f'(z;d)\geq0,\quad\forall\:d\in\mathbb{R}^m\:\text{with}\:z+d\in\mathcal{X}, f(z;d)0,dRmwithz+dX,

implying that z z z is a stationary point of f ( ⋅ ) . f(\cdot). f().

Corollary 1 Assume that the level set X 0 = { x ∣ f ( x ) ≤ f ( x 0 ) } \textbf{Corollary 1 Assume that the level set }\mathcal{X} ^0= \{ x\mid f( x) \leq f( x^0) \} Corollary 1 Assume that the level set X0={xf(x)f(x0)} is compact and Assumption Z \mathbb{Z} Z holds.
Then, the sequence of iterates { x r } \{x^r\} {xr} generated by the SUM algorithm satisfy

lim ⁡ r → ∞ d ( x r , X ∗ ) = 0 , \lim\limits_{r\to\infty}\quad d(x^r,\mathcal{X}^*)=0, rlimd(xr,X)=0,

where X ∗ X^* X is the set of stationary points of (2).

THE BLOCK SUCCESSIVE UPPER-BOUND MINIMIZATION ALGORITHM 块连续上限最小化算法

在许多实际应用中,优化变量(复数)可以分解为独立的块(复数)。 当明智地利用这种块结构时,可以产生可分布式实现的低复杂度算法。 在本节中,我们介绍块连续上界最小化(BSUM)算法,该算法有效地考虑了这种块结构。

让我们假设可行集 X \mathcal{X} X n n n 个闭凸集的笛卡尔积: X = X 1 × … × X n \mathcal{X}=\mathcal{X}_1\times\ldots\times\mathcal{X}_n X=X1××Xn,其中 X i ⊆ R m i \mathcal{X}_i \subseteq \mathbb{R}^{m_i} XiRmi,且 ∑ i m i = m \sum_i m_i = m imi=m。相应地,优化变量 x ∈ R m x \in \mathbb{R}^m xRm 可以被分解为: x = ( x 1 , x 2 , … , x n ) x=(x_{1},x_{2},\ldots,x_{n}) x=(x1,x2,,xn),其中 x i ∈ X i x_i \in \mathcal{X}_{i} xiXi i = 1 , ⋯ , n i=1, \cdots, n i=1,,n。我们感兴趣的问题是
min ⁡ f ( x ) s . t . x ∈ X . \begin{array}{ll}\min&f(x)\\\\\mathrm{s.t.}&x\in\mathcal{X}.\end{array} mins.t.f(x)xX.

与 SUM 算法不同,BSUM 算法在每次迭代中仅更新单个变量块。 更准确地说,在第 r r r次迭代时,通过解决以下子问题来计算所选块(例如块 i i i
min ⁡ x i u i ( x i , x r − 1 ) s . t . x i ∈ X i , \begin{aligned}&\min_{x_{i}}\quad u_{i}(x_{i},x^{r-1})\\&\mathrm{s.t.}\quad x_{i}\in\mathcal{X}_{i},\end{aligned} ximinui(xi,xr1)s.t.xiXi,

其中 u i ( ⋅ , x r − 1 ) u_i(\cdot, x^{r-1}) ui(,xr1) 再次是对原始目标函数 f ( ⋅ ) f(\cdot) f() 在点 x r − 1 x^{r-1} xr1 的近似(实际上是全局上界)。图 2 总结了 BSUM 算法的主要步骤。注意,尽管块是按照简单的循环规则更新的,但算法及其收敛结果可以轻松扩展到(更通用的)本质上的循环更新规则。这一点将在第七节进一步阐述。
where u i ( ⋅ , x r − 1 ) u_i(\cdot,x^{r-1}) ui(,xr1) is again an approximation (in fact, a global upper-bound) of the original objective f ( ⋅ ) f(\cdot) f() at the point x r − 1 x^{r-1} xr1.Fig. 2 \color{red}{\boxed{2}} 2 summarizes the main steps of the BSUM algorithm. Note that although the blocks are updated following a simple cyclic rule, the algorithm and its convergence results can be easily extended to the (more general) essentially cyclic update rule as well. This point will be further elaborated in Section VII

现在我们准备研究 BSUM 算法的收敛行为。 为此,函数 u i ( ⋅ , ⋅ ) u_{i}( \cdot, \cdot) ui(,) 需要满足以下正则条件。

Assumption 2
(B1)(B2)(B3)(B4)
u i ( y i , y ) = f ( y ) , ∀ y ∈ X , ∀ i u i ( x i , y ) ≥ f ( y 1 , … , y i − 1 , x i , y i + 1 , … , y n ) , ∀ x i ∈ X i , ∀ y ∈ X , ∀ i u i ′ ( x i , y ; d i ) ∣ x i = y i = f ′ ( y ; d ) , ∀ d = ( 0 , … , d i , … , 0 ) s . t . y i + d i ∈ X i , ∀ i u i ( x i , y ) is continuous in  ( x i , y ) , ∀ i \begin{aligned}&u_{i}(y_{i},y)=f(y),\quad\forall y\in\mathcal{X},\forall i\\&u_{i}(x_{i},y)\geq f(y_{1},\ldots,y_{i-1},x_{i},y_{i+1},\ldots,y_{n}),\quad\forall x_{i}\in\mathcal{X}_{i},\forall y\in\mathcal{X},\forall i\\&u_{i}'(x_{i},y;d_{i})\bigg|_{x_{i}=y_{i}}=f'(y;d),\quad\forall d=(0,\ldots,d_{i},\ldots,0) \mathrm{s.t.} y_{i}+d_{i}\in\mathcal{X}_{i},\forall i\\&u_{i}(x_{i},y) \text{is continuous in }(x_{i},y),\quad\forall i\end{aligned} ui(yi,y)=f(y),yX,iui(xi,y)f(y1,,yi1,xi,yi+1,,yn),xiXi,yX,iui(xi,y;di) xi=yi=f(y;d),d=(0,,di,,0)s.t.yi+diXi,iui(xi,y)is continuous in (xi,y),i
与命题1类似,我们可以确定一个充分条件来保证(B3)。

Proposition 2 Assume f ( x ) = f 0 ( x ) + f 1 ( x ) , w h e r e f(x)=f_0(x)+f_1(x),where f(x)=f0(x)+f1(x),where f 0 ( ⋅ ) f_0(\cdot) f0() is continuously differentiable and the directional derivative of f 1 ( ⋅ ) f_1(\cdot) f1() exists at every point x ∈ X . Consider u i ( x i , y ) = u 0 , i ( x i , y ) + f 1 ( x ) , w h e r e x\in \mathcal{X} . \textit{Consider }u_i( x_i, y) = u_{0, i}( x_i, y) + f_1( x) , where xX.Consider ui(xi,y)=u0,i(xi,y)+f1(x),where u 0 , i ( x i , y ) satisfres the following assumptions u_{0, i}( x_i, y) \textit{ satisfres the following assumptions} u0,i(xi,y) satisfres the following assumptions

命题 2 假设 f ( x ) = f 0 ( x ) + f 1 ( x ) f(x)=f_0(x)+f_1(x) f(x)=f0(x)+f1(x),其中 f 0 ( ⋅ ) f_0(\cdot) f0() 是连续可微的,并且 f 1 ( ⋅ ) f_1(\cdot) f1() 的方向导数在每一点 x ∈ X x \in \mathcal{X} xX 都存在。考虑 u i ( x i , y ) = u 0 , i ( x i , y ) + f 1 ( x ) u_i(x_i, y) = u_{0, i}(x_i, y) + f_1(x) ui(xi,y)=u0,i(xi,y)+f1(x),其中 u 0 , i ( x i , y ) u_{0, i}(x_i, y) u0,i(xi,y) 满足以下假设:
u 0 , i ( x i , x ) = f 0 ( x ) , ∀ x ∈ X , ∀ i u 0 , i ( x i , y ) ≥ f 0 ( y 1 , … , y i − 1 , x i , y i + 1 , … , y n ) , ∀ x , y ∈ X ∀ i . \begin{aligned}&u_{0,i}(x_{i},x)=f_0(x),\quad\forall x\in\mathcal{X},\quad\forall i\\&u_{0,i}(x_{i},y)\geq f_0(y_1,\ldots,y_{i-1},x_i,y_{i+1},\ldots,y_n), \forall x,y\in\mathcal{X}\quad\forall i.\end{aligned} u0,i(xi,x)=f0(x),xX,iu0,i(xi,y)f0(y1,,yi1,xi,yi+1,,yn),x,yXi.

Then, (B1), (B2), and (B3) hold.

证明:证明与命题1的证明完全相同。

BSUM算法的收敛结果由两部分组成。 第一部分假设目标函数拟凸,保证了极限点的存在。 这与 [2] 中 BCD 方法的经典收敛证明的精神相同。 然而,如果我们知道迭代位于一个紧凑的集合中,那么就可以证明更强的结果。 事实上,在定理的第二部分中,收敛是通过放宽拟凸性假设同时施加水平集的紧性假设来获得的。

Theorem 2
(a) 假设函数 u i ( x i , y ) u_i(x_i, y) ui(xi,y) x i x_i xi 上是准凸的,并且假设 2 \boxed{2} 2 成立。此外,假设子问题 (13) 对于任意点 x r − 1 ∈ X x^{r-1} \in \mathcal{X} xr1X 有唯一解。那么,由 BSUM 算法生成的迭代序列的每个极限点 z z z 都是 (12) 的坐标最小值。此外,如果 f ( ⋅ ) f(\cdot) f() z z z 处是正则的,那么 z z z 是 (12) 的稳定点。

(b) 假设水平集 X 0 = { x ∣ f ( x ) ≤ f ( x 0 ) } \mathcal{X}^0 = \{x \mid f(x) \leq f(x^0)\} X0={xf(x)f(x0)} 是紧致的,并且假设 2 \boxed{2} 2 成立。此外,假设对于任意点 x r − 1 ∈ X x^{r-1} \in \mathcal{X} xr1X,至少 n − 1 n-1 n1 个块的子问题 (13) 有唯一解。如果 f ( ⋅ ) f(\cdot) f() 在稳定点集 X ∗ X^* X 中的每个点相对于坐标 x 1 , … , x n x_{1}, \ldots, x_{n} x1,,xn 都是正则的。那么,由 BSUM 算法生成的迭代序列收敛到稳定点集,即
lim ⁡ r → ∞ d ( x r , X ∗ ) = 0. \lim\limits_{r\to\infty}\quad d(x^r,\mathcal{X}^*)=0. rlimd(xr,X)=0.




应用案例

论文
Movable Frequency Diverse Array-Assisted Covert Communication With Multiple Wardens

Next, we define the non-convex function in (21a) as
y k , m , n ( x ) = cos ⁡ [ 2 π ( ( f m x − f n x n ) sin ⁡ θ w k − sin ⁡ θ b c + ( f m − f n ) r b − r w k c ) ] . ( 22 ) \left.y_{k,m,n}\left(x\right)=\cos\left[2\pi\left(\begin{array}{c}\left(f_mx-f_nx_n\right)\frac{\sin\theta_{w_k}-\sin\theta_b}{c}\\+\left(f_m-f_n\right)\frac{r_b-r_{w_k}}{c}\end{array}\right.\right)\right].\\(22) yk,m,n(x)=cos[2π((fmxfnxn)csinθwksinθb+(fmfn)crbrwk)].(22)

Following the BSUM method, the objective function (22)
is approximated by the upper-bound quadratic function
u k , m , n ( x ) u_{k,m,n} (x) uk,m,n(x), which is defined by
u k , m , n ( x ) = A k , m , n ( x − B k , m , n ) 2 + C k , m , n , u_{k,m,n}\left(x\right)=A_{k,m,n}(x-B_{k,m,n})^{2}+C_{k,m,n}, uk,m,n(x)=Ak,m,n(xBk,m,n)2+Ck,m,n,

where A k , m , n ∈ R , A k , m , n > 0 , B k , m , n ∈ R A_{k,m,n}\in\mathbb{R}, A_{k,m,n}>0, B_{k,m,n}\in\mathbb{R} Ak,m,nR,Ak,m,n>0,Bk,m,nR and C k , m , n ∈ R C_{k,m,n}\in \mathbb{R} Ck,m,nR are the parameters of the new quadratic function. For a given point x m s − 1 x_m^{s-1} xms1 in (22), the approximate function (23) should satisfy the following constraints:
{ u k , m , n ( x m s − 1 ; x n s − 1 ) = y k , m , n ( x m s − 1 ; x n s − 1 ) u k , m , n ′ ( x m s − 1 ; x n s − 1 ) = y k , m , n ′ ( x m s − 1 ; x n s − 1 ) u k , m , n ( B k , m , n ; x n s − 1 ) ∈ { 1 , − 1 } − 1 ≤ y k , m , n ( B k , m , n ; x n s − 1 ) ≤ 1 , \left.\left\{\begin{array}{l}u_{k,m,n}\left(x_m^{s-1};x_n^{s-1}\right)=y_{k,m,n}\left(x_m^{s-1};x_n^{s-1}\right)\\u_{k,m,n}^{'}\left(x_m^{s-1};x_n^{s-1}\right)=y_{k,m,n}^{'}\left(x_m^{s-1};x_n^{s-1}\right)\\u_{k,m,n}\left(B_{k,m,n};x_n^{s-1}\right)\in\{1,-1\}\\-1\leq y_{k,m,n}\left(B_{k,m,n};x_n^{s-1}\right)\leq1,\end{array}\right.\right. uk,m,n(xms1;xns1)=yk,m,n(xms1;xns1)uk,m,n(xms1;xns1)=yk,m,n(xms1;xns1)uk,m,n(Bk,m,n;xns1){1,1}1yk,m,n(Bk,m,n;xns1)1,






参考资料2 A Block Successive Upper Bound Minimization Method of Multipliers for Linearly Constrained Convex Optimization

概述

Consider the problem of minimizing a convex function f ( x ) f(x) f(x) subject to linear equality constraints:

minimize f ( x ) : = g ( x 1 , ⋯ , x K ) + ∑ h k ( x k ) \begin{aligned}\text{minimize}\: f(x):=g\left(x_1,\cdots,x_K\right)+\sum h_k(x_k)\end{aligned} minimizef(x):=g(x1,,xK)+hk(xk)

(1.1)

subject to E 1 x 1 + E 2 x 2 + ⋯ + E K x K = q , \begin{aligned}\text{subject to}\: E_1x_1+E_2x_2+\cdots+E_Kx_K=q,\end{aligned} subject toE1x1+E2x2++EKxK=q,

x k ∈ X k x_k\in X_k xkXk, k = 1 , 2 , . . . , K k= 1, 2, . . . , K k=1,2,...,K

where g ( ⋅ ) g(\cdot) g() is a smooth convex function; h k h_k hk is a nonsmooth convex function; x = ( x 1 T , . . . , x K T ) T ∈ ℜ n x=(x_1^T,...,x_K^T)^T\in\Re^n x=(x1T,...,xKT)Tn is a partition of the optimization variable x , x k ∈ ℜ n k ; X = ∏ k = 1 K X k x,x_k\in\Re^{n_k};X=\prod_{k=1}^KX_k x,xknk;X=k=1KXk is the feasible set for x ; q ∈ ℜ m x;q\in\Re^m x;qm is a vector. Let E : = ( E 1 , ⋯ , E K ) E:=(E_1,\cdots,E_K) E:=(E1,,EK) and h ( x ) : = ∑ k = 1 K h k ( x k ) . h(x):=\sum_k=1^Kh_k(x_k). h(x):=k=1Khk(xk). Many contemporary problems in signal processing, machine learning and smart grid systems can be formulated in the form (1.1) To motivate our work, we discuss several examples of the form (1.1) below.

在这里插入图片描述

应用例子

basis pursuit (BP) problem
在这里插入图片描述
在这里插入图片描述

the control of a smart grid system

在这里插入图片描述

在这里插入图片描述

cognitive radio network
(CRN)
在这里插入图片描述

文献综述

当线性耦合约束不存在时,求解(1.1)的一个众所周知的技术是使用所谓的块坐标下降(BCD)方法,在每次迭代中,单个变量块被优化,而其余块保持固定。更具体地,在迭代r,通过以下方式以高斯-赛德尔方式更新块:

在这里插入图片描述

由于每一步都涉及解决一个小规模的简单子问题,BCD方法对于解决大规模问题非常有效;参见例如,[11 -14]和其中的参考文献。BCD方法的现有分析[15-18]要求每个子问题(1.7)的极小值的唯一性,或f的拟凸性[19]。当问题(1.7)不容易求解时,一种流行的方法是求解问题(1.7)的近似版本,产生块坐标梯度下降(BCGD)算法(或存在非光滑函数h时的块坐标近似梯度算法)[13,20-22]。BCD型算法的全局收敛速度已被广泛研究。当目标函数是强凸时,BCD算法全局线性收敛[23]。当目标函数光滑且不是强凸时,Luo和Tseng证明了BCD方法及其许多变体仍然可以线性收敛,只要在解集周围满足一定的局部误差界条件[23-26]。这条分析线最近被扩展到允许目标中的某类非光滑函数[21,27 -29]。最近有一些工作描述了BCD型算法的全局次线性收敛速度[14,22,30,31]。特别地,参考文献[30]证明了对于一类非光滑凸问题,带有Gauss-Seidel更新规则的BCD算法在O(1 r)阶下是次线性收敛的.此外,在[1]中提出了一个统一的算法框架,称为BSUM(块连续上限最小化)及其收敛性分析,其中在每一步中,目标函数的局部紧上限被连续最小化以更新可变块。

当存在线性耦合约束时,众所周知,BCD型算法可能无法找到任何(局部)最优解[32]。解决这类问题的常用算法是所谓的交替方向乘子法(ADMM)[33-36]。在ADMM方法中,不是始终保持可行性,而是使用拉格朗日乘数y将约束Ex = q对偶化,并添加二次惩罚项。所得到的增广拉格朗日函数具有以下形式:
在这里插入图片描述
其中 ρ > 0 是常数,<·,·> 表示内积运算符。 ADMM 方法通过使用 BCD 类型过程更新原始块变量 x1,… , xn 来最小化 L(x; y)。后者通常会导致具有封闭形式解决方案的简单子问题。 这些原始更新之后是对偶变量 y 的梯度上升更新。

尽管 ADMM 算法早在 1976 年就由 Gabay、Mercier、Glowinski 和 Marrocco 提出[35,37],但由于其在机器学习和计算机视觉产生的现代大规模优化问题中的应用,它直到最近才变得流行起来[33] ,38-42]。 在实践中,该算法通常在计算上非常高效,并且比传统算法(例如双上升算法[43-45]或乘法器方法[46])收敛速度更快。 ADMM的收敛性是在目标可分离且只有两个块变量的条件下成立的,即g(x1,····,xK)=g1(x1)+····+gK(xK), K = 2 [35,37]。 对于诸如压缩感知引起的大规模问题,原始每块子问题的最优解可能不容易计算[47]。 在这些情况下,经典的 ADMM 可以修改为对每个子问题执行简单的近端梯度步骤 [34,40,47-50]。 当只有两个块变量时,最近的一些工作 [51, 52] 表明 ADMM 方法以 O(1/ r ) 的速率收敛(对于加速版本 [53] 则为 O( 1 / r2 ))。 此外,参考文献[53-55]表明,当目标函数是强凸且只有两个变量块时,ADMM 会线性收敛。 最近的一项研究 [56] 表明,在 K ≥ 3 的情况下,ADMM 的全局(线性)收敛,假设: a) 对于每个 k,Ek 是满列秩; b) 双步长足够小; c) 最优解集周围存在一定的误差界限; d) 目标是可分离的。 如果不满足这些条件并且当K≥3时,[57]表明ADMM通常确实可以发散。 最近的一些其他工作尝试针对 K ≥ 3 的情况修改原始 ADMM [58-60]。

不幸的是,BCD 和 ADMM 都不能用来解决问题(1.1)。 事实上,由于其多块结构以及目标和约束的变量耦合,该问题无法通过许多其他大数据方法来处理,包括SpaRSA [61],FPCBB [62],FISTA [63] ]、ALM [64]、HOGWILD [65]、FPA [66]。 本文的主要贡献是提出并分析了一种新颖的乘子分块连续上限最小化方法(BSUM-M)及其随机版本,可以有效地解决问题(1.1)。 BSUM-M算法集成了BSUM和ADMM算法,每次优化原始问题一个块变量的近似增广拉格朗日,然后使用梯度上升步骤更新对偶变量。 由此产生的算法是灵活的,因为我们可以选择合适的增强拉格朗日函数的近似值,从而可以方便地更新原始变量块(例如以封闭形式)。 在没有线性耦合约束的情况下,随机BSUM-M算法简化为随机BCD算法。 在本例中,我们表明,对于一系列没有强凸目标的问题,随机 BCD 算法实际上是线性收敛的(符合预期)。 据我们所知,这是第一个显示随机 BCD 算法在没有强凸性的情况下线性收敛速度的结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/60352.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开源 AI 智能名片 2+1 链动模式商城小程序:场景驱动的商业创新与用户价值挖掘

摘要&#xff1a;本文围绕开源 AI 智能名片 21 链动模式商城小程序源码&#xff0c;深入分析了场景中的时间、空间、设备、社交和状态五大核心元素。阐述了各元素的表现形式、应用策略及价值&#xff0c;包括时间元素对业务周期和用户行为的影响及相应营销策略&#xff1b;空间…

【PyTorch】Pytorch中torch.nn.Conv1d函数详解

1. 函数定义 torch.nn.Conv1d 是 PyTorch 中用于一维卷积操作的类。定义如下&#xff1a; 官方文档&#xff1a;https://pytorch.ac.cn/docs/stable/generated/torch.nn.Conv1d.html#torch.nn.Conv1d torch.nn.Conv1d(in_channels, out_channels, kernel_size, stride1,paddi…

绿光一字线激光模组:工业制造与科技创新的得力助手

在现代工业制造和科技创新领域&#xff0c;绿光一字线激光模组以其独特的性能和广泛的应用前景&#xff0c;成为了不可或缺的关键设备。这种激光模组能够发射出一条明亮且精确的绿色激光线&#xff0c;具有高精度、高稳定性和长寿命的特点&#xff0c;为各种精密加工和测量需求…

【Linux】【Shell】Shell 基础与变量

Shell 基础 Shell 基础查看可用的 Shell判断当前 Shell 类型 变量环境变量查看环境变量临时环境变量永久环境变量PATH 变量 自定义变量特殊赋值(双引号、单引号、反撇号) 预定义变量bashrc Shell 基础 Shell 是一个用 C 语言编写的程序&#xff0c;相当于是一个翻译&#xff0c…

【SQL50】day 2

目录 1.每位经理的下属员工数量 2.员工的直属部门 3.判断三角形 4.上级经理已离职的公司员工 5.换座位 6.电影评分 7.修复表中的名字 8.患某种疾病的患者 9.删除重复的电子邮箱 1.每位经理的下属员工数量 # Write your MySQL query statement below #e1是经理&#xff0c;…

FIFO和LRU算法实现操作系统中主存管理

FIFO&#xff0c;用数组实现 1和2都是使用nextReplace实现新页面位置的更新 1、不精确时间&#xff1a;用ctime输出运行时间都是0.00秒 #include <iostream> #include <iomanip> #include<ctime>//用于计算时间 using namespace std;// 页访问顺序 int pa…

ssm161基于web的资源共享平台的共享与开发+jsp(论文+源码)_kaic

毕 业 设 计&#xff08;论 文&#xff09; 题目&#xff1a;资源共享平台设计与实现 摘 要 现代经济快节奏发展以及不断完善升级的信息化技术&#xff0c;让传统数据信息的管理升级为软件存储&#xff0c;归纳&#xff0c;集中处理数据信息的管理方式。本资源共享平台就是在…

LeetCode 力扣 热题 100道(六)合并两个有序链表(C++)

合并两个有序链表 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 输入&#xff1a;l1 [1,2,4], l2 [1,3,4] 输出&#xff1a;[1,1,2,3,4,4]示例 2&#xff1a; 输入&#xff1a;l1 [], l2 [] 输出&#xff1a;[]示…

ubuntu显示管理器_显示导航栏

ubuntu文件管理器_显示导航栏 一、原始状态&#xff1a; 二、显示导航栏状态&#xff1a; 三、原始状态--->导航栏状态: 1、打开dconf编辑器&#xff0c;直接在搜索栏搜索 dconf-editor ------如果没有安装&#xff0c;直接按流程安装即可。 2、进入目录&#xff1a;org …

高集成的MCU方案已成电机应用趋势?

【哔哥哔特导读】高集成化的芯片成为当下MCU领域研发和市场布局的重点&#xff0c;但是在实际应用中仍然面临散热等痛点问题&#xff0c;MCU厂商是如何解决和优化这些痛点&#xff1f; 随着全球工业自动化、智能制造和绿色发展的不断推进&#xff0c;中国电机行业正站在新一轮…

购物街项目TabBar的封装

1.TabBar介绍 在购物街项目中 不论页面如何滚动 始终存在一个TabBar固定在该项目的底部 他在该项目中 扮演者选项卡栏的角色 内部存在若干选项 而选项中 固定存在两部分(图片文本) 其中主要涉及到TabBar/TabBarItem这些和业务无关的共享组件(建议存放于components/common中)、…

优化表单交互:在 el-select 组件中嵌入表格显示选项

介绍了一种通过 el-select 插槽实现表格样式数据展示的方案&#xff0c;可更直观地辅助用户选择。支持列配置、行数据绑定及自定义搜索&#xff0c;简洁高效&#xff0c;适用于复杂选择场景。完整代码见GitHub 仓库。 背景 在进行业务开发选择订单时&#xff0c;如果单纯的根…

最新Kali安装详细版教程(附安装包,傻瓜式安装教程)

本文主要详细介绍 kali 的安装过程&#xff0c;以及安装完成后的基本设置&#xff0c;比如安装增强工具&#xff0c;安装中文输入法以及更新升级等操作。 文章目录 实验环境准备工作步骤说明安装虚拟机安装 Kali安装增强工具安装中文输入法更新升级 实验环境 VMware &#x…

细说STM32单片机DMA中断收发RTC实时时间并改善其鲁棒性的方法

目录 一、DMA基础知识 1、DMA简介 (1)DMA控制器 (2)DMA流 (3)DMA请求 (4)仲裁器 (5)DMA传输属性 2、源地址和目标地址 3、DMA传输模式 4、传输数据量的大小 5、数据宽度 6、地址指针递增 7、DMA工作模式 8、DMA流的优先级别 9、FIFO或直接模式 10、单次传输或突…

H.265流媒体播放器EasyPlayer.js H5流媒体播放器如何验证视频播放是否走硬解

随着技术的不断进步和5G网络的推广&#xff0c;中国流媒体播放器行业市场规模以及未来发展趋势都将持续保持稳定的增长&#xff0c;并将在未来几年迎来新的发展机遇。流媒体播放器将继续作为连接内容创作者和观众的重要桥梁&#xff0c;推动数字媒体产业的创新和发展。 EasyPla…

仿Mybatis代码生成.获取索引信息

获取索引信息 1.核心思路 通过以下sql语句&#xff0c;例如对于user表 show index from user 执行结果如下: 2.实现 连接数据库后执行sql语句&#xff0c;我们重点关注下图标注的三个熟悉 代码如下: PreparedStatement ps null;ResultSet fieldResult null;List<Fiel…

【AI大模型】大型语言模型LLM基础概览:技术原理、发展历程与未来展望

目录 &#x1f354; 大语言模型 (LLM) 背景 &#x1f354; 语言模型 (Language Model, LM) 2.1 基于规则和统计的语言模型&#xff08;N-gram&#xff09; 2.2 神经网络语言模型 2.3 基于Transformer的预训练语言模型 2.4 大语言模型 &#x1f354; 语言模型的评估指标 …

详解八大排序(一)------(插入排序,选择排序,冒泡排序,希尔排序)

文章目录 前言1.插入排序&#xff08;InsertSort&#xff09;1.1 核心思路1.2 实现代码 2.选择排序&#xff08;SelectSort&#xff09;2.1 核心思路2.2 实现代码 3.冒泡排序&#xff08;BubbleSort&#xff09;3.1 核心思路3.2 实现代码 4.希尔排序&#xff08;ShellSort&…

如何在 Ubuntu 上使用 Docker 部署 LibreOffice Online

简介 LibreOffice Online&#xff08;也称为Collabora Online&#xff09;是一个开源的在线办公套件&#xff0c;它提供了与LibreOffice桌面版相似的功能&#xff0c;但完全在云端运行。这意味着用户可以通过浏览器访问和编辑文档&#xff0c;而无需在本地计算机上安装任何软件…

【人工智能】PyTorch、TensorFlow 和 Keras 全面解析与对比:深度学习框架的终极指南

文章目录 PyTorch 全面解析2.1 PyTorch 的发展历程2.2 PyTorch 的核心特点2.3 PyTorch 的应用场景 TensorFlow 全面解析3.1 TensorFlow 的发展历程3.2 TensorFlow 的核心特点3.3 TensorFlow 的应用场景 Keras 全面解析4.1 Keras 的发展历程4.2 Keras 的核心特点4.3 Keras 的应用…