高级优化理论与方法（十五）

Algorithms for Constrained Optimization
- Projection
- - Idea
  - Example
  - Method
  - Problem
  - Solution
  - - Orthogonal Projector
    - - Definition
      - Remark
      - Lemma
      - Theorem
    - Projection
    - - Projected steepest descent
      - Properties
      - Theorem
      - Properties
    - Lagrange's Algorithm
    - - Theorem
      - Theorem
- Penalty Function
- - Definition
  - Example
Multi-objective Optimization
- Pareto-optimal
- Multi to Single
总结
课程考察重点

Algorithms for Constrained Optimization

基本思路：沿用无约束优化问题中的迭代方法： $x^{k+1}=x^k+\alpha^k d^k$ 。但是问题在于如何使得迭代满足约束条件。

Projection

Idea

If $x^k+\alpha^k d^k\in\Omega$ , then $x^{k+1}=x^k+\alpha^k d^k$
else $x^{k+1}=“project” on $\Omega$ .

Example

$\Omega=\{x:l_i\leq x_i\leq u_i,\forall i\},l_i,u_i\in\Omega$
$y_i=\begin{cases} u_i,x_i\geq u_i\\ x_i,l_i<x_i<u_i\\ l_i,x_i\leq l_i \end{cases}$

Method

“Projection of $x$ on $\Omega$ ”: $\pi[x]:=$ the closest point of $\Omega$ to $x$ .
$\pi[x^k+\alpha^k d^k]=argmin_{z\in\Omega}||z-(x^k+\alpha^k d^k)||$

Project gradient method: $x^{k+1}=\pi[x^k-\alpha^k \nabla f(x^k)]$ , where $\alpha^k=argmin_{\alpha\geq 0} f(x^k-\alpha \nabla f(x^k))$

Problem

min $||z-(x^k+\alpha^k d^k)||$ s.t. $z\in\Omega$ is difficult to solve.

Solution

Orthogonal Projector

min $f (x)$
s.t. $A x = b$

$A\in \mathbb{R}^{m\times n},m\leq n,rank A=m$

Definition

Def: Orthogonal Projector: $P=I_n-A^T(AA^T)^{-1}A$

Remark

$P=P^T,P^2=P\times P=P$

Lemma

$v\in \mathbb{R}^n$ . Then, $P_v=0\Leftrightarrow v\in\{x:x=A^Ty\}$

Theorem

$x^*\in\mathbb{R}^n$ is a feasible solution. $P\nabla f(x^*)=0\Leftrightarrow x^*$ satisfies the Lagrange’s condition.

Projection

$x^{k+1}=\pi[x^k-\alpha^k\nabla f(x^k)]$
$=x^k-\alpha^kP\nabla f(x)$

Projected steepest descent

$\alpha^k=argmin_{\alpha>0} f(x^k-\alpha\nabla f(x^k))$

Properties

If $x^0$ is feasible, then $\forall k: x^k$ is feasible.

Theorem

$x^k$ : generated by “projected steepest descent”. If $P\nabla f(x^k)\neq 0$ , then $f(x^{k+1})<f(x^k)$ .

Properties

$x^*$ is a global minimizer of a convex function $f$ over $\{x:Ax=b\}\Leftrightarrow P\nabla f(x^*)=0$

Lagrange’s Algorithm

min $f (x)$
s.t. $h (x) = 0$

$\mathbb{R}^n\rightarrow \mathbb{R}^m, l(x,\lambda)=f(x)+\lambda^T h(x)$

Lagrange’s Algorithm: $\begin{cases} x^{k+1}=x^k-\alpha^k(\nabla f(x^k)+Dh(x^k)^T\lambda^k)\\ \lambda^{k+1}=\lambda^k+\beta^k h(x^k) \end{cases}$

Theorem

Provided $\alpha,\beta$ sufficiently small. $\exist$ a neighborhood of $(x^*,\lambda^*)$ $((x^*,\lambda^*)$ satisfies $\nabla f(x^*)+Dh(x^*)^T\lambda^*=0,L(x^*,\lambda^*)\geq 0)$ such that if $(x^*,\lambda^*)$ is in this neighborhood, the algorithm converges to $(x^*,\lambda^*)$ with at least a linear order.

min $f (x)$
s.t. $g(x)\leq 0$

$l(x,\mu)=f(x)+\mu^T g(x)$
$x^{k+1}=x^k-\alpha^k(\nabla f(x^k)+Dg(x^k)^T\mu^k)$
$\mu^{k+1}=[\mu^k+\beta^kg(x^k)]_+=max\{\mu^k+\beta^kg(x^k),0\}$

Theorem

$(x^*,\mu^*)$ satisfies the KKT-conditions. $L(x^*,\mu)\geq 0$ . Provided $\alpha,\beta$ sufficiently small, $\exist$ a neighborhood, then the algorithm converges to $(x^*,\mu^*)$ with at least a linear order.

Penalty Function

min $f (x)$
s.t. $x\in\Omega$

$\Rightarrow$ min $f (x) + r P (x)$
$r\in \mathbb{R}^+:$ penalty parameter.
$P(x):\mathbb{R}^n\rightarrow \mathbb{R}$ : penalty function

Definition

$P$ is a penalty function, if
(1) $P$ is continuous
(2) $P(x)\geq 0,\forall x\in\mathbb{R}^n$
(3) $P(x)=0\Leftrightarrow x\in\Omega$

min $f (x)$
s.t. $g_i(x)\leq 0$
$\Rightarrow p(x)=\sum\limits_i g_i^+(x)$
where $g_i^+(x)=max\{0,g_i(x)\}$

Example

$g_1(x)=x-2$
$g_2(x)=-(x+1)^3$
$g_1^+(x)=\begin{cases} 0,x\leq 2\\ x-2,\text{otherwise} \end{cases}$
$g_2^+(x)=\begin{cases} 0,x\geq -1\\ -(x+1)^3,\text{otherwise} \end{cases}$
$P(x)=\begin{cases} x-2,x>2\\ 0,-1\leq x \leq 2\\ -(x+1)^3,x<-1 \end{cases}$

Def: Courant-Beltrami-Penalty: $P(x)=\sum_{i=1}^p (g_i^+(x))^2$

Multi-objective Optimization

min $f(x)=\begin{bmatrix} f_1(x)\\ f_2(x)\\ \cdots \\ f_l(x) \end{bmatrix}$
s.t. $x\in\Omega$

Pareto-optimal

Pareto-optimal: $x^*\in\Omega$ . If $\not \exist x\in\Omega$ s.t. for $i=1,\cdots,l:f_i(x)\leq f_i(x^*)$ and $\exist i:f_i(x)\leq f_i(x^*)$

Multi to Single

①Weighted sum: $f(x)=\sum w_i f_i(x)$
②MiniMax: $f(x)=\max\limits_i\{f_i(x)\}$
③p-norm: $f(x)=||f_i(x)||_p=f_1^p(x)+\cdots+f_l^p(x)$
④satisfactory: min $f_1(x)$
s.t. $f_2(x)\leq b_2,\cdots,f_l(x)\leq b_l$

总结

这节课主要介绍了约束优化问题的算法，分为投影法和惩罚函数法。在投影法中，为了解决迭代方法中难以求得满足限制条件的最小值问题，引入了正交投影算子。在惩罚函数法中，引入了惩罚函数，对落在约束区域外的点进行惩罚。最后简单介绍了多目标优化问题。多目标优化问题较难，现有的理论较少，只简单介绍了帕累托最优，以及将多目标优化问题转换成单目标优化问题的几种方法。至此，优化理论与优化方法的内容就全部结束啦。