最优化学习笔记(十七)—

最优化学习笔记(十七)——拟牛顿法(3)

秩1修正公式

在秩1修正公式中，修正项为 $\alpha_k\boldsymbol{z}^{(k)}\boldsymbol{z}^{(k)T}, \alpha_k \in \mathbb{R}, \boldsymbol{z}^{(k)} \in \mathbb{R}^n$ ,是一个对称矩阵，近似矩阵的更新方程为：

H k + 1 = H k + α k z (k) z (k) T

$\boldsymbol{H}_{k+1} = \boldsymbol{H}_{k} + \alpha_k\boldsymbol{z}^{(k)}\boldsymbol{z}^{(k)T}$
注意：

r a n k z (k) z (k) T = r a n k (⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ z (k) 1 z (k) 2 ⋮ z (k) n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ [z (k) 1, z (k) 2, \dots, z (k) n]) = 1

$rank\quad \boldsymbol{z}^{(k)}\boldsymbol{z}^{(k)T} = rank\quad \Bigg( \left[ \begin{array}{c} {z}_1^{(k)} \\ {z}_2^{(k)} \\ \vdots\\ {z}_n^{(k)} \end{array} \right] [{z}_1^{(k)},{z}_2^{(k)},\dots,{z}_n^{(k)}] \Bigg) =1$
所以称为秩1修正算法。如果

Hk $\boldsymbol{H}_{k}$ 是对称的，则

Hk+1 $\boldsymbol{H}_{k+1}$ 也是对称的。
接下来的问题是在给定的

Hk，Δg(k),Δx(k) $\boldsymbol{H}_{k}，\Delta\boldsymbol{g}^{(k)}, \Delta\boldsymbol{x}^{(k)}$ 的前提下，确定合适的

αk,z(k) $\alpha_k, \boldsymbol{z}^{(k)}$ , 保证：

H k + 1 Δ g (k) = (H k + α k z (k) z (k) T) Δ g (k) = Δ x (k)

$\boldsymbol{H}_{k+1}\Delta\boldsymbol{g}^{(k)} = (\boldsymbol{H}_{k}+\alpha_k\boldsymbol{z}^{(k)}\boldsymbol{z}^{(k)T})\Delta\boldsymbol{g}^{(k)} = \Delta\boldsymbol{x}^{(k)}$
注意，

z(k)TΔg(k) $\boldsymbol{z}^{(k)T}\Delta\boldsymbol{g}^{(k)}$ 是一个标量，因此：

Δ x (k) - H k Δ g (k) = (α k z (k) T Δ g (k)) z (k) (1)

$\Delta\boldsymbol{x}^{(k)} - \boldsymbol{H}_{k}\Delta\boldsymbol{g}^{(k)} = (\alpha_k\boldsymbol{z}^{(k)T}\Delta\boldsymbol{g}^{(k)})\boldsymbol{z}^{(k)} \quad (1)$
有：

z (k) = Δ x ( k ) - H k Δ g ( k ) α k ( z ( k ) T Δ g ( k ) )

$\boldsymbol{z}^{(k)} = \frac{\Delta\boldsymbol{x}^{(k)} - \boldsymbol{H}_{k}\Delta\boldsymbol{g}^{(k)}}{\alpha_k(\boldsymbol{z}^{(k)T}\Delta\boldsymbol{g}^{(k)})}$
可得：

α k z (k) z (k) T = ( Δ x ( k ) - H k Δ g ( k ) ) ( Δ x ( k ) - H k Δ g ( k ) ) T α k ( z ( k ) T Δ g ( k ) ) 2

$\alpha_k\boldsymbol{z}^{(k)}\boldsymbol{z}^{(k)T} = \frac{(\Delta\boldsymbol{x}^{(k)} - \boldsymbol{H}_{k}\Delta\boldsymbol{g}^{(k)})(\Delta\boldsymbol{x}^{(k)} - \boldsymbol{H}_{k}\Delta\boldsymbol{g}^{(k)})^T}{\alpha_k(\boldsymbol{z}^{(k)T}\Delta\boldsymbol{g}^{(k)})^2}$
那么近似矩阵的中间更新方程为：

H k + 1 = H k + ( Δ x ( k ) - H k Δ g ( k ) ) ( Δ x ( k ) - H k Δ g ( k ) ) T α k ( z ( k ) T Δ g ( k ) ) 2 (2)

$\boldsymbol{H}_{k+1} = \boldsymbol{H}_{k} + \frac{(\Delta\boldsymbol{x}^{(k)} - \boldsymbol{H}_{k}\Delta\boldsymbol{g}^{(k)})(\Delta\boldsymbol{x}^{(k)} - \boldsymbol{H}_{k}\Delta\boldsymbol{g}^{(k)})^T}{\alpha_k(\boldsymbol{z}^{(k)T}\Delta\boldsymbol{g}^{(k)})^2} \quad (2)$
在（1）式两端同乘以

Δg(k)T $\Delta\boldsymbol{g}^{(k)T}$ :

Δ g (k) T Δ x (k) - Δ g (k) T H k Δ g (k) = Δ g (k) T (α k z (k) T Δ g (k)) z (k)

$\Delta\boldsymbol{g}^{(k)T}\Delta\boldsymbol{x}^{(k)} - \Delta\boldsymbol{g}^{(k)T}\boldsymbol{H}_{k}\Delta\boldsymbol{g}^{(k)} = \Delta\boldsymbol{g}^{(k)T}(\alpha_k\boldsymbol{z}^{(k)T}\Delta\boldsymbol{g}^{(k)})\boldsymbol{z}^{(k)}$
因为

αk,z(k)TΔg(k)=Δg(k)Tz(k) $\alpha_k, \boldsymbol{z}^{(k)T}\Delta\boldsymbol{g}^{(k)} = \Delta\boldsymbol{g}^{(k)T}\boldsymbol{z}^{(k)}$ 是标量，所以：

Δ g (k) T Δ x (k) - Δ g (k) T H k Δ g (k) = α k (z (k) T Δ g (k)) 2

$\Delta\boldsymbol{g}^{(k)T}\Delta\boldsymbol{x}^{(k)} - \Delta\boldsymbol{g}^{(k)T}\boldsymbol{H}_{k}\Delta\boldsymbol{g}^{(k)} = \alpha_k(\boldsymbol{z}^{(k)T}\Delta\boldsymbol{g}^{(k)} )^2$
将上式代入2式可得：

H k + 1 = H k + ( Δ x ( k ) - H k Δ g ( k ) ) ( Δ x ( k ) - H k Δ g ( k ) ) T Δ g ( k ) T ( Δ x ( k ) - H k Δ g ( k ) )

$\boldsymbol{H}_{k+1} = \boldsymbol{H}_{k} + \frac{(\Delta\boldsymbol{x}^{(k)} - \boldsymbol{H}_{k}\Delta\boldsymbol{g}^{(k)})(\Delta\boldsymbol{x}^{(k)} - \boldsymbol{H}_{k}\Delta\boldsymbol{g}^{(k)})^T}{\Delta\boldsymbol{g}^{(k)T}(\Delta\boldsymbol{x}^{(k)} - \boldsymbol{H}_{k}\Delta\boldsymbol{g}^{(k)})}$
根据以上讨论，可得秩1算法的步骤：
1. 令

k=0 $k=0$ ，选择初始点

x(0) $\boldsymbol{x}^{(0)}$ ,任选一个对称正定实矩阵

H0 $H_0$ 。
2. 如果

g(k)=0 $\boldsymbol{g}^{(k)} = \boldsymbol{0}$ ，停止迭代，否则，令

d(k)=−Hkg(k) $\boldsymbol{d}^{(k)} = -\boldsymbol{H}_k\boldsymbol{g}^{(k)}$
3. 计算

α k = arg min α \geq 0 f (x (k) + α d (k)) x (k + 1) = x (k) + α d (k))

$\alpha_k = \arg \min_{\alpha \ge 0}f(\boldsymbol{x}^{(k)} + \alpha \boldsymbol{d}^{(k)}) \\\boldsymbol{x}^{(k+1)} = \boldsymbol{x}^{(k)} + \alpha \boldsymbol{d}^{(k)})$
4.计算

Δ x (k) = α d (k) Δ g (k) = g (k + 1) - g (k) H k + 1 = H k + ( Δ x ( k ) - H k Δ g ( k ) ) ( Δ x ( k ) - H k Δ g ( k ) ) T Δ g ( k ) T ( Δ x ( k ) - H k Δ g ( k ) )

$\Delta\boldsymbol{x}^{(k)} = \alpha \boldsymbol{d}^{(k)} \\\Delta\boldsymbol{g}^{(k)} = \boldsymbol{g}^{(k+1)}-\boldsymbol{g}^{(k)} \\\boldsymbol{H}_{k+1} = \boldsymbol{H}_{k} + \frac{(\Delta\boldsymbol{x}^{(k)} - \boldsymbol{H}_{k}\Delta\boldsymbol{g}^{(k)})(\Delta\boldsymbol{x}^{(k)} - \boldsymbol{H}_{k}\Delta\boldsymbol{g}^{(k)})^T}{\Delta\boldsymbol{g}^{(k)T}(\Delta\boldsymbol{x}^{(k)} - \boldsymbol{H}_{k}\Delta\boldsymbol{g}^{(k)})}$
5. 令

k=k+1 $k = k+1$ ，回到第二步。

需要秩1并不完全令人满意。首先，该算法产生的矩阵 $\boldsymbol{H}_{k+1}$ 并不一定是正定的，这将导致 $\boldsymbol{d}^{(k+1)}$ 可能不是下降方向，其次，如果 $\Delta\boldsymbol{g}^{(k)T}(\Delta\boldsymbol{x}^{(k)} - \boldsymbol{H}_{k}\Delta\boldsymbol{g}^{(k)})$ 接近0， $\boldsymbol{H}_{k+1}$ 可能面临计算困难。