最优化学习笔记(五)——牛顿法（多维数据）

在最优化学习系列中，第一次就说的是牛顿法，但是那是在一维搜索上的，它其实就是将函数 $f$ 在 $x$ 处利用泰勒公式展开，得到它的近似函数，进而求解最小值。本节内容主要说明牛顿法在多维数据上的迭代公式。最优化学习笔记中讲到的最速下降法是一种速度比较快的优化方法，但是最速下降法只用到了函数的一阶导数，这种方法并不总是最高效的。而这里说的牛顿法用到了二阶导数，它的效率可能比最速下降法更优。
当目标函数 $f: \mathbb{R^n} \to \mathbb{R}$ 上二阶连续可微时，将函数 $f$ 在 $x^{(k)}$ 处进行泰勒展开，并且不考虑三阶及以上的项，那么可得到函数 $f$ 的二阶近似项：

f (x) \approx f (x (k)) + (x - x (k)) T g (k) + 1 2 (x - x (k)) T F (x (k)) (x - x (k)) = q (x)

$f(\boldsymbol{x}) \approx f(\boldsymbol{x}^{(k)}) + (\boldsymbol{x-{x}^{(k)}})^T\boldsymbol{g}^{(k)}+\frac{1}{2}(\boldsymbol{x-{x}^{(k)}})^T\boldsymbol{F(x^{(k)})}(\boldsymbol{x-{x}^{(k)}}) = q(\boldsymbol{x})$
其中，

g(k)=∇f(x(k)),F(x(k)) $\boldsymbol{g}^{(k)} = \nabla f(\boldsymbol{x}^{(k)}), \boldsymbol{F(x^{(k)})}$ 是

f(x(k)) $f(\boldsymbol{x}^{(k)})$ 黑塞矩阵，将q应用局部极小点的一届必要条件：

0 = \nabla q (x) = g (k) + F (x (k)) (x - x (k))

$\boldsymbol{0} = \nabla q(\boldsymbol{x}) =\boldsymbol{g}^{(k)} + \boldsymbol{F(x^{(k)})}(\boldsymbol{x-{x}^{(k)}})$
如果

F(x(k))>0 $\boldsymbol{F(x^{(k)})} > 0$ , 则函数

q $q$ 的极小值点为：

x (k + 1) = x (k) - F (x (k)) - 1 g (k)

$\boldsymbol{x}^{(k+1)} = \boldsymbol{x}^{(k)} -\boldsymbol{F(x^{(k)})} ^{-1}\boldsymbol{g}^{(k)}$

需要说明的是，在上述过程中，需要求解一个n<script type="math/tex" id="MathJax-Element-3483">n</script>维的线性齐次方程组，这对效率很有影响，应该设计一个更为高效的方法。如果黑塞矩阵是非正定的，那么牛顿法也将存在问题，后边也将会针对问题提出相应的修正方法。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/576617.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！