04 牛顿法、高斯牛顿法及 Cpp 实现

文章目录

- 04 牛顿法、高斯牛顿法及 Cpp 实现
- - 4.1 非线性最小二乘
  - 4.2 一阶和二阶梯度法
  - 4.3 高斯牛顿法
  - 4.4 总结
  - 4.5 代码实现
  - 4.6 三种方法优缺点

04 牛顿法、高斯牛顿法及 Cpp 实现

4.1 非线性最小二乘

考虑最小二乘问题：

$\min _{x} F(x)=\frac{1}{2}\|f(x)\|_{2}^{2}$

对于简单的函数，我们可以令其导数 $\frac{\rm{d}F}{\rm{d}\boldsymbol{x}}=0$ ，得到导数为零处的极值点。

而 SLAM 中的非线性函数形式复杂，常常难以用求导法得到最值，而采用梯度下降法，即，通过不断迭代 $\boldsymbol{x}_{k+1}=\boldsymbol{x}_k+\Delta\boldsymbol{x}_k$ ，使得 $||f(\boldsymbol{x}_k+\Delta\boldsymbol{x}_k)||^2$ 达到极小值，当 $\Delta \boldsymbol{x}$ 足够小时，即停止。关键在于增量 $\Delta\boldsymbol{x}$ 的选取。

过程如下：

——————————————————————————————————————————————————————

给定某个初值 $\boldsymbol{x}_0$ ；
对于第 $k$ 次迭代，寻找增量 $\Delta\boldsymbol{x}_k$ ；
当 $\Delta \boldsymbol{x}_k$ 足够小时，即停止；否则，重复第二步，继续寻找。

——————————————————————————————————————————————————————

下面介绍几个常用的优化方法。

4.2 一阶和二阶梯度法

对于非线性函数 $F(\boldsymbol{x})$ ，考虑第 $k$ 次迭代，将其在 $\boldsymbol{x}_k$ 附近泰勒展开（将 $\Delta \boldsymbol{x}_k$ 看做未知数），

$F(\boldsymbol{x})=F(\boldsymbol{x}_k+\Delta \boldsymbol{x}_k) \approx F(\boldsymbol{x}_k)+\boldsymbol{J}(\boldsymbol{x}_k)^T\Delta \boldsymbol{x}_k+\frac{1}{2}\Delta \boldsymbol{x}_k^T\boldsymbol{H}(\boldsymbol{x}_k)^T\Delta \boldsymbol{x}_k$

其中， $\boldsymbol{J}(\boldsymbol{x}_k)$ 是 $F(\boldsymbol{x})$ 关于 $\boldsymbol{x}$ 的一阶导数， $\boldsymbol{H}(\boldsymbol{x}_k)$ 是二阶导数。

（1）最速下降法

仅保留一阶导数时，取增量为反向梯度即可，即

$\Delta \boldsymbol{x}^*=-\boldsymbol{J}(\boldsymbol{x}_k)$

也被称为最速下降法。

（2）牛顿法

保留二阶梯度信息。此时增量方程为

$\Delta \boldsymbol{x}^{*}=\arg \min \left(F(\boldsymbol{x})+\boldsymbol{J}(\boldsymbol{x})^{\mathrm{T}} \Delta \boldsymbol{x}+\frac{1}{2} \Delta \boldsymbol{x}^{\mathrm{T}} \boldsymbol{H} \Delta \boldsymbol{x}\right)$

右侧各项分别为 $\Delta \boldsymbol{x}$ 的零次、一次和二次项，将其对 $\Delta \boldsymbol{x}$ 求导，并令其为零

$\boldsymbol{J}+\boldsymbol{H} \Delta \boldsymbol{x}=0 \Rightarrow \boldsymbol{H} \Delta \boldsymbol{x}=-\boldsymbol{J}$

求解这个方程，即得到增量。此方法也被称为牛顿法。但在实际中， $\boldsymbol{H}$ 矩阵计算较为困难。

4.3 高斯牛顿法

将 $f(\boldsymbol{x})$ 一阶泰勒展开（注意不是 $F(\boldsymbol{x})$ ）：

$f(\boldsymbol{x}+\Delta \boldsymbol{x}) \approx f(\boldsymbol{x})+\boldsymbol{J}(\boldsymbol{x})^T\Delta \boldsymbol{x}$

其中， $\boldsymbol{J}(\boldsymbol{x})$ 是 $f(\boldsymbol{x})$ 关于 $\boldsymbol{x}$ 的一阶导数，为 $\times 1$ 列向量。

此时，我们的问题变为找到 $\Delta \boldsymbol{x}$ ，使得 $\frac{1}{2} \|f(\boldsymbol{x})+\boldsymbol{J}(\boldsymbol{x})^T\Delta \boldsymbol{x}\|^2$ 最小。将其展开

$\begin{aligned} \frac{1}{2} \|f(\boldsymbol{x})+\boldsymbol{J}(\boldsymbol{x})^T\Delta \boldsymbol{x}\|^2&=\frac{1}{2} (f(\boldsymbol{x})+\boldsymbol{J}(\boldsymbol{x})^T\Delta \boldsymbol{x})^T(f(\boldsymbol{x})+\boldsymbol{J}(\boldsymbol{x})^T\Delta \boldsymbol{x}) \\ &=\frac{1}{2} (\|f(\boldsymbol{x}\|^2+2f(\boldsymbol{x})\boldsymbol{J}(\boldsymbol{x})^T\Delta \boldsymbol{x}+\Delta \boldsymbol{x}^T\boldsymbol{J}(\boldsymbol{x})\boldsymbol{J}(\boldsymbol{x})^T\Delta \boldsymbol{x}) \end{aligned}$

将 $\Delta \boldsymbol{x}$ 看做未知数，对其求导，并令其为零：

$f(\boldsymbol{x})\boldsymbol{J}(\boldsymbol{x})+\boldsymbol{J}(\boldsymbol{x})\boldsymbol{J}(\boldsymbol{x})^T\Delta \boldsymbol{x}=\boldsymbol{0}$

得

$\underbrace{\boldsymbol{J}(\boldsymbol{x}) \boldsymbol{J}^{\mathrm{T}}}_{\boldsymbol{H}(\boldsymbol{x})}(\boldsymbol{x}) \Delta \boldsymbol{x}=\underbrace{-\boldsymbol{J}(\boldsymbol{x}) f(\boldsymbol{x})}_{\boldsymbol{g}(\boldsymbol{x})}$

即

$\boldsymbol{H}(\boldsymbol{x})\Delta \boldsymbol{x}=\boldsymbol{g}(\boldsymbol{x})$

前面说到牛顿法中的二阶矩阵 $\boldsymbol{H}$ 求解较为困难，所以这里用 $\boldsymbol{JJ}^\top$ 作为 $\boldsymbol{H}$ 的近似，从而省略了计算 $\boldsymbol{H}$ 的过程。

4.4 总结

（1）最速下降法

$\Delta \boldsymbol{x}^*=-\boldsymbol{J}(\boldsymbol{x}_k)$

（2）牛顿法

$\boldsymbol{H} \Delta \boldsymbol{x}=-\boldsymbol{J}$

（3）高斯牛顿法

需要注意的是，最速下降法和牛顿法属于同一类型，他们的 $\boldsymbol{J}$ 和 $\boldsymbol{H}$ 都是针对 $\boldsymbol{F(x)}$ （也就是整个目标函数）；而高斯牛顿法的 $\boldsymbol{J}$ 是针对 $\boldsymbol{f(x)}$ （也就是误差项）。此外，为减小数值，目标函数 $\boldsymbol{F(x)}$ 可用均方差函数。

4.5 代码实现

考虑一条满足以下方程的曲线

$y=\exp(ax^2+bx+c)+w$

其中， $a, b, c$ 为曲线参数， $w$ 为高斯噪声，满足 $\sim N(0, \sigma^2)$ 。假设有 $N$ 个关于 $x, y$ 的观测数据点，落在该直线附近，我们想用该方程进行拟合，也就是求出使残差最小的曲线参数 $a, b, c$ 。定义残差

$c)^*=\arg \min_{a, b, c} \frac{1}{2}\sum^N_{i=1}\|y_i-\exp(ax_i^2+bx_i+c)\|^2_2$

注意，这个问题的带估计变量是 $a, b, c$ ，而不是 $x$ 。

我们先根据模型生成 $x, y$ 的真值，再加入高斯噪声，构成观测数据点。定义每一项的误差

$e_i=y_i-\exp(ax_i^2+b_ix+c)$

（1）最速下降法

$\Delta \boldsymbol{x}^*=-\boldsymbol{J}$

其中， $\boldsymbol{J}=\sum \boldsymbol{J}_i$ ， $\boldsymbol{J}_i=[\frac{ \partial \boldsymbol{F}}{ \partial a}, \frac{ \partial \boldsymbol{F}}{ \partial b}, \frac{ \partial \boldsymbol{F}}{ \partial c}]^\top$ 。

$\frac{ \partial \boldsymbol{F}}{ \partial a}=e_i(-x_i^2\exp(ax_i^2+bx_i+c)) \\ \frac{ \partial \boldsymbol{F}}{ \partial a}=e_i(-x_i\exp(ax_i^2+bx_i+c))\\ \frac{ \partial \boldsymbol{F}}{ \partial a}=e_i(\exp(ax_i^2+bx_i+c))$

/***********************************************************                                          *
* Time: 2023/8/10
* Author: xiaocong
* Function: 最速下降法
* 注意这里用的是 ae * xi * xi + be * xi + sin(ce)
* 原指数函数对误差和初值敏感，造成计算无穷大。
***********************************************************/#include <iostream>
#include <eigen3/Eigen/Core>
#include <eigen3/Eigen/Dense>
#include <cmath>using namespace std;
using namespace Eigen;const int N = 100;                 // 数据点个数
const int MAX_INTER = 1000;        // 最大迭代次数void steepestDescent(const VectorXd& x_data, const VectorXd& y_data, Vector3d& params)
{double cost = 0;for (int iter = 0; iter < MAX_INTER; iter++){Vector3d J = Vector3d::Zero();           // 雅可比矩阵cost = 0;double ae = params(0);double be = params(1);double ce = params(2);for (int i = 0;i < N;i++){double xi = x_data(i), yi = y_data(i);double ei = (yi - (ae * xi * xi + be * xi + sin(ce)));    // 残差项Vector3d Ji;                                          // 雅可比矩阵Ji(0) = ei * (-xi * xi);Ji(1) = ei * (-xi);Ji(2) = ei * (-cos(ce));J += Ji;cost += ei * ei;}Vector3d dx = -J / N;          // 求解 dxif (isnan(dx[0])){cout << "result is nan!" << endl;break;}if (dx.squaredNorm() < 1e-6)      // dx 足够小{break;}// 迭代params += dx;cout << "iter= " << iter + 1 << endl;cout << dx(0) << endl;cout << dx(1) << endl;cout << dx(2) << endl;cout << "cost: " << cost << endl;cout << "estimated abc= " << params(0) << ", " << params(1) << ", " << params(2) << endl;}}int main(int argc, char** argv)
{double ar = 1.0, br = 2.0, cr = 1;         // 真实参数值Vector3d params(2.0, 1.0, 0);            // 初始参数值// 生成数据VectorXd x_data(N);VectorXd y_data(N);for (int i = 0; i < N; i++){double xi = (i / 100.0);                                     // [0~1.0]double sigma = 0.02 * (rand() % 1000) / 1000.0 - 0.01;     // 随机噪声，[-0.01, 0.01]double yi = ar * xi * xi + br * xi + sin(cr) + sigma;x_data(i) = xi;y_data(i) = yi;}steepestDescent(x_data, y_data, params);return 0;
}

iter= 454
-0.000666889
0.000694395
-0.000279458
cost: 0.0427055
estimated abc= 1.26563, 1.72471, 1.09882

（2）牛顿法

$\boldsymbol{H} \Delta \boldsymbol{x}=-\boldsymbol{J}$

这里还需要求出海森矩阵即二阶导

$\boldsymbol{H}_i=\left[\begin{array}{c} \frac{ \partial^2 \boldsymbol{F}}{ \partial a^2} & \frac{ \partial^2 \boldsymbol{F} }{\partial a \partial b} &\frac{ \partial^2 \boldsymbol{F}}{ \partial a \partial c} \\ \frac{ \partial^2 \boldsymbol{F}}{\partial b \partial a} & \frac{ \partial^2 \boldsymbol{F}}{\partial b^2} &\frac{ \partial^2 \boldsymbol{F}}{ \partial b \partial c} \\ \frac{ \partial^2 \boldsymbol{F}}{ \partial c \partial a} & \frac{ \partial^2 \boldsymbol{F}}{\partial c \partial b} &\frac{ \partial^2 \boldsymbol{F}}{\partial c^2} \\ \end{array}\right]$

则 $\boldsymbol{H}=\sum \boldsymbol{H}_i$

/***********************************************************                                          *
* Time: 2023/8/10
* Author: xiaocong
* Function: 牛顿法
* 注意这里用的是 ae * xi * xi + be * xi + sin(ce)
***********************************************************/#include <iostream>
#include <eigen3/Eigen/Core>
#include <eigen3/Eigen/Dense>
#include <cmath>using namespace std;
using namespace Eigen;const int N = 100;                 // 数据点个数
const int MAX_INTER = 1000;        // 最大迭代次数void steepestDescent(const VectorXd& x_data, const VectorXd& y_data, Vector3d& params)
{double cost = 0;for (int iter = 0; iter < MAX_INTER; iter++){Vector3d J = Vector3d::Zero();           // 雅可比矩阵Eigen::MatrixXd H(3, 3);                 // 海森矩阵H.setZero();cost = 0;double ae = params(0);double be = params(1);double ce = params(2);for (int i = 0;i < N;i++){double xi = x_data(i), yi = y_data(i);double ei = (yi - (ae * xi * xi + be * xi + sin(ce))) / N;    // 残差项J(0) += ei * (-xi * xi);J(1) += ei * (-xi);J(2) += ei * (-cos(ce));H(0, 0) += xi * xi * xi * xi;H(0, 1) += xi * xi * xi;H(0, 2) += xi * xi * cos(ce);H(1, 0) += xi * xi * xi;H(1, 1) += xi * xi;H(1, 2) += xi * cos(ce);H(2, 0) += xi * xi * cos(ce);H(2, 1) += xi * cos(ce);H(2, 2) += cos(2 * ce);cost += ei * ei;}Vector3d dx = H.ldlt().solve(-J);   // 求解 dxif (isnan(dx[0])){cout << "result is nan!" << endl;break;}if (dx.squaredNorm() < 1e-6)      // dx 足够小{break;}// 迭代params += dx;cout << "iter= " << iter + 1 << endl;cout << dx(0) << endl;cout << dx(1) << endl;cout << dx(2) << endl;cout << "cost: " << cost << endl;cout << "estimated abc= " << params(0) << ", " << params(1) << ", " << params(2) << endl;}}int main(int argc, char** argv)
{double ar = 1.0, br = 2.0, cr = 1.0;         // 真实参数值Vector3d params(2.0, 1.0, 0.0);            // 初始参数值// 生成数据VectorXd x_data(N);VectorXd y_data(N);for (int i = 0; i < N; i++){double xi = (i / 100.0);                                     // [0~1.0]double sigma = 0.02 * (rand() % 1000) / 1000.0 - 0.01;     // 随机噪声，[-0.01, 0.01]double yi = ar * xi * xi + br * xi + sin(cr) + sigma;x_data(i) = xi;y_data(i) = yi;}steepestDescent(x_data, y_data, params);return 0;
}

iter= 470
-0.000656148
0.000766084
5.77874e-06
cost: 3.52463e-06
estimated abc= 1.09233, 1.89203, 1.01297

（3）高斯牛顿法

求出每个误差项关于状态变量的导数（注意 $a, b, c$ 才是未知数）：

$\frac{ \partial e_i }{ \partial a}=-x_i^2\exp(ax_i^2+b_ix+c) \\ \frac{ \partial e_i }{ \partial b}=-x_i\exp(ax_i^2+b_ix+c) \\ \frac{ \partial e_i }{ \partial c}=-\exp(ax_i^2+b_ix+c)$

记 $\boldsymbol{J}_i=[\frac{ \partial e_i }{ \partial a}, \frac{ \partial e_i }{ \partial b}, \frac{ \partial e_i }{ \partial c}]^\top$ 。和前面不一样。

此处即为

$(\sum^{100}_{i=1}\boldsymbol{J}_i\boldsymbol{J}_i^\top)\Delta \boldsymbol{x}=-\sum^{100}_{i=1}\boldsymbol{J}_ie_i$

/***********************************************************                                          *
* Time: 2023/8/10
* Author: xiaocong
* Function: 高斯牛顿法
***********************************************************/#include <iostream>
#include <eigen3/Eigen/Core>
#include <eigen3/Eigen/Dense>
#include <cmath>using namespace std;
using namespace Eigen;const int N = 100;                // 数据点个数
const int MAX_INTER = 100;        // 最大迭代次数void gaussNewton(const VectorXd& x_data, const VectorXd& y_data, Vector3d& params)
{double cost = 0;for (int iter = 0; iter < MAX_INTER; iter++){Matrix3d H = Matrix3d::Zero();      // H=JJ^TVector3d b = Vector3d::Zero();      // b=-Jecost = 0;double ae = params(0);double be = params(1);double ce = params(2);for (int i = 0;i < N;i++){double xi = x_data(i), yi = y_data(i);double ei = yi - exp(ae * xi * xi + be * xi + ce);    // 残差项Vector3d Ji;                                          // 雅可比矩阵Ji(0) = -xi * xi * exp(ae * xi * xi + be * xi + ce);Ji(1) = -xi * exp(ae * xi * xi + be * xi + ce);Ji(2) = -exp(ae * xi * xi + be * xi + ce);H += Ji * Ji.transpose();b += -Ji * ei;cost += ei * ei;}// 求解 dxVector3d dx = H.ldlt().solve(b);if (isnan(dx[0])){cout << "result is nan!" << endl;break;}if (dx.squaredNorm() < 1e-6)      // dx 足够小{break;}// 迭代params += dx;cout << "iter= " << iter + 1 << endl;cout << dx(0) << endl;cout << dx(1) << endl;cout << dx(2) << endl;cout << "cost= " << cost << endl;cout << "estimated abc= " << params(0) << ", " << params(1) << ", " << params(2) << endl;}
}int main(int argc, char** argv)
{double ar = 1.0, br = 2.0, cr = 1.0;         // 真实参数值Vector3d params(2.0, -1.0, 5.0);            // 初始参数值// 生成数据VectorXd x_data(N);VectorXd y_data(N);for (int i = 0; i < N; i++){double xi = i / 100.0;                                     // [0~1]double sigma = 0.02 * (rand() % 1000) / 1000.0 - 0.01;     // 随机噪声，[-0.01, 0.01]double yi = exp(ar * xi * xi + br * xi + cr) + sigma;x_data(i) = xi;y_data(i) = yi;}gaussNewton(x_data, y_data, params);return 0;
}

iter= 7
-0.00134314
0.00213517
-0.000823118
cost= 0.00356444
estimated abc= 0.999314, 2.00098, 0.999659

4.6 三种方法优缺点

最速下降法、牛顿法和高斯牛顿法都是常用的优化算法，用于解决最小化问题。它们各自有不同的优缺点，下面是对这三种算法的优缺点进行总结：

最速下降法：

优点：

简单直观： 最速下降法的核心思想简单易懂，容易实现。
适用广泛： 适用于一般的优化问题，不需要太多的先验知识。
内存消耗小： 只需要存储当前参数和梯度，内存消耗相对较小。

缺点：

收敛速度慢： 最速下降法的收敛速度通常较慢，特别是在存在长轴状谷底或细长山谷的情况下。
依赖初始值： 初始参数的选择会影响收敛性能，不合适的初始值可能导致陷入局部最小值。
不适用于高维问题： 在高维问题中，计算梯度和参数更新可能变得耗时，从而影响效率。

牛顿法：

优点：

收敛速度快： 牛顿法在逼近局部最小值时的收敛速度通常比最速下降法更快。
二阶信息利用： 牛顿法利用了函数的二阶导数信息，可以更准确地估计局部几何特性。

缺点：

计算复杂： 牛顿法需要计算函数的二阶导数（Hessian矩阵），计算成本较高，特别是在高维问题中。
不稳定性： Hessian矩阵可能不是正定的，导致算法不稳定。此外，在某些情况下，牛顿法可能在非凸问题中陷入局部最小值。

高斯牛顿法：

优点：

适用于非线性问题： 高斯牛顿法适用于非线性优化问题，尤其是拟合参数化模型时效果较好。
不需要二阶导数： 高斯牛顿法不需要直接计算Hessian矩阵，而是通过近似方法来计算。

缺点：

对初始值敏感： 高斯牛顿法对初始参数的选择敏感，不合适的初始值可能导致算法发散。
可能陷入局部最小值： 高斯牛顿法有时可能陷入局部最小值，特别是在存在多个局部最小值的问题中。

综合来看，选择哪种算法取决于问题的性质和实际需求。最速下降法简单但收敛速度慢，适用于简单问题或作为其他优化算法的初始步骤。牛顿法收敛速度快，但在计算复杂和非凸问题中可能不稳定。高斯牛顿法适用于非线性问题，但对初始值敏感，需要权衡利弊。在实际应用中，可能需要结合多种算法来优化不同的问题。

04 牛顿法、高斯牛顿法及 Cpp 实现

文章目录

04 牛顿法、高斯牛顿法及 Cpp 实现

4.1 非线性最小二乘

4.2 一阶和二阶梯度法

4.3 高斯牛顿法

4.4 总结

4.5 代码实现

4.6 三种方法优缺点

相关文章

wpf 系统在显示器分辨率和缩放设置为非1920*1080和100%时，SelectionChanged事件响应问题分析？

考研英语语法（四十）

【qml入门教程系列】：qml列表控件ListView用法介绍

TypeScript 的高级技巧

MySQL 数字函数

贝叶斯网络（人工智能期末复习）

Python和Pygame绘制自动驾驶和移动机器本地规划器算法

从0到1 手把手搭建spring cloud alibaba（二十二）neo4j 优势，原理，使用场景以及案例介绍

tanstack/react-query使用手册

BGP基本配置

基于Cocos2D-X框架闯关游戏的设计

单片机第三季-第四课：STM32下载、MDK和调试器

什么是网络可视化？网络可视化工具有用吗

应急电源控制系统的研究与设计

【LeeCode】242.有效的字母异位词

【C++】异常处理 ⑧ ( 标准异常类 | 标准异常类继承结构 | 常用的标准异常类 | 自定义异常类继承 std::exception 基类 )

java常用知识点记忆

【Windows】使用SeaFile搭建本地私有云盘并结合内网穿透实现远程访问

Google Protocol Buffers (proto3) 中的 DoubleValue 类型用法总结

JDBC常见的几种连接池使用（C3P0、Druid、HikariCP 、DBCP）（附上代码详细讲解）