机器学习优化算法：从梯度下降到Adam及其变种

引言

最近deepseek的爆火已然说明，在机器学习领域，优化算法是模型训练的核心驱动力。无论是简单的线性回归还是复杂的深度神经网络，优化算法的选择直接影响模型的收敛速度、泛化性能和计算效率。通过本文，你可以系统性地介绍从经典的梯度下降法到当前主流的自适应优化算法（如Adam），分析其数学原理、优缺点及适用场景，并探讨未来发展趋势。

一、优化算法基础

1.1 梯度下降法（Gradient Descent）

数学原理：
介绍如下：
梯度下降可以通过计算损失函数 $J(\theta)$ 对参数 $\theta$ 的梯度 $\nabla_\theta J(\theta)$ ，沿负梯度方向更新参数：
$\theta_{t+1} = \theta_t - \eta \nabla_\theta J(\theta_t)$
其中 $\eta$ 为学习率。

三种变体：

批量梯度下降（BGD）：使用全量数据计算梯度，收敛稳定但计算成本高。
随机梯度下降（SGD）：每次随机选取单个样本更新参数，计算快但噪声大。
小批量梯度下降（Mini-batch SGD）：平衡BGD与SGD，采用小批量数据，兼顾效率与稳定性。

二、动量法与自适应学习率

2.1 动量法（Momentum）

原理：引入动量项模拟物理惯性，减少振荡，加速收敛。
更新公式：
$v_t = \gamma v_{t-1} + \eta \nabla_\theta J(\theta_t)$
$\theta_{t+1} = \theta_t - v_t$
其中 $\gamma$ 为动量因子（通常0.9），累积历史梯度方向。

2.2 Nesterov加速梯度（NAG）

改进动量法，先根据动量项预估下一步位置，再计算梯度：
$v_t = \gamma v_{t-1} + \eta \nabla_\theta J(\theta_t - \gamma v_{t-1})$
$\theta_{t+1} = \theta_t - v_t$
NAG在凸优化中具有理论收敛优势。

2.3 自适应学习率算法

Adagrad

为每个参数分配独立的学习率，适应稀疏数据：
$g_{t,i} = \nabla_\theta J(\theta_{t,i})$
$G_{t,i} = G_{t-1,i} + g_{t,i}^2$
$\theta_{t+1,i} = \theta_{t,i} - \frac{\eta}{\sqrt{G_{t,i} + \epsilon}} g_{t,i}$
缺陷： $G_t$ 累积导致学习率过早衰减。

RMSprop

改进Adagrad，引入指数移动平均：
$E[g^2]_t = \beta E[g^2]_{t-1} + (1-\beta)g_t^2$
$\theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{E[g^2]_t + \epsilon}} g_t$
缓解学习率下降问题，适合非平稳目标。

三、Adam算法详解

3.1 Adam的核心思想

结合动量法与自适应学习率，引入一阶矩估计（均值）和二阶矩估计（方差）。

3.2 算法步骤

计算梯度： $g_t = \nabla_\theta J(\theta_t)$
更新一阶矩： $m_t = \beta_1 m_{t-1} + (1-\beta_1)g_t$
更新二阶矩： $v_t = \beta_2 v_{t-1} + (1-\beta_2)g_t^2$
偏差校正（因初始零偏差）：
$\hat{m}_t = \frac{m_t}{1-\beta_1^t}, \quad \hat{v}_t = \frac{v_t}{1-\beta_2^t}$
参数更新：
$\theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{\hat{v}_t} + \epsilon} \hat{m}_t$

超参数建议： $\beta_1=0.9$ , $\beta_2=0.999$ , $\epsilon=10^{-8}$ 。

3.3 优势与局限性

优点：自适应学习率、内存效率高、适合大规模数据与参数。
缺点：可能陷入局部最优、泛化性能在某些任务中不如SGD。

四、Adam的改进与变种

4.1 Nadam

融合NAG与Adam，公式改变为：
$\theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{\hat{v}_t}+\epsilon} (\beta_1 \hat{m}_t + \frac{(1-\beta_1)g_t}{1-\beta_1^t})$
这样能够加速收敛并提升稳定性。

4.2 AMSGrad

解决Adam二阶矩估计可能导致的收敛问题：
$v_t = \max(\beta_2 v_{t-1}, v_t)$
保证学习率单调递减，符合收敛理论。

五、算法对比与选择指南

算法	收敛速度	内存消耗	适用场景
SGD	慢	低	凸优化、精细调参
Momentum	中等	低	高维、非平稳目标
Adam	快	中	默认选择、复杂模型
AMSGrad	中等	中	理论保障强的任务