Python 梯度下降法（六）：Nadam Optimize

文章目录

Python 梯度下降法（六）：Nadam Optimize
- 一、数学原理
- - 1.1 介绍
  - 1.2 符号定义
  - 1.3 实现流程
- 二、代码实现
- - 2.1 函数代码
  - 2.2 总代码
- 三、优缺点
- - 3.1 优点
  - 3.2 缺点
- 四、相关链接

Python 梯度下降法（六）：Nadam Optimize

一、数学原理

1.1 介绍

Nadam（Nesterov-accelerated Adaptive Moment Estimation）优化算法是 Adam 优化算法的改进版本，结合了 Nesterov 动量（Nesterov Momentum）和 Adam 算法的优点。

Nadam 在 Adam 算法的基础上引入了 Nesterov 动量的思想。Adam 算法通过计算梯度的一阶矩估计（均值）和二阶矩估计（未中心化的方差）来自适应地调整每个参数的学习率。而 Nesterov 动量则是在计算梯度时，考虑了参数在动量作用下未来可能到达的位置的梯度，从而让优化过程更具前瞻性。

1.2 符号定义

设置一下超参数：

参数	说明
$\eta$	学习率，控制参数更新的步长
$m$	一阶矩估计，梯度均值
$\beta_{1}$	一阶矩指数衰减率，通常取 $0.9$
$v$	二阶矩估计，梯度未中心化方差
$\beta_{2}$	二阶矩指数衰减率，通常取 $0.999$
$\epsilon$	无穷小量，用于避免分母为零， $10^{-8}$
$g_{t}$	在 $t$ 时刻位置的梯度
$\theta$	需要进行拟合的参数

1.3 实现流程

初始化参数： $\theta_{n\times 1}$ 、 $\vec{m_{0}}_{n\times 1}=0$ 、 $\vec{v_{0}}_{n\times 1}=0$
更新一阶矩估计 $m_{t}$ ： $m_{t}=\beta_{1}m_{t-1}+(1-\beta_{1})g_{t}$
更新二阶矩估计 $v_{t}$ ： $v_{t}=\beta_{2}v_{t-1}+(1-\beta_{2})g_{t}^{2}$
偏差修正：由于 $m_{0},v_{0}=0$ ，在训练初期会存在偏差，需要进行修正： $\hat{m}_{t}=\frac{m_{t}}{1-\beta_{1}^{t}},\hat{v}_{t}=\frac{v_{t}}{1-\beta_{2}^{t}}$
计算预估一阶矩： $\widetilde{m}_{t}=\beta_{1}\hat{m}_{t}+\frac{(1-\beta_{1})g_{t}}{1-\beta_{1}^{t}}$
更新模型参数 $\theta_{t}$ ： $\theta_{t}=\theta_{t-1}-\frac{\eta}{\sqrt{ \hat{v_{t}} }+\epsilon}\odot\widetilde{m}_{t}$

二、代码实现

2.1 函数代码

# 定义 Nadam 函数
def nadam_optimizer(X, y, eta, num_iter=1000, beta1=0.9, beta2=0.999, epsilon=1e-8, threshold=1e-8):"""X: 数据 x  mxn，可以在传入数据之前进行数据的归一化y: 数据 y  mx1eta: 学习率num_iter: 迭代次数beta: 衰减率epsilon: 无穷小threshold: 阈值"""m, n = X.shapetheta, mt, vt = np.random.randn(n, 1), np.zeros((n, 1)), np.zeros((n, 1))  # 初始化数据loss_ = []for t in range(1, num_iter + 1):# 计算梯度h = X.dot(theta)err = h - yloss_.append(np.mean(err ** 2) / 2)g = (1 / m) * X.T.dot(err)# 一阶矩估计mt = beta1 * mt + (1 - beta1) * g# 二阶矩估计vt = beta2 * vt + (1 - beta2) * g ** 2# 先计算偏差修正，后面需要使用到，并且去除负数m_hat, v_hat = mt / (1 - pow(beta1, t)), np.maximum(vt / (1 - pow(beta2, t)), 0)# 计算预估一阶矩m_pre = beta1 * m_hat + (1 - beta1) * g / (1 - pow(beta1, t))# 更新参数theta = theta - np.multiply((eta / (np.sqrt(v_hat) + epsilon)), m_pre)# 检查是否收敛if t > 1 and abs(loss_[-1] - loss_[-2]) < threshold:print(f"Converged at iteration {t}")breakreturn theta.flatten(), loss_

2.2 总代码

import numpy as np
import matplotlib.pyplot as plt# 设置 matplotlib 支持中文
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
plt.rcParams['axes.unicode_minus'] = False# 定义 Nadam 函数
def nadam_optimizer(X, y, eta, num_iter=1000, beta1=0.9, beta2=0.999, epsilon=1e-8, threshold=1e-8):"""X: 数据 x  mxn，可以在传入数据之前进行数据的归一化y: 数据 y  mx1eta: 学习率num_iter: 迭代次数beta: 衰减率epsilon: 无穷小threshold: 阈值"""m, n = X.shapetheta, mt, vt = np.random.randn(n, 1), np.zeros((n, 1)), np.zeros((n, 1))  # 初始化数据loss_ = []for t in range(1, num_iter + 1):# 计算梯度h = X.dot(theta)err = h - yloss_.append(np.mean(err ** 2) / 2)g = (1 / m) * X.T.dot(err)# 一阶矩估计mt = beta1 * mt + (1 - beta1) * g# 二阶矩估计vt = beta2 * vt + (1 - beta2) * g ** 2# 先计算偏差修正，后面需要使用到，并且去除负数m_hat, v_hat = mt / (1 - pow(beta1, t)), np.maximum(vt / (1 - pow(beta2, t)), 0)# 计算预估一阶矩m_pre = beta1 * m_hat + (1 - beta1) * g / (1 - pow(beta1, t))# 更新参数theta = theta - np.multiply((eta / (np.sqrt(v_hat) + epsilon)), m_pre)# 检查是否收敛if t > 1 and abs(loss_[-1] - loss_[-2]) < threshold:print(f"Converged at iteration {t}")breakreturn theta.flatten(), loss_# 生成一些示例数据
np.random.seed(42)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)
# 添加偏置项
X_b = np.c_[np.ones((100, 1)), X]# 超参数
eta = 0.1# 运行 Nadam 优化器
theta, loss_ = nadam_optimizer(X_b, y, eta)
print("最优参数 theta:")
print(theta)# 绘制损失函数图像
plt.plot(range(len(loss_)), loss_, label="损失函数图像")
plt.title("损失函数图像")
plt.xlabel("迭代次数")
plt.ylabel("损失值")
plt.legend()  # 显示图例
plt.grid(True)  # 显示网格线
plt.show()