【深度学习笔记】深度学习训练技巧—

【深度学习笔记】深度学习训练技巧——优化器

优化器

随机梯度下降及动量
- 随机梯度下降算法对每批数据 $X^{(i)},t^{(i)})$ 进行优化
  $g=\nabla_\theta J(\theta;x^{(i)},t^{(i)})\\ \theta = \theta -\eta g$
  随机梯度下降算法的基本思想是，在每次迭代中，随机选择一个样本 $i$ ，计算该样本的梯度 $g=\nabla_\theta J(\theta;x^{(i)},t^{(i)})$ ，然后按照梯度的反方向更新参数 $\theta$ ，即 $\theta = \theta -\eta g$ ，其中 $\eta$ 是学习率，控制更新的步长。
- 基于动量的更新过程
  
  为了改善随机梯度下降算法的收敛性，可以引入动量（momentum）的概念，即在更新参数时，考虑之前的更新方向和幅度，使得参数沿着一个平滑的轨迹移动。
  $v=\gamma v-\eta g\\ \theta =\theta+v$
  其中 $v$ 是动量变量，初始为零向量， $\gamma$ 是动量系数，控制之前更新的影响程度，一般取 $0.9$ 左右的值。
Adagrad

Adagrad 是一种自适应学习率的梯度下降算法，它可以根据不同的参数调整不同的学习率，使得目标函数更快地收敛。
- 梯度记为 $g=\nabla_\theta J(\theta;x^{(i)},t^{(i)})$
- 更新过程
  
  对于每个参数 $\theta_i$ ，维护一个累积变量 $c_i$ ，初始为 0，然后每次将该参数的梯度平方 $g_i^2$ 累加到 $c_i$ 上，即 $c_i=c_i+g_i^2$ 。
  $c_i=c_i+g_i^2\\ \theta_i=\theta_i-\frac{\eta}{\sqrt{c_i+\epsilon}}g_i$
  在更新该参数时，使用一个自适应的学习率 $\frac{\eta}{\sqrt{c_i+\epsilon}}$ ，其中 $\eta$ 是全局学习率， $\epsilon$ 是一个小常数，用于防止除零错误。
- 工作原理
  
  如果一个参数的梯度一直很大，那么它的 $c_i$ 也会很大，从而降低它的学习率，防止过度更新；
  
  如果一个参数的梯度一直很小，那么它的 $c_i$ 也会很小，从而增加它的学习率，加快更新速度。这就实现了自适应的学习率调整，有利于加速收敛和避免震荡。
- 优点
  
  计算简单，不需要手动调整学习率，适合处理稀疏数据和特征。
- 缺点
  
  累积变量 $c_i$ 会随着迭代次数增加而不断增大，导致学习率过小，甚至接近于零，使得后期训练缓慢或停滞。
RMSProp

RMSProp算法在Adagrad的基础上提出改进，以解决学习率单调下降的问题
- 基本思想
  
  引入一个遗忘因子 $\gamma$ 。对于每个参数 $\theta$ ，维护一个累积变量 $c$ ，初始为 0，然后每次将该参数的梯度平方 $g^2$ 乘以一个衰减系数 $(1-\gamma)$ ，再加到 $c$ 上，即 $c=\gamma c+(1-\gamma)g^2$ 。
  $c=\gamma c+(1-\gamma)g^2\\ \theta=\theta-\frac{\eta}{\sqrt{c+\epsilon}}g$
  $\gamma$ 是一个介于 0 和 1 之间的常数，通常为0.9、0.99、0.999，用于控制历史信息的影响程度。
- 与Adagrad对比
  
  $c$ 不会随着迭代次数增加而无限增大，而是保持在一个合理的范围内，从而使得学习率下降得更加平稳。
Adam

Adam 算法是一种自适应学习率的梯度下降算法，它结合了 Momentum 和 RMSProp 的优点
- 简单形式
  $KaTeX parse error: Expected 'EOF', got '&' at position 26: …m+(1-\beta_1)g &̲ \text {(积攒历史梯度…$
  其中 $\beta_1$ 和 $\beta_2$ 是两个介于 0 和 1 之间的常数，用于控制历史信息的影响程度。一般取 $\beta_1=0.9$ 和 $\beta_2=0.999$ ， $\epsilon=10^{-8}$ 。
- 完整形式
  $m=\beta_1m+(1-\beta_1)g\ ,m_t=\frac{m}{1-\beta_1^t} \\ c=\beta_2c+(1-\beta_2)g^2\ ,c_t=\frac{c}{1-\beta_2^t} \\ \theta=\theta-\frac{\eta}{\sqrt{c_t+\epsilon}}m_t$
  为了消除偏差，还需要对 $m$ 和 $c$ 进行偏差修正，即除以 $1-\beta_1^t$ 和 $1-\beta_2^t$ ，其中 $t$ 是迭代次数。
Adam 算法可以利用一阶矩和二阶矩的信息，实现自适应的学习率调整，使得参数在梯度方向上加速，而在垂直梯度方向上减速，从而避免参数在最优值附近的震荡，加快收敛速度。