梯度优化算法Adam

前言

最近读一个代码发现用了一个梯度更新方法, 刚开始还以为是什么奇奇怪怪的梯度下降法, 最后分析一下是用一阶梯度及其二次幂做的梯度更新。网上搜了一下, 果然就是称为Adam的梯度更新算法, 全称是:自适应矩估计(adaptive moment estimation)

国际惯例, 参考博文:

一文看懂各种神经网络优化算法：从梯度下降到Adam方法

Adam：一种随机优化方法

An overview of gradient descent optimization algorithms

梯度下降优化算法综述

Hinton的神经网络课程第六课

理论

由于参考博客介绍的很清晰, 我就直接撸公式了:

假设 $t$ 时刻, 目标函数对于参数的一阶导数是 $g_t$ ,那么我们可以先计算

m t v t = β 1 m t - 1 + (1 - β 1) g t = β 2 v t - 1 + (1 - β 2) g 2 t

$\begin{aligned} m_t&=\beta_1m_{t-1}+(1-\beta_1)g_t\\ v_t&=\beta_2v_{t-1}+(1-\beta_2)g_t^2 \end{aligned}$
接下来计算

m t^= m t 1 - β t 1 v t^= v t 1 - β t 2

$\hat{m_t}=\frac{m_t}{1-\beta_1^t}\\ \hat{v_t}=\frac{v_t}{1-\beta_2^t}$
最后我们的梯度更新方法就是

θ t + 1 = θ t - η \cdot m t ^ v t ^ - - \sqrt + ϵ

$\theta_{t+1}=\theta_t-\eta\cdot\frac{\hat{m_t}}{\sqrt{\hat{v_t}}+\epsilon}$
注意几个量,

η $\eta$ 是学习步长, 剩下的三个参数取值的建议是

β1=0.9,β2=0.999,ϵ=10−8 $\beta_1=0.9,\beta_2=0.999,\epsilon=10^{-8}$ , 分母中的

ϵ $\epsilon$ 是为了防止除零. 其实这个步长的话,一般来说是建议选

η=0.001 $\eta=0.001$ 之类的, 注意

βt1,βt2 $\beta_1^t,\beta_2^t$ 中的

t $t$ 是参与指数运算的

其实再看一下公式,其实就是当前时刻的梯度更新利用了上一时刻的平方梯度 $v_t$ 的指数衰减均值 $\hat{v_t}$ 和上一时刻的梯度 $m_t$ 的指数衰减均值 $\hat{m_t}$

代码实现

以下非一个神经网络的完整实现, 主要在于看看定义网络参数以后怎么去使用Adam去更新每一时刻的梯度, 在theano中的实现方法如下:

先看看神经网络的参数

self.layers = [self.W0, self.W1, self.W2,self.b0, self.b1, self.b2]self.params = sum([layer.params for layer in self.layers], [])

然后初始化一开始时候的 $m_t,v_t$ ,分别对应代码中的 $m0params,m1params$

self.params = network.params
self.m0params = [theano.shared(np.zeros(p.shape.eval(), dtype=theano.config.floatX), borrow=True)                   for p in self.params]
self.m1params = [theano.shared(np.zeros(p.shape.eval(), dtype=theano.config.floatX), borrow=True)                   for p in self.params]
self.t = theano.shared(np.array([1], dtype=theano.config.floatX))

定义目标函数=损失函数+正则项:

 cost = self.cost(network, input, output) + network.cost(input)

计算当前梯度

gparams = T.grad(cost, self.params)

计算 $m0params,m1params$

m0params = [self.beta1 * m0p + (1-self.beta1) *  gp     for m0p, gp in zip(self.m0params, gparams)]m1params = [self.beta2 * m1p + (1-self.beta2) * (gp*gp) for m1p, gp in zip(self.m1params, gparams)]

使用Adam梯度更新

params = [p - self.alpha * ((m0p/(1-(self.beta1**self.t[0]))) /(T.sqrt(m1p/(1-(self.beta2**self.t[0]))) + self.eps))for p, m0p, m1p in zip(self.params, m0params, m1params)]

然后更新下一时刻网络中的梯度值, $m0params$ , $m1params$ ,t<script type="math/tex" id="MathJax-Element-20">t</script>

updates = ([( p,  pn) for  p,  pn in zip(self.params, params)] +[(m0, m0n) for m0, m0n in zip(self.m0params, m0params)] +[(m1, m1n) for m1, m1n in zip(self.m1params, m1params)] +[(self.t, self.t+1)])

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/246630.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！