关注小夕并星标,解锁自然语言处理
搜索、推荐与算法岗求职秘籍
文 | 苏剑林(追一科技,人称苏神)
美 | 人美心细小谨思密达
前言
这篇文章简单介绍一个叫做AdaX的优化器,来自《AdaX: Adaptive Gradient Descent with Exponential Long Term Memory》。介绍这个优化器的原因是它再次印证了之前在《硬核推导Google AdaFactor:一个省显存的宝藏优化器》一文中提到的一个结论,两篇文章可以对比着阅读。
Adam & AdaX
AdaX的更新格式是
其中
其中
等价形式变换
可以看到,两者的第一个差别是AdaX去掉了动量的偏置校正
原论文称之为“with Exponential Long Term Memory”,就是指
事实上,学习率校正用的是
所以如果设
基于同样的道理,如果设
衰减策略比较
所以,从真正用来校正梯度的
对于Adam来说,当时t = 0,
对于AdaX来说,当t = 0时
就这样结束了
嗯,文章就到这儿结束了。开头就说了,本文只是简单介绍一下AdaX,因为它再次印证了之前的一个结论——
萌屋公告
喜欢本文的小伙伴们,记得扫描下方二维码关注并星标置顶,我才能来到你面前哦。
卖萌屋妹子们的原创技术干货有 ACL2020学术前沿系列、NLP综述系列、NLP论文清单系列、NLP基础入门系列、搜索与推荐系列、深度学习初/中/高级炼丹技巧、机器学习入门系列、算法岗offer收割系列等。订阅号后台回复【干货】即可打包带走。
卖萌屋里有众多顶会审稿人、大厂研究员、知乎大V和美丽小姐姐(划掉????♀️),我们成立了 自然语言处理 / 知识图谱 / 深度学习 / 机器学习 / 校招求职 高质量讨论群,订阅号后台回复【入群】即可上车。
夕小瑶的卖萌屋
关注&星标小夕,带你解锁AI秘籍
订阅号主页下方「撩一下」有惊喜哦