深圳网站建设公司大全/百度竞价推广代运营公司

深圳网站建设公司大全,百度竞价推广代运营公司,网站备案连接,wordpress 主题在哪看文 | Summer Clover知乎本文已获作者授权,禁止二次转载这是Deep Learning Theory里很基本也很核心的一个问题。在这个问题上,初学者容易被入门教学误导,非此研究方向的业内人士也容易有过时的认知。首先问题描述不够准确。更准确的说法是&…

文 | Summer Clover@知乎
本文已获作者授权,禁止二次转载

这是Deep Learning Theory里很基本也很核心的一个问题。

在这个问题上,初学者容易被入门教学误导,非此研究方向的业内人士也容易有过时的认知。

首先问题描述不够准确。更准确的说法是:(1)正因为梯度下降法容易收敛到局部最优,所以大家几乎从来不用梯度下降做非凸优化,包括训练神经网络。
(2)正因为随机梯度下降法容易逃离鞍点和泛化不好的minima(主要是sharp minima),所以随机梯度下降(SGD)和它的变种(比如Momentun、Adam)才是训练神经网络最流行的方法。

鞍点(saddle points)和泛化不好的最优点(bad/sharp minima)在深度学习里的确是广泛存在的。但这是神经网络复杂的loss landscape带来的问题,而不是优化器带来的问题。反而,优化器是来解决问题的。

正因为saddle points和bad minima太多了,所以你才太需要随机优化了。

有很多问题在深度学习理论里有和传统机器学习和最优化理论完全不一样的解答。很多传统观点在深度学习里都是值得怀疑的。很少有教材会强调这件事或者指出它们的不同。于是就有一个很尴尬的现象。很多深度学习入门的教材和课程里面混合了大量传统机器学习的观点和最优化理论的观点。大量的博客和科普文章更是剪不断、理还乱。

(另一个常见误解是模型大小对泛化的影响:
https://www.zhihu.com/question/434846017/answer/1651711327)

这也不奇怪。因为深度学习理论的进展主要藏在最近几年的论文里,可能还要很长时间才能进入英文教材,还需要更长的时间才能进入中文教材。

归纳一下:

  • 优化理论里大家更在乎的是到critical points的收敛性,梯度逐渐收敛到0即可。至于是找到minima还是saddle points,超纲了。

  • 机器学习里大家在乎是找到的是global minima,还是local minima。local minima意味着training loss还比较高,还没优化到位。但是global minima还是local minima在深度学习里不重要,因为所有的minima对应的loss都差不多小[1]。

  • 深度学习里,大家很在乎saddle points附近的动力学(影响优化),大家非常在乎flat minima还是sharp minima(影响泛化)。因为saddle points附近的优化会非常慢,而minima flatness对深度学习泛化界的影响非常大。

Note: 鞍点逃逸问题一般指的是逃离-first-order stationary points,其实是鞍点附近、梯度很小的区域,而不是梯度严格等于0的点。

所以深度学习动力学有两个非常值得研究的核心问题:

  1. 怎么快速逃离鞍点

  2. 怎么逃离sharp minima找到flat minima

其理论价值是,我们可以更好地理解深度神经网络的训练过程。其实践价值是,我们可以更有依据地调参或者设计新的随机优化器。

很幸运的是,SGD为代表的随机优化器在这两个问题里都有相当好的性质。

直觉上的理解其实很简单——在随机梯度噪音扰动下,优化器可以加速逃离鞍点,也可以加速逃离sharp minima。

一般的意义上的回答就到这里就结束了。但这个回答只是定性的,还不够好,因为我们不能量化地预测SGD的行为。

就像我们都知道苹果会掉在地上,但我们还需要牛顿力学来准确语言苹果是如何掉在地上的。现在的深度学习理论的完善程度差不多相当于牛顿前的运动学,主要靠经验和定性的结论。俗称“炼丹发”,便是如此。

如果想更深(shu)入(xue)地理解这个问题,我正好可以介绍一下这个方向的最新进展。正好是我们组的一个系列工作的其中一篇SGD Diffusion Theory[2]:分析了为什么SGD倾向于逃离sharp minima找到flat minima。(https://openreview.net/forum?id=wXgk_iCiYGo

我们先来看一个一维示意图(高维空间也不难想象)。假如一个粒子初始时刻在能阱a1里,那么:Q1.它需要多长时间才能越过鞍点b进入势阱a2?Q2.经过足够长的时间,这个粒子落入陷阱a1和a2的概率分别有多大?

▲Energy Landscape / Loss Landscape

抽象一下,深度学习的训练过程其实就对应着这么个经典的Kramers Escape问题。这个问题的原型最早出现在1940年的一篇经典论文[3]。

统计物理学家Kramers提出了这么一个布朗运动粒子(服从朗之万动力学Langevin Dynamics)的逃逸问题。经过一些统计物理学里的经典近似手段,得到了热噪音下(即各向同性的高斯噪音)的平均逃逸时间公式:

很容易发现,在最简单的热噪音的情况,我们已经能看到随机动力学是偏好flat minima的,这种偏好是多项式级的。

这里的(一维情况下的二阶导数或者高维情况下的Hessian的行列式)就是minima sharpness的一种度量。

在化学里面,类似的方法还可以计算化学反应的速率和反应式左右比例。

在深度学习里,“类似”的方法则可以计算出SGD逃离minima的速率和SGD对flat minima的偏好。

虽说是“类似”的方法,但是深度学习动力学比热力学复杂太多了。因为随机梯度噪音是一种各向异性的、位置依赖的复杂噪音。

中间的数学细节可以参考[2]。大概的流程是,从SGD算法得到对应的Generalized Langevin Dynamics,再得到对应Fokker-Planck Equation。从Fokker-Planck Equation可以解出粒子的概率密度。再借助Smoluchowski Equation可以解出粒子的概率密度从一个势阱流向另一个势陷的概率流大小。

可以直观的理解为,一堆概率云最开始在一个势阱内,渐渐地通过鞍点流向了另一个势阱,并逐渐达到平衡。达到平衡的特征时间就是平均逃逸时间,最终概率云的分布则反映了找到不同的解的概率。

热力学版的Kramers Escape问题其实也是走这个数学流程。只是布朗运动的Langevin Dynamics只含有非常简单的热噪音。而[2]这个工作最大的贡献就是,解决了随机梯度噪音版的Kramers Escape问题。可以说,深度学习动力学是一种自然界不存在的动力学问题。其对应的Kramers Escape问题其实就是一种物理学家没有见过的物理问题。

(这套数学工具,CS背景的同学基本上都不熟。但是有统计物理背景的同学可太熟了。解决问题的关键可能是先准确定义这个问题,再找一个懂统计物理的来解这个方程,就能大功告成。所以AI研究还是很需要diversity的。我也在和统计物理PhD合作中。。)

回到正题。[2]最后得到的深度学习版的Kramers Escape问题的平均逃逸时间表达式是:


(简单起见,这里只写一维空间的情况。高维空间类似。)

其中是batch size,是学习率。这里可以看到,平均逃逸时间对minima sharpness的依赖是指数级的。

而且,很幸运,SGD逃逸对minima sharpness、batch size和学习率的指数关系都在[2]的实验中被验证:

▲平均逃逸时间对minima sharpness指数依赖关系

另外,SGLD(随机梯度朗之万动力学)是一种常用的做Bayesian inference的方法,它的行为更接近于热力学,因为梯度噪音主要是人为加的高斯噪音。这不奇怪,因为Bayesian inference就是从玻尔兹曼分布中推断参数。[2]的实验也验证了,SGLD对minima sharpness的依赖是多项式级的。这也说明了为什么Bayesian inference的方法都不是好的深度学习训练方法。

最后文章的结论很清晰,随机梯度噪音的性质优对深度学习来说很优越:

  • 热力学对于flat minima的偏好是多项式级的,而SGD对flat minima的偏好是指数级的。这就是为什么随机优化对深度学习如此重要。

  • 这个batch size和学习率的比值也是指数级的重要的。这个也解释为什么large batch training时需要保持在一个稳定的值[4]。另外,这个比值还可以影响深度学习的泛化[5]。

  • 深度学习的参数空间虽然很高维,但是学习动力学主要是发生在一个低维空间的。参数几乎不会沿着在Hessian的本征值接近0的那些方向学习。这一点也和FAIR的一个经验发现[6]相符。

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

 

[1] Kawaguchi, K. (2016). Deep learning without poor local minima.Advances in neural information processing systems,29, 586-594.

[2] Xie, Z., Sato, I., & Sugiyama, M. (2020). A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient Descent Exponentially Favors Flat Minima.  In International Conference on Learning Representations.

[3] Kramers, H. A. (1940). Brownian motion in a field of force and the diffusion model of chemical reactions. Physica,7(4), 284-304.

[4] Krizhevsky, A. (2014). One weird trick for parallelizing convolutional neural networks. arXiv preprint arXiv:1404.5997.

[5] He, F., Liu, T., & Tao, D. (2019). Control batch size and learning rate to generalize well: Theoretical and empirical evidence. In Advances in Neural Information Processing Systems(pp. 1143-1152).

[6] Gur-Ari, G., Roberts, D. A., & Dyer, E. (2018). Gradient descent happens in a tiny subspace.arXiv preprint arXiv:1812.04754.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479156.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器学习在美团配送系统的实践:用技术还原真实世界

在2018 AI开发者大会(AI NEXTCon)上,美团配送AI方向负责人何仁清,分享了美团在即时配送领域中机器学习技术的最新进展,以及如何通过大数据和机器学习手段,建立对线下真实世界各种场景的感知能力&#xff0c…

LeetCode 99. 恢复二叉搜索树(中序遍历)

1. 题目 二叉搜索树中的两个节点被错误地交换。 请在不改变其结构的情况下,恢复这棵树。 你能想出一个只使用常数空间的解决方案吗? 2. 解题 循环中序遍历(栈),记录不满足的节点,交换其valO(n)O(n)O(n)…

AAAI21 | Seq2Seq模型成为“复读机”的原因找到了?

文 | 苏剑林编 | Sheryc_王苏单位 | 追一科技去年笔者写过博文《如何应对Seq2Seq中的"根本停不下来"问题?》[1],里边介绍了一篇论文中对Seq2Seq解码不停止现象的处理,并指出那篇论文只是提了一些应对该问题的策略,并没有…

论文浅尝 | ICLR 2020 - 图神经网络的预训练策略

论文笔记整理:杨帆,浙江大学计算机学院。动机现有的用于图结构的预训练方法要么只关注node-level,导致在图表示空间没有区分度,要么只关注graph-level,导致在节点表示空间没有区分度。一种优质的节点表示应该保证不仅在…

常见的距离算法和相似度计算方法

原文链接:https://zhuanlan.zhihu.com/p/138107999 首发于算法加油站写文章常见的距离算法和相似度计算方法奋发的菜鸟酱​华东师范大学 计算机技术博士在读91 人赞同了该文章注:不定时更新1.常见的距离算法1.1 欧几里得距离(Euclidean Dista…

美团AI全景图:吃喝玩乐背后的黑科技

很多人都会发现日常生活已经越来越离不开美团了,这个互联网平台涵盖了吃、住、行、游、购、娱……能帮我们做很多事情,非常接地气。黄色的美团外卖骑手,橙色的摩拜单车,还有美团和大众点评的Logo……会不时出现在各个角落&#xf…

LeetCode 547. 朋友圈(图的遍历BFS DFS)

文章目录1. 题目2. 解题2.1 BFS 广度优先2.2 DFS 深度优先1. 题目 问有几个连通网络 2. 解题 2.1 BFS 广度优先 参考图的数据结构 class Solution { public:int findCircleNum(vector<vector<int>>& M) {int n M.size(), groups 0, i;bool visited[n] …

开源开放 | 《大词林》开源 75 万核心实体和围绕核心实体的细粒度概念、关系列表...

1《大词林》简介《大词林》(http://101.200.120.155/)是由哈尔滨工业大学社会计算与信息检索研究中心推出&#xff0c;由我中心秦兵教授和刘铭副教授主持开发&#xff0c;是一个自动构建的大规模开放域中文知识库。自2014年11月推出第一版《大词林》&#xff0c;《大词林》共经…

推荐几个不错的CUDA入门教程(非广告)

文 | godweiyang最近因为项目需要&#xff0c;入坑了CUDA&#xff0c;又要开始写很久没碰的C了。对于CUDA编程以及它所需要的GPU、计算机组成、操作系统等基础知识&#xff0c;我基本上都忘光了&#xff0c;因此也翻了不少教程。这里简单整理一下&#xff0c;给同样有入门需求的…

logging.getLogger(logger)

https://www.cnblogs.com/bjdxy/archive/2012/12/03/2799322.html logging模块学习笔记&#xff1a;logger 对象、日志等级 logger&#xff1a;日志对象&#xff0c;logging模块中最基础的对象&#xff0c;用logging.getLogger(name)方法进行初始化&#xff0c;name可以不填。通…

美团DB数据同步到数据仓库的架构与实践

背景 在数据仓库建模中&#xff0c;未经任何加工处理的原始业务层数据&#xff0c;我们称之为ODS(Operational Data Store)数据。在互联网企业中&#xff0c;常见的ODS数据有业务日志数据&#xff08;Log&#xff09;和业务DB数据&#xff08;DB&#xff09;两类。对于业务DB数…

论文浅尝 | AAAI2020 - 基于生成对抗的知识图谱零样本关系学习

论文笔记整理&#xff1a;耿玉霞&#xff0c;浙江大学直博生。研究方向&#xff1a;知识图谱&#xff0c;零样本学习等。来源&#xff1a;AAAI2020论文链接&#xff1a;https://arxiv.org/pdf/2001.02332.pdf本文是发表在AAAI2020上的一篇基于生成对抗网络进行知识图谱零样本关…

LeetCode 1184. 公交站间的距离

1. 题目 环形公交路线上有 n 个站&#xff0c;按次序从 0 到 n - 1 进行编号。我们已知每一对相邻公交站之间的距离&#xff0c;distance[i] 表示编号为 i 的车站和编号为 (i 1) % n 的车站之间的距离。 环线上的公交车都可以按顺时针和逆时针的方向行驶。 返回乘客从出发点…

追剧计划第三弹!UC Berkeley出品,全栈深度学习!

关注卖萌屋比较早的小伙伴&#xff0c;大概还记得2020年初时我们组织的斯坦福大学CS224N自然语言处理公开课追剧计划&#xff0c;以及后来的斯坦福大学CS520知识图谱公开课追剧活动。尽管活动已经结束很长一段时间&#xff0c;但是仍然有小伙伴后台问“什么时候开始下一波追剧哇…

美团外卖iOS App冷启动治理

一、背景 冷启动时长是App性能的重要指标&#xff0c;作为用户体验的第一道“门”&#xff0c;直接决定着用户对App的第一印象。美团外卖iOS客户端从2013年11月开始&#xff0c;历经几十个版本的迭代开发&#xff0c;产品形态不断完善&#xff0c;业务功能日趋复杂&#xff1b;…

LeetCode 538. 把二叉搜索树转换为累加树(逆中序 根右左)

文章目录1. 题目2. 逆中序&#xff08;根右左&#xff0c;降序循环遍历&#xff09;1. 题目 给定一个二叉搜索树&#xff08;Binary Search Tree&#xff09;&#xff0c;把它转换成为累加树&#xff08;Greater Tree)&#xff0c;使得每个节点的值是原来的节点值加上所有大于…

应用实践 | 电商应用——一种基于强化学习的特定规则学习模型

本文转载自公众号&#xff1a;浙大KG。作者&#xff1a;汪寒&#xff0c;浙江大学硕士&#xff0c;主要研究方向为知识图谱和自然语言处理。应用场景在电商实际应用中&#xff0c;每个商品都会被挂载到若干个场景&#xff0c;以图结构中的节点形式存在。商品由结构化信息表示&a…

20W奖金+实习机会:阿里巴巴达摩院最新时间序列赛事来了!

Datawhale赛事 赛事&#xff1a;2021“AI Earth”人工智能挑战赛2021“AI Earth”人工智能创新挑战赛&#xff0c;由阿里巴巴达摩院联合南京信息工程大学、国家气候中心、国家海洋环境预报中心、安徽省气象局共同创办。大赛以“AI助力精准气象和海洋预测”为主题&#xff0c;聚…

关于python中带下划线的变量和函数 的意义,class类带一个下划线和带两个下划线的定义

总结:变量:1. 前带_的变量: 标明是一个私有变量, 只用于标明, 外部类还是可以访问到这个变量2. 前带两个_ ,后带两个_ 的变量: 标明是内置变量,3. 大写加下划线的变量: 标明是 不会发生改变的全局变量函数:1. 前带_的变量: 标明是一个私有函数, 只用于标明,2. 前带两个_…

论文浅尝 | ICLR2020 - 基于组合的多关系图卷积网络

论文笔记整理&#xff1a;吴锐&#xff0c;东南大学计算机学院硕士。来源&#xff1a;ICLR 2020链接&#xff1a;https://arxiv.org/pdf/1911.03082.pdf动机目前针对于GCN的研究大多数都关注在学习无向图的结点表示上&#xff0c;然而我们在研究中更常见的通常是多关系图&#…