到2021年,目前深度学习领域有哪些除了调模型以外的硬核研究工作和进展?

文 | 刘斯坦,电光幻影炼金术
源 | 极市平台

作为一个未入门的研究生小白,一方面为深度学习的实际效果和应用价值而感到兴奋,另一方面也会担忧自己的个人能力的发展。个人目前浅薄的看法是,调模型的强应用向的研究工作,由于深度学习目前的黑箱性,对于个人似乎只能积累应用经验,但在数理工具,开发能力等等方面的训练和提升似乎不强。所以希望自己在调模型以外,打开视野看看一些更有见地的工作。总之,到目前为止,深度学习领域的发展趋势是什么?有哪些值得关注的新动向?在应用领域,诸如cv,nlp等,研究思路是否有新的变化?

回答一

作者:刘斯坦
来源链接:
https://www.zhihu.com/question/462218901/answer/1925000483

目录

  • 随机初始模型到最终模型之间的插值情况

  • 最终模型之间的插值情况

  • 神经网络损失面的全貌

不知道算不算硬核,不过我觉得关于Loss Landscape的研究很值得关注,对理解神经网络的一些特性很有帮助。相关的研究很多,每一个研究都研究了损失面的一个或若干个特性,把他们拢在一起,会发现神经网络的损失面会变得很清晰。首先有几个基本概念普及一下,一个是所谓“flat wide minima”,极小值所在的损失面越平坦,越宽,泛化性能越好,所以优化的最终目标就是追求flat wide minima。还有一个就是所谓的线性插值,就是说两个模型,一样的网络结构,不同的参数,对这两个权重进行粗暴的线性加权平均,得到一个新的模型,这个操作就叫线性插值。通过对模型进行线性插值来观察损失的变化,可以了解损失面的几何结构,这是一个经常使用的工具。

随机初始模型到最终模型之间的插值情况

可以想象一下,一个神经网络经过几十上百个epoch的训练,从随机的初始状态一直到最后的最小值,中间大约会经过各种跌宕起伏。如果粗暴地从随机初始状态到最终状态之间拉一根直线,对模型进行线性插值,然后这条插值的直线投射到损失面上,就得到了插值过程中的损失变化曲线,如果损失面起伏很复杂的话,那这条从直线投射而来的曲线应该也是上下起伏的吧?然后根据Goodfellow在2014年的发现,很多时候这个曲线是单调递减的:

黄线是训练时候跟着梯度在损失面上走出来的损失曲线,蓝线和红线是从不同的初始点到最终模型拉一根直线投射到损失面上的损失曲线。可以看到,这条损失曲线是单调递减的。这篇文章 Analyzing Monotonic Linear Interpolation in Neural Network Loss Landscapes (https://arxiv.org/abs/2104.11044)  管这个特性叫“单调线性插值”。文章发现从不同的初始值可以走到同一个模型,殊路同归,而且模型符合单调线性插值,如左图。而这个情况文章 Linear Mode Connectivity and the Lottery Ticket Hypothesis (https://arxiv.org/abs/1912.05671)  也说了,随机初始化位置不同,模型经常就会掉到同一个局部极小值,而这个趋势在训练很早期就已经确定了。有时候不同的初始值会走到不同的模型,这种情况如果你从init1到opt2拉一根直线去投射,就不是单调的了,也很好理解,因为要翻过一个小山坡,这个情况是右图:

作者发现,如果初始值和终值权重之间的距离越远,单调线性插值就越难。而导致这种情况的因素有:使用大的训练步长,使用Adam优化器和使用Batch Norm。比如使用Adam,经常就会遇到小山峰:

这意味着大的步长和Adam优化器都会促使模型越过山峰。

最终模型之间的插值情况

也有一些论文研究最终模型之间的插值情况,上文说了,从两个初始值出发到达两个极小值,之间可能会有山坡,所以如果对这两个极小值之间进行插值,会投射出这样一条损失线:

这很好理解,但这却不是真相的全部。文章 Essentially No Barriers in Neural Network Energy Landscape * (https://arxiv.org/abs/1803.00885)*  发现,这些极小值之间是可以通过一段一段的直线连接起来的:

如果你直接走直线,就是越过山坡,会跌宕起伏,但如果使用文章中的优化方法,绕着走,肯定可以到达另一个极小值。也就是说,局部极小值之间都可以通过线段连接起来,而且一路上损失都很低(上图右边那条黄线,沿着山谷走,损失一直很低,一直都保持极小值状态)。而文章 On Connected Sublevel Sets in Deep Learning (https://arxiv.org/abs/1901.07417) 则证明,如果使用分段线性激活函数,比如ReLu,那么这个神经网络模型的所有局部极小值其实都是连在一块儿的,他们其实都属于同一个全局最小值。文章 Landscape Connectivity and Dropout Stability of SGD Solutions for Over-parameterized Neural Networks (https://arxiv.org/abs/1912.10095) 告诉我们,神经网络参数量越大,局部极小值之间的连接性越强。

神经网络损失面的全貌

那么综合以上各种论文的结论,基本可以描绘出神经网络损失面的全貌,应该长这样:

极小值都处于同一个高度,属于同一个全局最小值,而且互相之间是连在一起的。那么很容易想到了,如果你往这个沙盘随机扔弹子,是不是更容易掉到那种特别宽的flat minima?没错,文章 The large learning rate phase of deep learning:the catapult mechanism (https://arxiv.org/abs/2003.02218)  发现,使用大的学习率更容易掉到平坦的极小值(flat wide minima),也就是说,学习率一大,相当于在这些山之间乱跳,当然更容易掉到flat wide minima咯。大胆猜测,根据Lottery Ticket假设那篇论文描述的现象,这里面每一个小山都是一个sub-network另外还有很多研究表现resnet和mish激活函数可以让损失面更平滑,而Relu会让极小值变得很尖很崎岖。

回答二

作者:电光幻影炼金术

来源链接:
https://www.zhihu.com/question/462218901/answer/1966379644

提一点浅见:深度学习不能不调参,也不能只调参。如果不调参,很难大幅超过baseline,尤其是在模型/任务大幅度改变的情况下,所需要的超参数往往截然不同。这样的结果是incremental contribution/lack of novelty,还会引发一系列关于方法的concern。我老板曾经曰过, 其实很多reviewer对实验的质疑,都是参数没调好导致的。 如果只调参数,那么格局就有点小了。

想要格局变大,论文中需要有 (1)清晰的motivation(2)干净的逻辑链辅助推理(3)丰富的消融实验(4)好的可视化结果(5)有泛化潜力的结论或者insight。 最好文章能揭示更多未解决的问题。

我们可以欣赏一下swin transformer是怎么做的。首先swin transformer明确提出了transformer特有的一系列问题,并且有比较充足的逻辑链提出一系列的模块(因为多尺度所以需要分window,因为分开的window不包含边界信息所以要加入shift window)。其次swin transformer做的数据集也足够多,证明其提出的模块可能是广泛有效的。

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478314.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

美团点评SQL优化工具SQLAdvisor开源

在数据库运维过程中,优化 SQL 是 DBA 团队的日常任务。例行 SQL 优化,不仅可以提升程序性能,还能够降低线上故障的概率。 目前常用的 SQL 优化方式包括但不限于:业务层优化、SQL逻辑优化、索引优化等。其中索引优化通常通过调整索…

LeetCode 295. 数据流的中位数(大小堆)

文章目录1. 题目2. 大小堆解题1. 题目 中位数是有序列表中间的数。如果列表长度是偶数,中位数则是中间两个数的平均值。 例如, [2,3,4] 的中位数是 3 [2,3] 的中位数是 (2 3) / 2 2.5设计一个支持以下两种操作的数据结构:void addNum(int…

论文浅尝 | 利用常识知识图谱进行多跳推理的语言生成方法

笔记整理 | 朱珈徵,天津大学硕士。链接:https://arxiv.org/pdf/2009.11692.pdf动机尽管生成式预训练语言模型在一系列文本生成任务上取得了成功,但在生成过程中需要对基础常识知识进行推理的情况下,它们仍然会受到影响。现有的方法…

成本砍砍砍!不用数据也能用 BERT 做对比学习?

文 | 小昌编 | 小戏大家好,我是小昌,今天和大家聊一聊如何从 BERT 中获取好的句子表征。大家都知道,BERT 的设计初衷是为了获得更好的单词表征。但是,利用 BERT 来表征句子的需求无论在学术界还是工业界都是非常紧迫的。因此&…

Mt-Falcon——Open-Falcon在美团点评的应用与实践

监控系统是整个业务系统中至关重要的一环,它就像眼睛一样,时刻监测机房、网络、服务器、应用等运行情况,并且在出现问题时能够及时做出相应处理。 美团点评刚开始使用的是Zabbix监控系统,几经优化,在当时能够达到2W机器…

论文浅尝 | 以知识图谱为基础的开放域对话生成的目标规划

笔记整理 | 韩振峰,天津大学硕士。链接:https://ojs.aaai.org//index.php/AAAI/article/view/6474动机 之前有关开放域对话生成的神经模型没有有效的机制来管理聊天主题,并且往往会生成不连贯的对话。受到人与人对话策略的启发,本…

LeetCode 378. 有序矩阵中第K小的元素(二分查找)

文章目录1. 题目2. 解题2.1 暴力法2.2 二分查找1. 题目 给定一个 n x n 矩阵,其中每行和每列元素均按升序排序,找到矩阵中第k小的元素。 请注意,它是排序后的第k小元素,而不是第k个元素。 示例: matrix [[ 1, 5, 9],[10, 11,…

LeetCode 341. 扁平化嵌套列表迭代器(双栈)

文章目录1. 题目2. 双栈解题1. 题目 给定一个嵌套的整型列表。设计一个迭代器,使其能够遍历这个整型列表中的所有整数。 列表中的项或者为一个整数,或者是另一个列表。 示例 1: 输入: [[1,1],2,[1,1]] 输出: [1,1,2,1,1] 解释: 通过重复调用 next 直到…

外卖O2O的用户画像实践

美团外卖经过3年的飞速发展,品类已经从单一的外卖扩展到了美食、夜宵、鲜花、商超等多个品类。用户群体也从早期的学生为主扩展到学生、白领、社区以及商旅,甚至包括在KTV等娱乐场所消费的人群。随着供给和消费人群的多样化,如何在供给和用户…

论文浅尝 | 利用开放域触发器知识改进事件检测

笔记整理 | 申时荣,东南大学博士来源:ACL 2020源码:https://github.com/shuaiwa16/ekd.git摘要事件检测(ED)是文本自动结构化处理的一项基本任务。由于训练数据的规模小,以前的方法在unseen/标记稀疏的触发…

Beyond 预训练语言模型,NLP还需要什么样的知识?

近年来,深度学习技术已广泛应用于NLP领域,但实际应用效果往往受限于缺乏大规模高质量监督样本。2018年底,预训练语言模型横空出世,极大缓解了这个问题,通过“超大规模无监督语料上的预训练语言模型相对少量的监督样本进…

日志级别动态调整——小工具解决大问题

随着外卖业务的快速发展,业务复杂度不断增加,线上系统环境有任何细小波动,对整个外卖业务都可能产生巨大的影响,甚至形成灾难性的雪崩效应,造成巨大的经济损失。每一次客诉、系统抖动等都是对技术人员的重大考验&#…

LeetCode 324. 摆动排序 II

文章目录1. 题目2. 解题1. 题目 给定一个无序的数组 nums&#xff0c;将它重新排列成 nums[0] < nums[1] > nums[2] < nums[3]… 的顺序。 示例 1: 输入: nums [1, 5, 1, 1, 6, 4] 输出: 一个可能的答案是 [1, 4, 1, 5, 1, 6] 示例 2: 输入: nums [1, 3, 2, 2, 3,…

最全的Pycharm debug技巧

最全的Pycharm debug技巧&#xff1a; 工欲善其事&#xff0c;必先利其器。无论你的 IDE 是 IntelliJ IDEA、Pycharm、WebStorm、GoLang、还是PhpStorm &#xff0c;调试器都是标配。在遇到有问题的程序时&#xff0c;合理的利用调试器的跟踪和断点技巧&#xff0c;可以很快的…

OpenKG祝大家端午安康

—????????OpenKG祝大家端午安康????????—

两个月,刷了八千篇Arxiv,我发现……

文 | 白鹡鸰编 | 小轶从五月初到现在&#xff0c;大约刷了八千篇Arxiv之后&#xff0c;我发现我有毛病。当然&#xff0c;这是读论文上头时的牢骚&#xff0c;不是真心话&#xff0c;只是说&#xff0c;我在Arxiv上投入的精力的努力&#xff0c;与我预计的收获不成正比。故事的…

深度学习在美团的应用

近年来&#xff0c;深度学习在语音、图像、自然语言处理等领域取得非常突出的成果&#xff0c;成了最引人注目的技术热点之一。美团这两年在深度学习方面也进行了一些探索&#xff0c;其中在自然语言处理领域&#xff0c;我们将深度学习技术应用于文本分析、语义匹配、搜索引擎…

LeetCode 315. 计算右侧小于当前元素的个数(二叉查找树二分查找归并排序逆序数总结)

文章目录1. 题目2. 解题2.1 二叉查找树2.2 二分插入2.3 归并排序1. 题目 给定一个整数数组 nums&#xff0c;按要求返回一个新数组 counts。数组 counts 有该性质&#xff1a; counts[i] 的值是 nums[i] 右侧小于 nums[i] 的元素的数量。 示例: 输入: [5,2,6,1] 输出: [2,1,1…

领域应用 | 金融资管领域知识图谱的构建和应用

转载公众号 | DataFunTalk分享嘉宾&#xff1a;李渔 熵简科技 联合创始人编辑整理&#xff1a;唐汝佳出品平台&#xff1a;DataFunTalk导读&#xff1a;本次分享的主题是金融资管领域知识图谱的构建和应用&#xff0c;主要介绍如何运用大数据、AI这些技术手段&#xff0c;来帮助…

我分析了ACL21论文列表,发现对比学习已经...

文 | 花小花Posy小伙伴们&#xff0c;好久不见呀&#xff0c;小花又回来了&#xff01;最近关注对比学习&#xff0c;所以ACL21的论文列表出来后&#xff0c;小花就搜罗了一波&#xff0c;好奇NLPers们都用对比学习干了什么&#xff1f;都是怎么用的呀&#xff1f;效果怎样呀&a…