NeurIPS 会议在提交的大量论文和1903年被接受的论文中,有3篇被授予。今年获奖的论文有:
语言模型是学习者很少
广义形式相关平衡的无悔学习动力学
列子集选择和Nystrom方法的改进保证和多重下降曲线
该NeurIPS委员会由一些指导准则。最好的论文必须具有革命性,创造力并具有一定的优雅度,但它也具有可行性,现实性和可复制性。它也不应过于复杂和低效。
语言模型是学习者很少
说GPT-3今年炸毁了我们,真是一件小事。已经看到了许多利用本文介绍的概念的应用程序。总的来说可以说GPT-3是今年看到的最大中断,因此毫无疑问为什么这篇论文在今年的会议上获胜。由Open AI的研究人员发布的这篇引人入胜的论文的背景在于,迁移学习在NLP中变得占主导地位。这意味着该行业正在大量使用经过大量文本预训练的模型,然后根据特定任务对其进行微调。
微调本身可能会很耗时。另一方面,人类可以仅通过几个示例来执行新的语言任务,这是NLP模型正在尝试实现的目标(即使距离还很遥远)。为了改进它并生成更多的不可知解决方案,OpenAI训练了具有1750亿个参数的GPT-3模型,并对其性能进行了微调。正如预期的那样,取得了一些惊人的结果。为了进行比较,去年的GPT-2具有15亿个参数,而微软本月(到目前为止)推出了最大的基于Transform的语言模型,该模型具有170亿个参数。因此,是的GPT-3是一个巨大的自回归模型,它经过无监督学习和少拍学习训练。
从架构上来讲,GPT-2模型没有任何变化。修改后的初始化,预标准化和可逆标记化等所有细节都相同。唯一的不同是,这次作者在transformer的各层中使用了交替的密集和局部带状的稀疏注意模式。同样,这个大型GPT-3模型并不是本文所训练的唯一模型。有8个模型,参数在1.25亿到1,750亿之间变化:
在此表中,还可以看到用于模型训练的批次的大小。这些模型在以下数据集中进行训练:
所有类别的结果令人难以置信。例如,对于传统语言建模任务,GPT-3基于零击的困惑,在Penn Tree Bank数据集上以15点的边距设置了新的SOTA。GPT-3在答题测试中显示了惊人的结果。通常这些测试分为开卷测试和闭卷测试。由于可能出现的查询数量众多,因此,开卷考试使用信息检索系统来查找相关文本,然后模型学习从问题和检索到的文本中生成答案。闭卷考试没有此检索系统。
在TriviaQA数据集上,GPT-3在零镜头设置下达到64.3%,在单镜头设置下达到68.0%,在少镜头设置下的闭卷测试中达到71.2%。在零镜头设置下,它的性能比经过微调的T5-11B高出14.2%。请注意,T5-11B是微调的,而GPT-3不是。有趣的是,在翻译任务上,GPT-3在翻译成英语时还设置了新的SOTA。它优于5 BLEU以前的无人监督NMT工作。对于其他任务,例如Winograd样式任务,常识推理和阅读理解,GPT-3也证明了它的优越性。在本文中阅读有关它的更多信息。
由于GPT-3专注于与任务无关的性能,因此未对其进行微调。这意味着还有更多的改进空间,我们很快就会在该领域看到一些成果。
NeurIPS提交人评论:
语言模型构成了解决自然语言处理中一系列问题的现代技术的骨干。本文表明,当将这样的语言模型扩展到前所未有的参数数量时,该语言模型本身可以用作几次学习的工具,无需任何额外的培训就可以在许多此类问题上取得非常有竞争力的表现。这是一个非常令人惊讶的结果,有望在实地产生重大影响,并且很可能经受时间的考验。除了工作的科学贡献外,本文还对工作的更广泛影响进行了非常广泛和深思熟虑的阐述,这可以作为NeurIPS社区关于如何考虑产品实际影响的一个示例。社区进行的研究。
在这里阅读完整的论文。
https://arxiv.org/pdf/2005.14165.pdf
广义形式相关平衡的无悔学习动力学
本文解决与博弈论,计算机科学甚至经济学有关的问题。对我而言,它更始于纳什均衡理论。纳什均衡是一种概念,其中游戏的最佳结果是没有任何玩家在考虑了对手的选择后便有动机偏离其策略。例如,考虑选择策略S1和S2的两个玩家P1和P2。如果P1没有其他响应P2选择S2的策略提供比S1更好的回报的策略,则策略组(S1,S2)是Nash均衡。。在另一方面,P2没有其他策略优于确实P2的响应,最大限度地提高收益P1选择S1。
但是,该理论假设参与者之间的互动是分散的,这得出结论:纳什均衡是不相关策略空间上的分布。该理论的变体-相关平衡假设联合行动图的总体分布是通过外部介体建模的。该调解员私下建议每个玩家下一个最佳动作。该理论的扩展被称为广泛形式相关均衡(EFCE),在顺序战略互动中特别有用。根据此理论,在交互开始时,调解员会为顺序交互的每个步骤收集所有可能的建议。可是她当玩家到达脚步时,逐渐显示相关的个人动作。在每个步骤中,玩家都可以接受或不考虑调解员的推荐,但是这样做不再为她提供推荐。
作者专注于特定的环境-任意数量的玩家进行的一般和式综合游戏。实际上,对于这种设置,没有有效的方法来解决EFCE。因此,作者从本质上表明,有可能设计出导致可行的EFCE的简单动力学。他们通过引入几个概念来做到这一点。第一个概念是触发代理。玩家i的触发代理是承担玩家角色并承诺遵循所有建议的代理,除非她达到动作I并被推荐执行动作a。如果发生这种情况,玩家将停止承诺并按照计划进行比赛,直到比赛结束。基于触发器的这一概念,定义了遗憾。触发后悔可衡量每个触发代理对未发挥最佳后视策略的遗憾。这是内部遗憾,因为它表示直到迭代T为止玩家的累积内部遗憾。
最后,作者提供了一种称为ICFR的算法。这是后悔最小化算法,通过在每个信息集上局部地对这些遗憾进行分解,从而使触发代理程序的遗憾最小化。该算法如下所示:
NeurIPS提交人评论:
相关平衡(CE)易于计算,并且可以获得比众所周知的纳什平衡要高得多的社会福利。在普通形式的游戏中,CE的一个令人惊讶的功能是可以通过简单且分散的算法找到特定的遗憾(所谓的内部遗憾)概念,从而找到它们。本文说明了在大型游戏(即扩展型(或树型)游戏)中收敛到CE的后悔最小化算法的存在。该结果解决了博弈论,计算机科学和经济学界的一个长期存在的开放性问题,并且可能对涉及调解员的游戏产生重大影响,例如,通过导航应用程序对有效的交通路线产生影响。
在这里阅读完整的论文。
https://arxiv.org/pdf/2004.00603.pdf
列子集选择和Nystrom方法的改进保证和多重下降曲线
即使本文的数学意义更大,它还是探索了机器学习中广泛采用的近似技术。来自加利福尼亚大学伯克利分校的研究人员利用了利用数据矩阵光谱特性的技术来获得改进的近似保证。这一成就可能会对内核方法,特征选择和神经网络产生巨大影响。从本质上讲,它依赖于列子集选择问题(CSSP)。
CSSP是组合优化任务,其目的是从矩阵中选择一个小的但有代表性的列向量样本。CSSP的一种变体称为Nyström方法。这是生成低秩矩阵近似的有效技术。这是通过对列进行自适应采样来实现的,该采样在选择一组列与更新所有列的分布之间交替进行。
CSSP和Nyström方法都旨在通过使用目标矩阵的子矩阵来构建准确的低秩近似,并以此将误差最小化:
一个自然的问题出现了:“我们能达到最佳等级k逼近误差有多接近?”,或者在数学上:
目标是找到大小为k的子集S,其Er 与OPT之 比较小。为了创建一种解决CSSP的算法,进行了许多论文和研究。最好的方法(Deshpande et al。2006)给出了一种随机方法,该方法返回大小为k的集合S,使得:
本文的作者为CSSP近似因子提供了更好的保证,它超出了最坏的情况。他们的贡献可以分为几个部分:
新的上限–使用频谱衰减,作者开发了CSSP近似因子的上限系列。
新的下界–如果无法改善最坏情况的上限,作者将提供新的下界构造。
多次下降曲线–作者证明CSSP逼近因子可以表现出峰和谷,这实际上是CSSP的固有属性
当全部放在一起时,建议的CSSP / Nystrom近似因子的上限和下限显示出一种现象-多次下降曲线。该方法经过经验评估,可以在实际数据集上轻松观察到。
NeurIPS提交人评论:
从大矩阵中选择列向量的一个小但有代表性的子集是一个困难的组合问题,并且已知一种基于基数受限的确定点过程的方法可以提供一种实用的近似解决方案。本文针对最佳可能的低秩近似推导了近似解的近似因子的新上限和下限,该上限甚至可以捕获子集大小的多次下降行为。本文进一步将分析扩展到获得Nyström方法的保证。由于这些逼近技术已在机器学习中得到广泛应用,因此有望对本文产生重大影响,并为例如核方法,特征选择和神经网络的双下降行为提供新的见解。
在这里阅读完整的论文。
https://arxiv.org/pdf/2002.09073.pdf
结论
在本文中,探讨了NeurIPS Conference上最有趣的论文。它们将在未来几年动摇机器学习的世界。
推荐阅读
年终收藏! 一文看尽2020年度最「出圈」AI论文合集