机器学习 监督学习论文_NeurIPS 2020最佳机器学习论文奖

cc50c1fa236fcd0c08873863ada0f423.png

NeurIPS 会议在提交的大量论文和1903年被接受的论文中,有3篇被授予。今年获奖的论文有:

  • 语言模型是学习者很少

  • 广义形式相关平衡的无悔学习动力学

  • 列子集选择和Nystrom方法的改进保证和多重下降曲线

该NeurIPS委员会由一些指导准则。最好的论文必须具有革命性,创造力并具有一定的优雅度,但它也具有可行性,现实性和可复制性。它也不应过于复杂和低效。

892306913789b627cbb9d837fe3ff3ec.png

语言模型是学习者很少

说GPT-3今年炸毁了我们,真是一件小事。已经看到了许多利用本文介绍的概念的应用程序。总的来说可以说GPT-3是今年看到的最大中断,因此毫无疑问为什么这篇论文在今年的会议上获胜。由Open AI的研究人员发布的这篇引人入胜的论文的背景在于,迁移学习在NLP中变得占主导地位。这意味着该行业正在大量使用经过大量文本预训练的模型,然后根据特定任务对其进行微调。

微调本身可能会很耗时。另一方面,人类可以仅通过几个示例来执行新的语言任务,这是NLP模型正在尝试实现的目标(即使距离还很遥远)。为了改进它并生成更多的不可知解决方案,OpenAI训练了具有1750亿个参数的GPT-3模型,并对其性能进行了微调。正如预期的那样,取得了一些惊人的结果。为了进行比较,去年的GPT-2具有15亿个参数,而微软本月(到目前为止)推出了最大的基于Transform的语言模型,该模型具有170亿个参数。因此,是的GPT-3是一个巨大的自回归模型,它经过无监督学习和少拍学习训练。

509af6eb712f08899d705986b67efc19.png

从架构上来讲,GPT-2模型没有任何变化。修改后的初始化,预标准化和可逆标记化等所有细节都相同。唯一的不同是,这次作者在transformer的各层中使用了交替的密集和局部带状的稀疏注意模式。同样,这个大型GPT-3模型并不是本文所训练的唯一模型。有8个模型,参数在1.25亿到1,750亿之间变化:

5466ce0f06c151de99619900c785c088.png

在此表中,还可以看到用于模型训练的批次的大小。这些模型在以下数据集中进行训练:

47d120ee5b24177a8945b556f3c2561e.png

所有类别的结果令人难以置信。例如,对于传统语言建模任务,GPT-3基于零击的困惑,在Penn Tree Bank数据集上以15点的边距设置了新的SOTA。GPT-3在答题测试中显示了惊人的结果。通常这些测试分为开卷测试和闭卷测试。由于可能出现的查询数量众多,因此,开卷考试使用信息检索系统来查找相关文本,然后模型学习从问题和检索到的文本中生成答案。闭卷考试没有此检索系统。

44f0a37996e791bc0c80f705660f89f2.png

在TriviaQA数据集上,GPT-3在零镜头设置下达到64.3%,在单镜头设置下达到68.0%,在少镜头设置下的闭卷测试中达到71.2%。在零镜头设置下,它的性能比经过微调的T5-11B高出14.2%。请注意,T5-11B是微调的,而GPT-3不是。有趣的是,在翻译任务上,GPT-3在翻译成英语时还设置了新的SOTA。它优于5 BLEU以前的无人监督NMT工作。对于其他任务,例如Winograd样式任务,常识推理和阅读理解,GPT-3也证明了它的优越性。在本文中阅读有关它的更多信息。

由于GPT-3专注于与任务无关的性能,因此未对其进行微调。这意味着还有更多的改进空间,我们很快就会在该领域看到一些成果。

NeurIPS提交人评论:

语言模型构成了解决自然语言处理中一系列问题的现代技术的骨干。本文表明,当将这样的语言模型扩展到前所未有的参数数量时,该语言模型本身可以用作几次学习的工具,无需任何额外的培训就可以在许多此类问题上取得非常有竞争力的表现。这是一个非常令人惊讶的结果,有望在实地产生重大影响,并且很可能经受时间的考验。除了工作的科学贡献外,本文还对工作的更广泛影响进行了非常广泛和深思熟虑的阐述,这可以作为NeurIPS社区关于如何考虑产品实际影响的一个示例。社区进行的研究。

在这里阅读完整的论文。

https://arxiv.org/pdf/2005.14165.pdf

广义形式相关平衡的无悔学习动力学

本文解决与博弈论,计算机科学甚至经济学有关的问题。对我而言,它更始于纳什均衡理论。纳什均衡是一种概念,其中游戏的最佳结果是没有任何玩家在考虑了对手的选择后便有动机偏离其策略。例如,考虑选择策略S1和S2的两个玩家P1和P2。如果P1没有其他响应P2选择S2的策略提供比S1更好的回报的策略,则策略组(S1,S2)是Nash均衡。。在另一方面,P2没有其他策略优于确实P2的响应,最大限度地提高收益P1选择S1。

4c04a275b1b775fd7fdd474a0414ab4c.png

但是,该理论假设参与者之间的互动是分散的,这得出结论:纳什均衡是不相关策略空间上的分布。该理论的变体-相关平衡假设联合行动图的总体分布是通过外部介体建模的。该调解员私下建议每个玩家下一个最佳动作。该理论的扩展被称为广泛形式相关均衡(EFCE),在顺序战略互动中特别有用。根据此理论,在交互开始时,调解员会为顺序交互的每个步骤收集所有可能的建议。可是她当玩家到达脚步时,逐渐显示相关的个人动作。在每个步骤中,玩家都可以接受或不考虑调解员的推荐,但是这样做不再为她提供推荐。

作者专注于特定的环境-任意数量的玩家进行的一般和式综合游戏。实际上,对于这种设置,没有有效的方法来解决EFCE。因此,作者从本质上表明,有可能设计出导致可行的EFCE的简单动力学。他们通过引入几个概念来做到这一点。第一个概念是触发代理。玩家i的触发代理是承担玩家角色并承诺遵循所有建议的代理,除非她达到动作I并被推荐执行动作a。如果发生这种情况,玩家将停止承诺并按照计划进行比赛,直到比赛结束。基于触发器的这一概念,定义了遗憾。触发后悔可衡量每个触发代理对未发挥最佳后视策略的遗憾。这是内部遗憾,因为它表示直到迭代T为止玩家的累积内部遗憾。

最后,作者提供了一种称为ICFR的算法。这是后悔最小化算法,通过在每个信息集上局部地对这些遗憾进行分解,从而使触发代理程序的遗憾最小化。该算法如下所示:

afaf2b86e8de433ac5e537c18eac69f1.png

NeurIPS提交人评论:

相关平衡(CE)易于计算,并且可以获得比众所周知的纳什平衡要高得多的社会福利。在普通形式的游戏中,CE的一个令人惊讶的功能是可以通过简单且分散的算法找到特定的遗憾(所谓的内部遗憾)概念,从而找到它们。本文说明了在大型游戏(即扩展型(或树型)游戏)中收敛到CE的后悔最小化算法的存在。该结果解决了博弈论,计算机科学和经济学界的一个长期存在的开放性问题,并且可能对涉及调解员的游戏产生重大影响,例如,通过导航应用程序对有效的交通路线产生影响。

在这里阅读完整的论文。

https://arxiv.org/pdf/2004.00603.pdf

列子集选择和Nystrom方法的改进保证和多重下降曲线

即使本文的数学意义更大,它还是探索了机器学习中广泛采用的近似技术。来自加利福尼亚大学伯克利分校的研究人员利用了利用数据矩阵光谱特性的技术来获得改进的近似保证。这一成就可能会对内核方法,特征选择和神经网络产生巨大影响。从本质上讲,它依赖于列子集选择问题(CSSP)。

CSSP是组合优化任务,其目的是从矩阵中选择一个小的但有代表性的列向量样本。CSSP的一种变体称为Nyström方法。这是生成低秩矩阵近似的有效技术。这是通过对列进行自适应采样来实现的,该采样在选择一组列与更新所有列的分布之间交替进行。

a750a8e2d7cb047b5254d26b11ee3741.png

CSSP和Nyström方法都旨在通过使用目标矩阵的子矩阵来构建准确的低秩近似,并以此将误差最小化:

daf4c1cf74f1142b61d3c6f015976df3.png

一个自然的问题出现了:“我们能达到最佳等级k逼近误差有多接近?”,或者在数学上:

e20c2ec13d32363785a058a28c40e58e.png

目标是找到大小为k的子集S,其Er 与OPT之 比较小。为了创建一种解决CSSP的算法,进行了许多论文和研究。最好的方法(Deshpande et al。2006)给出了一种随机方法,该方法返回大小为k的集合S,使得:

6da959d303155bd50b981906f447a9f7.png

本文的作者为CSSP近似因子提供了更好的保证,它超出了最坏的情况。他们的贡献可以分为几个部分:

  1. 新的上限–使用频谱衰减,作者开发了CSSP近似因子的上限系列。

  2. 新的下界–如果无法改善最坏情况的上限,作者将提供新的下界构造。

  3. 多次下降曲线–作者证明CSSP逼近因子可以表现出峰和谷,这实际上是CSSP的固有属性

当全部放在一起时,建议的CSSP / Nystrom近似因子的上限和下限显示出一种现象-多次下降曲线。该方法经过经验评估,可以在实际数据集上轻松观察到。

NeurIPS提交人评论:

从大矩阵中选择列向量的一个小但有代表性的子集是一个困难的组合问题,并且已知一种基于基数受限的确定点过程的方法可以提供一种实用的近似解决方案。本文针对最佳可能的低秩近似推导了近似解的近似因子的新上限和下限,该上限甚至可以捕获子集大小的多次下降行为。本文进一步将分析扩展到获得Nyström方法的保证。由于这些逼近技术已在机器学习中得到广泛应用,因此有望对本文产生重大影响,并为例如核方法,特征选择和神经网络的双下降行为提供新的见解。

在这里阅读完整的论文。

https://arxiv.org/pdf/2002.09073.pdf

结论

在本文中,探讨了NeurIPS Conference上最有趣的论文。它们将在未来几年动摇机器学习的世界。

3500cebf912a05efa7bcf348e1fd0d3c.png

推荐阅读

年终收藏! 一文看尽2020年度最「出圈」AI论文合集

9163f3dbabd107a65949824194354642.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/573792.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

iis 装完framework4 7 无法切换_扫盲贴之电压并列与电压切换

点击上方电气小青年,关注并星标由于微信改版,只有星标才能及时看到我们的消息哦━━━━━━推荐阅读:《国内电气顶尖高校的奖学金介绍,总奖学金接近150万!》《世界工业自动化公司行业前十名:西门子、ABB、…

unixbench类似_UnixBench的实现介绍-阿里云开发者社区

很多用户都用UnixBench做性能测试,并做厂商之间的对比,那UnixBench到底做了哪些性能测试,本篇从代码层面阐述UnixBench做了哪些测试。在细说UnixBench的实现之前,先放一个总结果UnixBench算分介绍有类似结果,然后一个个…

android 集成同一interface不同泛型_C# 基础知识系列- 10 反射和泛型(二)

0. 前言 这篇文章延续《C# 基础知识系列- 5 反射和泛型》,继续介绍C#在反射所开发的功能和做的努力。上一篇文章大概介绍了一下泛型和反射的一些基本内容,主要是通过获取对象的类型,然后通过这个类型对象操作对象。这一篇介绍一个在反射中很重…

hdu 1297 递推难题

这题的话,我能玩一年 今天做了很多递推的题,这题无疑是最复杂的 其实可以看出来,2,3,4,5为一类,不妨定义为2型,1,6为一类,定义为1型 规定num[i]为结尾是i的凹槽的数量 我们可以能轻易的推出 sum num[1]*2n…

mysql 8.0远程连接_安装mysql 8.0.17并配置远程访问的方法

一、安装前准备查看数据库版本命令: mysql --versionmysql-community-common-8.0.17-1.el7.x86_64.rpmmysql-community-libs-8.0.17-1.el7.x86_64.rpmmysql-community-client-8.0.17-1.el7.x86_64.rpmmysql-community-server-8.0.17-1.el7.x86_64.rpm二、安装RPM包依…

python体育竞技分析代码200行_使用Python进行体育竞技分析(预测球队成绩)

使用Python进行体育竞技分析(预测球队成绩) 发布时间:2020-09-18 06:38:27 来源:脚本之家 阅读:69 今天我们用python进行体育竞技分析,预测球队成绩 一. 体育竞技分析的IPO模式 : 输入I(input)&…

为什么有时优盘是只读模式_JS专题之严格模式

ECMAScript 5 引入了 strict mode ,现在已经被大多浏览器实现(从IE10开始)一、什么是严格模式顾名思义,JavaScript 严格模式就是让 JS 代码以更严格的模式执行,不允许可能会引发错误的代码执行。在正常模式下静默失败的代码&#…

mysql router 介绍_MySQL Router 介绍篇

MySQL Router 是什么?相信还有很多人没有听说过MySQL Router,很多人对它还不了解,在这篇文章里,将对MySQL Router进行一个简明介绍。首先,介绍一下MySQL Router推出的背景。MySQL Router 是一个轻量级的中间件&#xf…

react 更新input 默认值setfieldsvalue_值得收藏的React面试题

react1、什么是虚拟DOM?难度: ⭐虚拟 DOM (VDOM)是真实 DOM 在内存中的表示。UI 的表示形式保存在内存中,并与实际的 DOM 同步。这是一个发生在渲染函数被调用和元素在屏幕上显示之间的步骤,整个过程被称为调和。2、类组件和函数组件之间的区…

实验二Step1-有序顺序表

1 #include<stdio.h>2 3 struct job4 {5 char name[10];//作业名称6 char status;//当前状态7 int arrtime;//到达时间8 int reqtime;//要求服务时间9 int startime;//调度时间 10 int finitme;//完成时间 11 float TAtime,TAWtime;//周转时…

ocx控件 postmessage消息会消失_APP控件之二——弹框

弹框分为两种&#xff1a;模态弹框和非模态弹框一、模态弹框模态弹框和非模态弹框最大的区别就是是否强制用户交互。模态弹框会打断用户的当前操作流程&#xff0c;用户不在弹框上操作的话&#xff0c;其余功能都使用不了。优点是&#xff1a;可以很好的获取的用户的视觉焦点缺…

结对编程(1)

我的结对编程项目搭档是王以正&#xff0c;我们的代码也是基于他个人项目的代码修改的。 由于王以正同学不在宿舍住也不怎么会宿舍&#xff0c;我们结对编程的时间较少&#xff0c;不过他将他的代码代码放到了github上面&#xff0c;这也让我有机会学习了github的使用。感觉这个…

伪代码block转换成程序流程图_程序设计基础

1、程序与程序设计语言的基本知识1&#xff09;程序&#xff1a;为解决某一问题而采用程序设计语言编写的一个指令集合。程序算法&#xff08;对操作的描述&#xff09;数据结构&#xff08;对数据的描述&#xff09;程序设计语言语言工具和环境。2&#xff09;程序的特点&…

mysql 内联函数_C++之内联函数

C继承C的一个重要特性是效率&#xff0c;在C中保护效率的一个方法是使用宏(macro),宏的实现是使用预处理器而不是编译器&#xff0c;预处理器直接用宏代码替换宏调用&#xff0c;所以就没有了参数压栈、生成汇编语言的CALL、返回参数、执行汇编语言的RETURN的时间花费&#xff…

10桌面管理文件收纳_二十余件精选桌面好物推荐,让学习工作生活满满正能量!...

这些提升办公桌幸福感的好物&#xff0c;能让你的学习与工作正能量满满&#xff01;01 笔记本支架笔记本是为了人们出行方便而设计的&#xff0c;显示器的位置并没有照顾到长期对着显示器码字的人群&#xff0c;许多以笔记本为主力的办公族也被迫成为了低头族。绿巨能(llano)笔…

hash 值重复_面试题:HashSet是如何保证元素不重复的

面试官&#xff1a;你能简单介绍List和Set有什么区别吗&#xff1f;小憨&#xff1a;List是一个有序的集合&#xff0c;在内存是连续存储的&#xff0c;可以存储重复的元素&#xff0c;List查询快&#xff0c;增删慢&#xff1b;Set是一个无序的集合&#xff0c;在内存中不连续…

RabbitMQ 原文译03--发布和订阅

发布/订阅 在之前的案例中我们创建了一个工作队列,这个工作队列的实现思想就是一个把每一个任务平均分配给每一个执行者,在这个篇文章我们会做一些不一样的东西,把一个消息发送给多个消费者,这种模式就被称作"发布/订阅". 为了说明这个模式,我们将要创建一个简单的日…

html富文本编辑器插件_vue中使用vuequilleditor富文本编辑器

点击上方“小姚同学技术栈”快速关注我哟&#xff01;vue-quill-editor是一个基于quill、适用于vue的富文本编辑器开源项目&#xff0c;支持服务端渲染和单页应用。目前项目热度还算可以&#xff0c;如果不考虑使用markdown&#xff0c;vue-quill-editor是一个比较好的选择。本…

二元函数图像生成器_GAN生成图像综述

点击上方“CVer”&#xff0c;选择加"星标"或“置顶”重磅干货&#xff0c;第一时间送达作者&#xff1a;YTimo(PKU EECS) 研究方向&#xff1a;深度学习&#xff0c;计算机视觉本文转载自&#xff1a;SIGAI摘要生成对抗网络(Generative adversarial network, GAN)…

设计模式之禅读书笔记

》设计原则《 》Single Responsibility Principle&#xff08;单一职责原则&#xff09;类只有一个修改的原因。 ●类的复杂性降低&#xff0c;实现什么职责都有明确的定义。 ●可读性高 ●可维护性高 ●变更引起的风险降低。 PS&#xff1a;基本不可能实现 》里氏替换原则&…