来源:大数据文摘
备受瞩目的NeurlPS 2019周日一早在温哥华拉开序幕,今天,组委会通过一篇博客公布了包括杰出论文奖、杰出新方向论文奖等五大类奖项。
NeurIPS,全称神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems),自1987年诞生至今已有32年的历史,一直以来备受学术界和产业界的高度关注。NeurIPS为人工智能领域的A类会议,同时也是人工智能领域最富盛名的年度会议之一。
据官方消息,今年NeurIPS会议的论文投稿量再创造新高,共收到6743篇投稿,最终录取1428篇论文,36篇oral,录取率为21.2%。
今年的参会人数也再创新高,参会总人数已经突破了13000人,相比去年参会的9000人增加了近一半。由于报名人数过多。今年大会组织者甚至更改了抢票规则,将“先到先得”原则更改为“抽奖”原则。正如NeurIPS在公告中所说,用新规则抢票的NeurIPS 2019可以在一定程度上避免时区问题。
今年开幕式的注册长队,图:HooraRM @ NeurIPS2019
而如此高的投稿率和参会率,也能从侧面反应了人工智能研究的火爆程度只增不减。
今年的参会纪念马克杯
如此庞大的投稿量,组委会再审核和评选过程中也面临不小的压力。在揭晓奖项的官方博文中,NeurlPS 2019也声明了奖项评审过程中的相关标准和评选过程,从这些标准中我们可以也看出,哪些研究更NeurIPS 2019所认可或者不被鼓励。
评审委员会一致通过的评审标准包括,鼓励以下9种研究特质:
持久的潜力ーー专注于主要工作,而不是边边角角。 在未来的几十年里,人们可能仍然会关心这个问题;
洞察力——提供新的(最好是深入的)理解;不仅仅是为了模型表现出几个百分点的改进;
创造力——以创造性的新方式看待问题,给出一个真正让读者感到惊讶的结果;
革命性ーー将从根本上改变人们未来的思维方式;
严谨性ーー无懈可击的严谨和考虑;
优雅感ーー美丽、干净、光滑、优雅;
现实性ーー不过分强调其重要性;
科学性——在实际上是可证伪的;
可重复性ーー结果是可重现的;代码是可用的,并且可以在各种机器上使用;数据集是可用的;证明细节是完整的。
组委会还公布了一些他们不鼓励的3种论文特质:
低效ーー远离那些仅仅因为资源浪费而脱颖而出的工作(主要是因为浪费了大量资源而获得了较高的排名)
趋附大势——因为一个想法很时尚所以采用某种方法,但可以通过其他方法以不同的更有效的方式获得。
过于复杂ーー论文有非必要的复杂性。
此外,组委会今年还新增加了一个杰出新方向论文奖,以突出在为未来的研究设置一个新的途径方面出色的工作。
一起来看看5大奖项的获奖论文。
杰出论文奖(Outstanding Paper Award)
获奖论文:
Distribution-Independent PAC Learning of Halfspaces with Massart Noise
论文链接:
https://papers.nips.cc/paper/8722-distribution-independent-pac-learning-of-halfspaces-with-massart-noise.pdf
论文作者:Ilias Diakonikolas、Themis Gouleakis、Christos Tzamos
机构:威斯康辛大学麦迪逊分校、马普所
具体而言,研究人员给定了一组带标签样本(x, y),采样R^d+1维的分布D,如此,未带标签点x上的边缘分布是任意的,并且标签y通过一个未知半空间生成,这个未知半空间被Massart噪声破坏,其中噪声率η<1/2。这样一来,问题就变成了寻找到假设h,使得误分类误差(misclassification error)得以最小化。
在本篇论文之前,即使是对于析取类(the class of disjunctions),也没有一个有效的弱(分布独立)学习器模型。这种半空间(甚至析取类)的算法在各项研究中始终未能得到解决,从Sulon(1988)、Cohen(1997),一直到Avrim Blum的FoCS 2003教程,都在强调这个问题。
该论文研究了在训练数据中存在未知有界标签噪声情况下,二值分类线性阈值函数的学习问题。论文提出,通过导出一个有效的学习算法,能解决基本的、长期存在的开放问题。
本文在机器学习领域长期存在的开放性问题上取得了重大进展,即“在Massart噪声下有效地学习半空间问题进行了研究”。举一个简单的例子,在1%的Massart噪声下,即使是弱学习析取(weak learning disjunctions)(误差率49%)也是开放的。
本文展示了如何有效地实现与Massart噪声水平加epsilon(和运行时间poly(1/epsilon))相等的超额风险。算法方法的复杂,使得在技术上难以确定。最终目标是能够有效地获得等于epsilon(in-time poly(1/epsilon))的超额风险。
杰出新方向论文奖(Outstanding New Directions Paper Award)
获奖论文:
Uniform convergence may be unable to explain generalization in deep learning
论文链接:
https://papers.nips.cc/paper/9336-uniform-convergence-may-be-unable-to-explain-generalization-in-deep-learning.pdf
论文作者:Vaishnavh Nagarajan、J. Zico Kolter
机构:卡耐基梅隆大学、博世人工智能中心
为了解释过参数化深度网络的泛化行为,最近许多论文为发展了深度学习设定了泛化边界,所有边界的制定都基于一致收敛的基本学习理论技术。
现有边界的数值是巨大的,通过大量的实验,研究人员揭示了除了边界外更值得关注的一个方面:实践中,这些界限可以随着训练数据集的增大而增大。观察结果指出,研究人员给出超参数线性分类器和梯度下降(GD)训练的神经网络的例子,但其中一致收敛证明不能解释泛化——即使我们尽可能充分考虑GD{\em的隐式偏差。更准确地说,即使我们只考虑GD输出的一组分类器,它们的测试误差在我们的设置中小于一些小的值,我们也表明,对这组分类器应用(双边)一致收敛只会产生大于的空泛化保证。通过这些发现,我们对基于一致收敛的泛化界的能力提出了质疑,以提供一个完整的图片说明为什么过度参数化的深层网络泛化良好。
针对许多现有的(基于范数的)边界深度学习算法的性能否做到他们所声称的那样,本文给出了否定的回答。他们认为,当他们继续依赖于双边一致收敛机制(the machinery of two-sided uniform convergence)时,他们就不能做自己宣称的事情。
虽然这篇论文没有解决(也没有假装解决)深层神经网络的泛化问题,但如果用培根的话说,就是“指路路标”(instance of the fingerpost),能够指引研究团队去探索不同的可能性。
杰出论文荣誉提名奖(Honorable Mention Outstanding Paper Award)
获奖论文:
Nonparametric Density Estimation & Convergence Rates for GANs under Besov IPM Losses
论文链接:
https://papers.nips.cc/paper/9109-nonparametric-density-estimation-convergence-rates-for-gans-under-besov-ipm-losses
论文作者:AnanyaUppal、 ShashankSingh、BarnabásPóczos
机构:卡内基梅隆大学
该论文以严格的理论方法证明,在密度估计方面(就收敛速度而言),GAN的性能优于线性方法。利用先前关于小波收缩的结果,本文为GAN的表示能力提供了新的思路。具体来说,作者在大型函数类别(Besov空间)内的大型损失类别(所谓的积分概率度量)下,得出了用于非参数密度估计的最小极大收敛速度。审稿人认为,这篇论文将对从事非参数估计和GAN的研究人员产生重大影响。
获奖论文:
Fast and Accurate Least-Mean-Squares Solvers
论文链接:
https://papers.nips.cc/paper/9040-fast-and-accurate-least-mean-squares-solvers
论文作者:AlaaMaalouf、IbrahimJubran、DanFeldman
机构:海法大学计算机科学系机器人与大数据实验室
最小均方求解是许多机器学习算法的核心,从线性和Lasso回归到奇异值分解和弹性网络。本文展示了如何将它们的计算复杂度降低一到两个数量级,而又没有精度损失和改善的数值稳定性。 该方法依赖于Caratheodory定理,建立了一个核心集(d维的d2 + 1个点的集合)足以表征凸包中的所有n个点。该文的新颖之处在于提出的分治法,该算法可提取具有可承受的复杂性的核集(O(nd + d5 log n),前提是d << n)。审稿人强调了该方法的重要性,因为该方法的递归划分原理而使其易于推广,从业人员可以轻松实现该方法以改进现有算法,并且可以将其扩展到其他算法。
杰出新方向论文荣誉提名奖(Honorable Mention Outstanding New Directions Paper Award)
获奖论文:
Putting An End to End-to-End: Gradient-Isolated Learning of Representations
论文地址:
https://papers.nips.cc/paper/8568-putting-an-end-to-end-to-end-gradient-isolated-learning-of-representations
论文作者:Sindy Löwe、Peter O'Connor、Bastiaan Veeling
机构:阿姆斯特丹大学
论文提出了一种用于局部自我监督表示学习的新型深度学习方法,该方法不需要标签或端到端反向传播,而是利用数据中的自然顺序。受生物神经网络似乎在学习时不会反向传播全局误差信号的观察启发,我们将深度神经网络拆分为若干梯度独立模块。训练过程中,每个模块都利用 Oord 等人 [2018] 提出的 InfoNCE 边界最大限度地保留该模块的输入信息。尽管这是一种贪婪的训练方式,但我们证明了每个模块都可以在前一模块输出上得以提高,并且顶级模块创建的表示形式在音频和视频领域的下游分类任务上可产生极具竞争力的结果。 该提议使异步优化模块成为可能,从而允许非常深的神经网络在未标记数据集上进行大规模分布式训练。
评论:本文依据van Oord等人提出的自我监督的标准,重新讨论了深度网络的分层构建,特别是当前输入表征与时空输入表征之间的交互信息。感知网络中的这种自组织可能会在算法视角(回避端到端优化、其巨大的内存占用和计算问题)和认知视角(利用所谓的慢特性的概念,向更“生物学上合理的”学习过程发展)的结合方面提供了新的启发。
获奖论文:
Scene Representation Networks: Continuous 3D-Structure-Aware Neural Scene Representations
论文链接:
https://papers.nips.cc/paper/8396-scene-representation-networks-continuous-3d-structure-aware-neural-scene-representations
论文作者:Vincent Sitzmann 、Michael Zollhöfer、Gordon Wetzstein
机构:斯坦福大学
生成模型的无监督学习有着发现3D场景的丰富表征的潜力。虽然几何深度学习探索了场景几何的3D结构感知表示,但是这些模型通常需要明确的3D监督。新兴的神经场景表示只能通过摆姿势的2D图像进行训练,但是现有方法忽略了场景的三维结构。我们提出了场景表示网络(SRN),这是一种连续的3D结构感知场景表示,可对几何形状和外观进行编码。 SRN将场景表示为将世界坐标映射到局部场景属性的特征表示的连续函数。通过将图像形式表述为可区分的光线行进算法,可以仅从2D图像及其相机姿态端对端地训练SRN,而无需深度或形状。这种表达方式自然可以跨场景进行泛化,在此过程中学习强大的几何形状和外观先验。我们通过评估SRN的新颖视图合成,几次快照重建,关节形状和外观插值以及非监督性非刚性人脸模型来证明SRN的潜力。
本文介绍了CV中两种广泛方法的完美结合:多视图几何和深层表示。 具体来说,本文做出了三点贡献:1)每个像素的神经渲染器,它可以以3D感知的方式实现无分辨率的场景渲染; 2)可微分的光线行进算法,解决了沿着相机投射的光线寻找表面相交的难题。 3)潜在场景表示,它使用自动编码器和超网络来回归场景表示网络的参数。
经典论文奖(Test of Time Award)
论文名称:
Dual Averaging Method for Regularized Stochastic Learning and Online Optimization
论文链接:
https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/xiao10JMLR.pdf
论文作者:Lin Xiao,微软研究院的高级首席研究员,曾就读于北京航空航天大学和斯坦福大学。他目前的研究方向包括:大规模优化的理论和算法、机器学习和在线算法、并行和分布式计算。
本文认为正规化随机学习和在线优化问题,目标函数是两个凸的和术语:一个是损失函数的学习任务;另一个是一个简单的正则化项。研究中开发了Nesterov的双重平均方法的扩展,可以利用在线设置的正则化结构。在这些方法的每次迭代中,通过解决一个简单的最小化问题来调整学习变量,该问题涉及到损失函数过去所有次梯度的运行平均值和整个正则化项,而不仅仅是其次梯度。对于ℓ1的正则化,该方法能够有效的获得稀疏效果。研究还证明这些方法达到了随机学习标准的最优收敛速度。对于损失函数具有Lipschitz连续梯度的随机学习问题,研究者提出了对偶平均法的加速版。
该论文提出了一种全新在线算法——正则化双重平均算法(RDA),研究实验证明,RDA 对于ℓ1 正则化的稀疏在线学习非常有效。
经典论文奖的授予原则为:具有重要贡献、持久影响和广泛吸引力。官方设置了专门的委员会负责筛选对社会产生重大且持久影响的论文。Amir Globerson, Antoine Bordes, Francis Bach和Iain Murray承担参与到评选工作中。
委员会从18篇被接受的论文开始进行评选工作——到2009年NeurIPS,这些论文自发表以来被引用次数最多。然后,他们把搜索的重点放在那些已经产生了持续影响的论文上,即那些在最近的论文仍然被引用的论文。委员会还希望能够确定对该领域的准确贡献,使选定的论文脱颖而出;并确保该论文写得足够好,使当今社会的大多数人都能阅读。
未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”