ICLR最高分论文揭秘模型泛化,GNN是潜力股

文 | Jerry Qiu
编 | 小轶

我们都知道,人类在很多任务上都可以很好地完成“外推”,例如:

啊不——我是说——例如,我们学会两位数的加减乘除后,就可以轻松将其推广至任意大整数的四则运算:

从数学的角度来讲,外推其实是与内插并列的一个概念。想必大家对多项式插值、样条插值等插值方法不陌生。通过已知的、离散的数据点,在范围内推求新数据点,即称为内插(Interpolation)。而如果我们在已知数据在范围外推求新数据点,则是外推(Extrapolate)

在通用人工智能被广泛讨论的今天,我们不禁发问,神经网络能像人类一样完成外推吗?即神经网络在训练分布的支撑集[1]之外,会如何表现?前辈们对于这一问题已经进行了一定的探究。然而令人困惑的是,他们对神经网络的外推给出了截然不同的结论。

早期的工作表明,多层感知机(Multi-layer Perceptron,MLP)在学习简单的多项式函数时不能很好地外推[2,3]。然而近期的⼀些工作则表明,在部分具有挑战性的算法任务上(例如求解数学方程、预测物理系统的时间演化),图神经网络(Graph Neural Network,GNN)具有很好的泛化能力,能够将训练结果推广至比训练集更大的图上[4,5,6]

多层感知机与图神经网络截然相反的表现引人深思:什么样的网络,在什么样的条件下才会具有较强的外推能力呢?

今天给大家分享的这篇论文便研究了这一问题。该文在ICLR'21的review阶段获得了最高的平均得分。审稿人们纷纷赞其见解之深刻,在神经网络外推能力的分析上迈出了重要的一步。

论文题目

How Neural Networks Extrapolate: From Feedforward to Graph Neural Networks

论文链接:

https://arxiv.org/pdf/2009.11848.pdf

Arxiv访问慢的小伙伴也可以在 【夕小瑶的卖萌屋】订阅号后台回复关键词 【1231】 下载论文PDF~

论文概述

为了解释为何不同神经网络的外推能力不尽相同,论文作者详细探究了使用梯度下降训练的神经网络是如何外推的。直觉上来说,神经网络在训练分布之外的表现是任意的、不可预料的[7],但事实上,如果网络用梯度下降算法进行训练,则它的外推能力是有规律可循的

在我们评价神经网络的外推能力前,我们需要先确定一个指标来衡量它。为此,论文作者定义了外推误差这一概念。一个模型的外推误差越小,则其外推能力越强。作者基于此讨论了MLP和GNN的具备外推能力的条件。

外推误差

在机器学习中,我们通常都希望在训练集上学习一个函数,训练目标是使满足。注意,这里是训练分布的支撑集,且只是的一个子集。

然而由于种种因素的限制,神经网络一般难以学到完美符合要求的函数,而只能得出一个与存在差距的函数,从而我们定义外推误差如下:

不难看出,外推误差就是函数在训练分布支撑集之外的误差上界

MLP

多层感知机是结构最简单的神经网络,也是众多复杂网络架构(例如GNN)的组成部分。

收敛至线性

作者发现,使用ReLU激活函数、过参数化的MLP在训练分布外,总是沿着从原点出发的各个方向都收敛为线性函数,如下图所示。

图中灰色部分是MLP需要学习的非线性函数,蓝色部分是MLP在训练分布内学得的结果,黑色部分是MLP在训练分布外的表现

作者也从理论上给出了双层ReLU MLP收敛速率的证明,发现这种收敛常常出现在靠近训练数据的位置,这表明ReLU MLPs在大多数非线性任务上的外推能力都较弱

MLPs外推误差小的条件

同时作者也发现,当目标函数为线性函数时,MLPs的外推表现较好。然而MLPs能否成功地进行外推,还取决于训练数据的几何形状。如果训练分布的支撑集包括了各个方向(例如包含原点的超立方体),则MLPs的外推误差较小。这一条件听起来可能无法理解,不妨一睹作者给出的数学定义:

Suppose the target function is for some . Suppose the training data is sampled from a distribution whose support contains subset , where for any non-zero , there exists so that .

即MLPs 外推误差小的条件是:训练数据是从支撑集中采样得到的,它包含一个子集,满足:对于任意的维向量,存在正数使得属于,我们不难发现,显然这个需要包含原点。

作者给出了MLP学习线性目标函数的示例(灰色部分是MLP需要学习的线性函数,蓝色部分是训练分布,黑色部分是MLP在训练分布外的表现):

由于图上已经说得比较清楚,笔者尝试换个角度给出说明:假定数据分布定义在一个矩形区域内(蓝色部分),左一的原点在矩形区域内,此时训练数据自然是包含从原点出发的各个方向的,可以看出这时MLP外推效果较好;左二的原点在矩形的边上,那么从原点出发的红色箭头的反方向就没有训练数据,MLP外推开始出现了一些偏差;右二的原点在矩形的角上,MLP外推的偏差也较大;右一中,数据分布定义在一条经过原点的线上,使得训练分布之外的部分有明显的外推误差。

GNN

图神经网络在多项非线性算法任务上表现出不错的外推能力,例如图算法、符号数学等。作者基于前文关于MLP的结论,继续探究GNN的外推效果。

作者猜想,如果编码适当的非线性至GNN的架构和输入表示中,让MLP组件仅学习线性函数,那么GNN就能在动态规划任务中顺利外推,获得较小的外推误差。

编码非线性至架构

以最短路问题为例,著名的的Bellman-Ford算法中的更新式如下:

而使用最小值聚合(min-aggregation)的GNN架构的节点表示如下:

不难发现以上两式十分相似。因此, 如果我们让GNN中的MLP模块学习线性函数,则GNN就可以模拟Bellman-Ford算法。由于我们已知MLP在线性任务上外推能力较强,因此使用最小值聚合的GNN也可以在这个最短路问题上具备较强的外推能力。

编码非线性至输入表示

对于某些任务,改变输入表示,会更容易达到好的外推能力。在这种情况下,我们可以将目标函数分解嵌入(Embedding)和一个模型外推效果较好的目标函数,使得,就可以有助于外推。

作者在动态规划中的多体问题上验证了这一观点(多体问题:预测多个物体在引力作用下随时间的演化情况)。作者对输入表示进行了转换,使得MLP只需学习线性函数。与转换前MLP需要学习非线性函数相比,平均绝对百分比误差(Mean Average Percentage Error)大大下降。

总结

本论文是麻省理工CSAIL实验室研究生Keyulu Xu继ICLR 2020论文 What can Neural Networks Reason About? 之后的又一力作。论文兼具严谨的理论推导及有力的实验验证,甚至有一位审稿人直言40页的附录太长没看。

作为一篇数理性较强的研究,它的行文也做到了较高的流畅性和易读性。适逢GNN大红大紫之时,作者高屋建瓴,对GNN的外推能力提出了新的观点,对社区做出了可观的贡献,确实令人钦佩。

最后,愿大家都能在学术领域中勇闯无人之境!

Boldly go where no one has gone before. ——《Star Trek》

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

 

[1]Support (mathematics): https://en.wikipedia.org/wiki/Support_(mathematics)

[2]Barnard E, Wessels L F A. Extrapolation and interpolation in neural network classifiers[J]. IEEE Control Systems Magazine, 1992, 12(5): 50-53.

[3]Haley P J, Soloway D. Extrapolation limitations of multilayer feedforward neural networks[C]// IJCNN International Joint Conference on Neural Networks. IEEE, 1992, 4: 25-30.

[4]Battaglia P, Pascanu R, Lai M, et al. Interaction networks for learning about objects, relations and physics[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. 2016: 4509-4517.

[5]Veličković P, Ying R, Padovano M, et al. Neural Execution of Graph Algorithms[C]//International Conference on Learning Representations. 2019.

[6] Lample G, Charton F. Deep Learning For Symbolic Mathematics[C]//International Conference on Learning Representations. 2019.

[7]Zhang C, Bengio S, Hardt M, et al. Understanding deep learning requires rethinking generalization[J]. arXiv preprint arXiv:1611.03530, 2016.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479405.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android系统原生应用解析之桌面闹钟及相关原理应用之时钟任务的应用(一)

前段时间我一个朋友在面试回来问我:那个公司要5天之内完成一个项目,功能包括每天早上6点开始执行定时任务,大批量图片上传,大批量数据库同步。我心想,后两个功能还好说,可就是每天早上6点开始执行的这种定时…

配送交付时间轻量级预估实践

1. 背景 可能很多同学都不知道,从打开美团App点一份外卖开始,然后在半小时内就可以从骑手小哥手中拿到温热的饭菜,这中间涉及的环节有多么复杂。而美团配送技术团队的核心任务,就是将每天来自祖国各地的数千万份订单,迅…

论文浅尝 | 面向 cQA 的跨语言问题检索方法

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识库问答。来源:WWW2019链接:https://dl.acm.org/citation.cfm?doid3308558.3313502本文提出了一种面向cQA的跨语言问题检索方法,旨在对于给定的问题检索…

揭秘Python并发编程——协程

原文链接:https://baijiahao.baidu.com/s?id1649450510185145678&wfrspider&forpc Python并发编程一直是进阶当中不可跨越的一道坎,其中包括进程、线程、协程,今天我们就来聊一聊协程。协程的定义很简单,从头到尾只有一条…

LeetCode 804. 唯一摩尔斯密码词(哈希+set)

文章目录1. 题目2. 解题1. 题目 国际摩尔斯密码定义一种标准编码方式,将每个字母对应于一个由一系列点和短线组成的字符串, 比如: “a” 对应 “.-”, “b” 对应 “-…”, “c” 对应 “-.-.”, 等等。 为了方便,所有26个英文字母对应摩尔…

计算机基础晦涩难懂?那你是没看他的图解文章!

这年头,写计算机基础的人好之又少,能把枯燥无味的计算机基础写的通俗易懂的人更是少,而就有一位叫「小林coding」的公众号横空出世,真的是一股清流,他酷爱「图解」计算机基础文章,真正做到了图解&#xff0…

Litho在美团动态化方案MTFlexbox中的实践

1. MTFlexbox MTFlexbox是美团内部应用的非常成熟的一种跨平台动态化解决方案,它遵循了CSS3中提出的Flexbox规范来抹平多平台的差异。MTFlexbox适用于重展示、轻交互的业务场景,与现有HTML、React Native、Weex等跨平台方案相比,MTFlexbox具备…

服务器部署docker

服务器部署docker docker简介## 可以把docker是一个容器,可以让开发者将自己的项目部署到这个容器中,最常用的场景是将自己的后端项目部署到服务器的时候会将其打入docker镜像中,可以理解为一个开销更小的虚拟机。 docker好处## 可以轻易地让…

LeetCode 461. 汉明距离(异或^ 与)

文章目录1. 题目2. 解题1. 题目 两个整数之间的汉明距离指的是这两个数字对应二进制位不同的位置的数目。 给出两个整数 x 和 y&#xff0c;计算它们之间的汉明距离。 注意&#xff1a; 0 ≤ x, y < 2^31.示例:输入: x 1, y 4输出: 2解释: 1 (0 0 0 1) 4 (0 1 0 0)…

论文浅尝 | NumNet: 一种带有数学推理的机器阅读理解模型

论文笔记整理&#xff1a;吴林娟。来源&#xff1a;EMNLP2019论文链接&#xff1a;https://arxiv.org/pdf/1910.06701.pdf开放源码&#xff1a;https://github.com/ranqiu92/NumNet概述本文提出了一个将数学推理融入机器阅读理解的模型——NumNet&#xff0c;其中利用数字感知的…

2021,你好哇!发个小红包可好~

小伙伴们&#xff0c;大家新年快乐哇&#xff5e;凡是过往皆序章&#xff0c;所有将来皆可盼。2020磨难太多&#xff0c;就祝大家2021多吃不胖叭&#xff01;原创即正义&#xff01;2020年对卖萌屋来说是非常不平凡的一年。这一年的时间里&#xff0c;卖萌屋坚守内容创作的初心…

降低软件复杂性一般原则和方法

一、前言 斯坦福教授、Tcl语言发明者John Ousterhout 的著作《A Philosophy of Software Design》[1]&#xff0c;自出版以来&#xff0c;好评如潮。按照IT图书出版的惯例&#xff0c;如果冠名为“实践”&#xff0c;书中内容关注的是某项技术的细节和技巧&#xff1b;冠名为“…

LeetCode 657. 机器人能否返回原点

文章目录1. 题目2. 解题1. 题目 在二维平面上&#xff0c;有一个机器人从原点 (0, 0) 开始。给出它的移动顺序&#xff0c;判断这个机器人在完成移动后是否在 (0, 0) 处结束。 移动顺序由字符串表示。字符 move[i] 表示其第 i 次移动。机器人的有效动作有 R&#xff08;右&am…

论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

本文转载自公众号&#xff1a;PaperWeekly。作者&#xff1a;王文博&#xff0c;哈尔滨工程大学硕士生&#xff0c;研究方向为知识图谱、表示学习。动机在本篇文章之前&#xff0c;跨语言知识图谱对齐研究仅依赖于从单语知识图谱结构信息中获得的实体嵌入向量。并且大多数研究将…

谷歌大改Transformer注意力,速度、内存利用率都提上去了-新的 Transformer 架构——Performer

原文地址&#xff1a;https://www.jiqizhixin.com/articles/2020-10-28-10 Transformer 有着巨大的内存和算力需求&#xff0c;因为它构造了一个注意力矩阵&#xff0c;需求与输入呈平方关系。谷歌大脑 Krzysztof Choromanski 等人最近提出的 Performer 模型因为随机正正交特性…

一文搞懂 PyTorch 内部机制

文 | ArchWalker译者序&#xff1a;这篇博文是一篇非常新的介绍PyTorch内部机制的文章&#xff0c;作者Edward Z Yang来自于Stanford大学&#xff0c;是PyTorch的核心开发者之一。文章中介绍了如何阅读PyTorch源码和扩展PyTorch的技巧。目前讲PyTorch底层的文章不多&#xff0c…

美团外卖商家端视频探索之旅

背景 美团外卖至今已迅猛发展了六年&#xff0c;随着外卖业务量级与日俱增&#xff0c;单一的文字和图片已无法满足商家的需求&#xff0c;商家迫切需要更丰富的商品描述手段吸引用户&#xff0c;增加流量&#xff0c;进而提高下单转化率和下单量。商品视频的引入&#xff0c;在…

Android官方开发文档Training系列课程中文版:构建第一款安卓应用之工程创建

这节课你将会学到&#xff1a; - 使用Android Studio创建一个工程。 - 使用命令行工具创建一个工程。 你也应该阅读&#xff1a; - 安装SDK - 管理工程 安卓项目包含了包括源代码在内的所有文件。Android SDK工具使我们很轻松的创建一个包含一系列默认目录和文件的的安卓工…

LeetCode 1051. 高度检查器

文章目录1. 题目2. 解题1. 题目 学校在拍年度纪念照时&#xff0c;一般要求学生按照 非递减 的高度顺序排列。 请你返回至少有多少个学生没有站在正确位置数量。该人数指的是&#xff1a;能让所有学生以 非递减 高度排列的必要移动人数。 示例&#xff1a;输入&#xff1a;[…

论文浅尝 | 基于动态记忆的原型网络进行元学习以实现少样本事件探测

本文转载自公众号&#xff1a;浙大KG。 论文题目&#xff1a;Meta-Learning with Dynamic-Memory-Based Prototypical Network for Few-Shot Event Detection本文作者&#xff1a;邓淑敏&#xff0c;浙江大学在读博士&#xff0c;研究方向为低资源条件下知识图谱自动化构建关键…