【综述专栏】从微分几何和代数拓扑的视角来重新探讨图神经网络

8074c156dca3374128aac6cde2d9e37b.png

来源:知乎—努力努力再努力q

地址:https://zhuanlan.zhihu.com/p/435040892

在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。

a5af9536cc8ba327e92bcfebdaa5cbe2.png

声明:本文译自教授Michael Bronstein在Medium上发布的博客。欢迎大家评论、批评指正翻译中存在的任何问题。

现代机器学习往往忽视了微分几何和代数拓扑的相关知识,在本篇文章中,我会向读者们展示如何以这两个领域的相关知识为有力工具去重新解释图神经网络以及图神经网络模型的一些共同困境。

对称性,无论我们考虑它的广泛或者狭隘定义,它都是人类长久以来用于试图理解和创造秩序、优美和完美的一种理念。

Hermann Wey [1] 的这种富有诗意的描述强调了对称性在科学研究中的基石作用。Felix Klein 在1872年的“Erlangen Programme”[2] 通过利用对称性来描述了几何学的特征,这不仅仅是数学上的突破,统一了几何学领域而且还进一步导致了现代物理理论的发展,这些理论完全可以追溯到对称的第一原理[3]。在几何深度学习的发展中,类似的原理也出现在了机器学习中,几何深度学习是通过组不变性和等方差性推导出大多数流行神经网络架构的一般蓝图[4]。

847cc038ad0187948b5cf2305ccae9b8.png

图神经网络可以被视为几何深度学习蓝图的一个特例,其构建组成是具有对称群的域(在这种情况下特指具有置换群的图)、域上的信号(节点特征)和此类信号的群-等变函数(消息传递)。

几何深度学习蓝图可以应用于不同的领域,例如结构化网格、非结构化网格或图[5]。然而,虽然前两者有明确的连续型模拟对象(结构化网格可以被认为是欧几里德或更普遍的齐次空间如球体的离散化,而非结构化网格是二维流形的常见离散化),但对于图却没有明确的的连续模拟对象[6]。这种不公平有点令人不安,并驱动我们仔细研究用于图学习的连续模型。

71906b188186d55f7b470e87a18c8ac3.png

Grid (结构化网格)、Mesh (非结构化网格)和图是几何深度学习蓝图中处理的领域的示例。然而,虽然前两者具有连续类比(例如,结构化网格可以被视为欧几里得空间的离散化,而非结构化网格是二维流形或曲面的常见离散化),但没有针对图的此类直接连续类比。

图神经扩散----图神经网络 (GNNs) 通过在图上执行某种形式的消息传递来学习,特征在点与点之间依靠边进行传播。这种机制与图上的扩散过程有关,可以用偏微分方程 (PDE) 的形式表示,称为“扩散方程”。在最近的一篇论文 [7] 中,我们展示了这种具有非线性可学习扩散函数的 PDE 的离散化(称为“图神经扩散”或 GRAND)概括了一大类 GNN 架构,例如图注意力网络(GAT) [8]。

PDE 思维方式提供了多种优势,例如可以利用具有保证稳定性和收敛特性的高效数值求解器(例如隐式、多步、自适应和多重网格方案)。这些求解器中的一些在流行的 GNN 架构领域中没有直接的类比,可能有望带来新的有趣的图神经网络设计。由于我们考虑的扩散 PDE 可以被视为某些相关能量的梯度流 [9],因此此类架构可能至少比典型架构更易于理解。

同时,虽然 GRAND 模型在传统 GNN 的层位置提供连续时间,但方程的空间部分仍然是离散的并且依赖于输入图。重要的是,在这个扩散模型中,域(图)是固定的,并且在其上定义的一些属性(特征)会演变。

微分几何中常用的一个概念是几何流,它演化域本身的属性 [10]。这个想法在 1990 年代被我的博士导师 Ron Kimmel 和他的合著者在图像处理领域采纳 [11]。他们将图像建模为嵌入在联合位置和颜色空间中的流形,并通过最小化嵌入的谐波能量的偏微分方程对其进行演化 [12]。这种称为贝尔特拉米流的 PDE 具有各向同性非欧氏扩散的形式,并产生边缘保留的图像去噪。

我们将此范式应用于“Beltrami 神经扩散”(BLEND)框架 [13] 中的图形。图的节点现在以位置和特征坐标为特征,两者都是进化的,两者都决定了扩散特性。在这种心态下,图本身变成了一个辅助角色:它可以从位置坐标生成(例如作为 k 最近邻图)并在整个进化过程中重新连接。下图说明了这个同步进化过程:

951e2060f4209488b6b7d209b3e118bb.png

通过带重新布线的 Beltrami 流对 Cora 图的位置和特征分量的演变(颜色代表特征向量)。动画:James Rowbottom。注:原文中有个非常漂亮的GIF动图,由于尺寸过大超出知乎限制,请有心的同学们前往原文查看。如有解决方案也烦请告知,不胜感激。

最近的工作格外关注图神经网络的表达能力问题。消息传递 GNNs 等效于 Weisfeiler-Lehman 图同构测试 [14-16],这是一种尝试通过迭代颜色细化来确定两个图在结构上是否等效(“同构”)的经典方法。这个检验是必要但不充分的条件:事实上,Weisfeler-Lehman 可能认为一些非同构图是等价的。下图说明了传递 GNN 的消息“看到”了什么:两个突出显示的节点看起来无法区分,尽管图显然具有不同的结构:

3617580e1e03bd53958ff51be953592c.png

Weisfeiler-Lehman 检验无法区分的两个非同构图的示例。图改编自Sato [18]。

位置编码----解决此问题的常见方法是通过为节点分配一些表示图中节点的角色或“位置”的附加特征来“着色”节点。在 Transformers [17](它是在完整图 [4] 上运行的注意力 GNN 的特例)中普及,位置编码方法已成为增加图神经网络表达能力的常用方法。

2be54e91773dc2773782ab867d02ae7f.png

位置编码为图的节点分配额外的特征,允许消息传递获得比 Weisfeiler-Lehman 测试更高的表达能力。然而,在位置编码的多种可能选择中,没有“规范”的。图改编自Sato[18]。

也许最直接的方法是赋予每个节点一个随机特征[18];然而,虽然更具表现力,但这种方法的泛化能力较差(因为不可能在两个图中重现随机特征)。图拉普拉斯算子 [19] 的特征向量提供了图的邻域保留嵌入,并已成功用作位置编码。最后,我们在与 Giorgos Bouritsas 和 Fabrizio Frasca [20] 的论文中表明,图的子结构计数可以用作位置或“结构”编码的一种形式,可以证明它比基本的 Weisfeiler-Lehman 测试更强大。

然而,对于位置编码有多种选择,如何选择一个没有明确的方法,也没有明确的答案在哪种情况下哪种方法更有效。我相信像 BLEND 这样的几何流可以根据这个问题来解释:通过非欧式扩散演化图的位置坐标,位置编码适用于下游任务。因此,答案是“视情况而定”:最佳位置编码是手头数据和任务的函数。

高阶消息传递----表达性的另一种选择是停止从节点和边的角度考虑图。图是被称为细胞复合体的对象的例子,细胞复合体是代数拓扑领域的主要研究对象之一。在这个术语中,节点是 0-cells,边是 1-cells。不必止步于此:我们可以构建如下图所示的 2 个单元格(面),这使得我们之前示例中的两个图完全可区分:

b4c37cd9445c5c053fc9374aa5c32023.png

在最近与 Cristian Bodnar 和 Fabrizio Frasca [21-22] 合着的两篇论文中,我们表明有可能构建一种“提升变换”,用这种高阶单元来增强图,在其上可以执行更复杂的形式 的分层消息传递。这个方案可以证明比 Weisfeiler-Lehman 测试更具表现力,并且在计算化学中显示出有希望的结果,其中许多分子表现出更好地建模为细胞复合物而不是图形的结构。

GNNs 的另一个常见困境是“过度挤压”现象,或者由于输入图的某些结构特征(“瓶颈”)而导致消息传递无法有效传播信息[23]。过度挤压通常发生在体积呈指数增长的图中,例如小世界网络 [24] 以及依赖于远程信息的问题。换句话说,GNN 在其上运行的输入图并不总是对消息传递友好。

5b1f0b5feb6911414a4d12a44d8eb0a9.png

“小世界”图中快速增长的邻居数量通常是 GNN 中观察到的过度挤压现象的根源。

过度挤压、瓶颈和图重绘----根据经验,观察到将输入图与计算图解耦并允许在不同的图上传递消息有助于缓解问题;这种技术通常被称为“图重绘”。

公平地说,许多流行的 GNNs 架构都实现了某种形式的图重新布线,可以采用邻域采样(最初在 GraphSAGE 中提出以应对可扩展性 [25])或多跳过滤器 [26] 的形式。上面讨论的拓扑消息传递也可以看作是一种重新布线的形式,从而可以通过高阶单元“捷径”地在远距离节点之间传输信息。Alon 和 Yahav [23] 表明,即使像使用全连接图这样简单的方法也可能有助于改善图机器学习问题中的过度挤压。Klicpera 和合著者热情地宣称“扩散改进了图学习”,提出了 GNNs(称为“DIGL”)的通用预处理步骤,包括通过扩散过程对图的连通性进行去噪 [27]。总体而言,尽管进行了重要的实证研究,但过度挤压现象一直难以捉摸且理解不足。

在最近的一篇论文 [28] 中,我们表明导致过度挤压的瓶颈可归因于图的局部几何特性。具体来说,通过定义 Ricci 曲率的图类比,我们可以证明负弯曲的边是罪魁祸首。这种解释导致了类似于“反向 Ricci 流”的图形重新布线程序,该程序通过外科手术去除了有问题的边,并生成了一个更适合消息传递的图形,同时在结构上与输入的图形相似。

8b2e8fc5a1f90b8e4bc63137343cca55.png

使用基于扩散的方法(DIGL,中)和基于曲率的方法(Ricci,右)重新连接康奈尔图(左)的示例。基于曲率的方法更显着地减少了瓶颈,同时更忠实于原始图结构。

这些例子表明微分几何和代数拓扑为图机器学习中的重要和具有挑战性的问题带来了新的视角。在本系列的后续文章中,我将更详细地展示如何使用这些领域的工具来解决图神经网络的上述问题。第二部分将讨论代数拓扑如何提高 GNN 的表达能力。第三部分将处理几何扩散偏微分方程。第四部分将展示过度挤压现象如何与图曲率相关,并提供一种受 Ricci 流启发的图形重新布线的几何方法。

[1] H. Weyl, Symmetry (1952), Princeton University Press.

[2]F. Klein, Vergleichende Betrachtungen über neuere geometrische Forschungen (1872).

[3] J. Schwichtenberg, Physics from symmetry (2018), Springer.

[4] M. M. Bronstein, J. Bruna, T. Cohen, and P. Veličković, Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges (2021); see an accompanying post and the project website.

[5] In the above GDL proto-book, we call these the “5G” of Geometric Deep Learning.

[6] Geometric graphs naturally arise as discrete models of objects living in a continuous space. A prominent example is molecules, modeled as graphs where every node represents an atom with 3D spatial coordinates. On the other hand, it is possible to embed general graphs into a continuous space, thus (approximately) realising their connectivity using the metric structure of some space.

[7] B. Chamberlain, J. Rowbottom et al., GRAND: Graph Neural Diffusion (2021) ICML.

[8] P. Veličković et al., Graph Attention Networks (2018) ICLR.

[9] A gradient flow can be seen as a continuous analogy of gradient descent in variational problems. It arises from the optimality conditions (known in the calculus of variations as Euler-Lagrange equations) of a functional.

[10] Geometric flows are gradient flows of functionals defined on manifolds. Perhaps the most famous of them is the Ricci flow, used by Grigori Perelman in the proof of the century-old Poincaré conjecture. Ricci flow evolves the Riemannian metric of the manifold and is structurally similar to the diffusion equation (hence often, with gross simplification, presented as “diffusion of the metric”).

[11] N. Sochen et al., A general framework for low-level vision (1998) IEEE Trans. Image Processing 7(3):310–318 used a geometric flow minimising the embedding energy of a manifold as a model for image denoising. The resulting PDE is a linear non-euclidean diffusion equation ẋ = Δx (here Δ is the Laplace-Beltrami operator of the image represented as an embedded manifold), as opposed to the nonlinear diffusion ẋ = div(a(x)∇x) used earlier by P. Perona and J. Malik, Scale-space and edge detection using anisotropic diffusion (1990) PAMI 12(7):629–639.

[12] Beltrami flow minimises a functional known in string theory as the Polyakov action. In the Euclidean case, it reduces to the classical Dirichlet energy.

[13] B. P. Chamberlain et al., Beltrami Flow and Neural Diffusion on Graphs (2021) NeurIPS.

[14] B. Weisfeiler, A. Lehman, The reduction of a graph to canonical form and the algebra which appears therein (1968) Nauchno-Technicheskaya Informatsia 2(9):12–16.

[15] K. Xu et al., How powerful are graph neural networks? (2019) ICLR.

[16] C. Morris et al., Weisfeiler and Leman go neural: Higher-order graph neural networks (2019) AAAI.

[17] A. Vaswani et al., Attention is all you need (2017) NIPS.

[18] R. Sato, A survey on the expressive power of graph neural networks (2020). arXiv: 2003.04078. Uses random features for positional encoding.

[19] V. P. Dwivedi et al. Benchmarking graph neural networks (2020). arXiv: 2003.00982. Uses Laplacian eigenvectors as positional encoding, though the idea of spectral graph embedding is way older and has been widely used in nonlinear dimensionality reduction such as the classical work of M. Belkin and P. Niyogi, Laplacian eigenmaps and spectral techniques for embedding and clustering (2001), NIPS.

[20] G. Bouritsas et al., Improving graph neural network expressivity via subgraph isomorphism counting (2020). arXiv:2006.09252. Uses graph substructure counts as positional encoding; see an accompanying post.

[21] C. Bodnar, F. Frasca, et al., Weisfeiler and Lehman go topological: Message Passing Simplicial Networks (2021) ICML.

[22] C. Bodnar, F. Frasca, et al., Weisfeiler and Lehman go cellular: CW Networks (2021) NeurIPS.

[23] U. Alon and E. Yahav, On the bottleneck of graph neural networks and its practical implications (2020). arXiv:2006.05205

[24] In such graphs, the size of neighbours up to k-hops away grows very fast with k, resulting in “too many neighbours” that have to send their updates to a node.

[25] W. Hamilton et al., Inductive representation learning on large graphs (2017) NIPS.

[26] Frasca et al., SIGN: Scalable Inception Graph Neural Networks (2020). ICML workshop on Graph Representation Learning and Beyond. Uses multihop filters; see an accompanying post.

[27] J. Klicpera et al., Diffusion improves graph learning (2019) NeurIPS. Rewires the graph by computing Personalised Page Rank (PPR) node embedding and then computing a k-NN graph in the embedding space.

[28] J. Topping, F. Di Giovanni, et al., Understanding over-squashing and bottlenecks on graphs via curvature (2021).

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

f2037843e7cbdfbb3886d625a9278d2a.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482583.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2021-07-27-jeesite学习笔记

2021年7月30日 https://blog.csdn.net/weixin_43886319/article/details/102668518 日了狗 2021年7月29日 sqlJenkins充吧 第一天 参考博文 安装jdk https://blog.csdn.net/qq_42815754/article/details/82968464 有关linux环境变量 https://blog.csdn.net/ljheee/articl…

elasticsearch-1

单实例安装 1、官网下载tar压缩包 https://www.elastic.co/downloads/elasticsearch 2、将下载好的压缩包elasticsearch-5.5.2.tar.gz上传到linux服务器,并解压缩 tar -vxf elasticsearch-5.5.2.tar.gz 3、cd进入到elasticsearch-5.5.2目录中,启动ela…

清华博士后用10分钟讲解AlphaCode背后的技术原理,原来程序员不是那么容易被取代的!...

来源:AI科技评论不久前,DeepMind 的团队发布了一个可以自动生成竞赛级代码的人工智能系统——AlphaCode,号称「媲美普通程序员」,一经发表就在国内外的AI圈里引起了巨大轰动。 -论文地址:https://storage.googleapis.c…

css基础选择器

文章目录css简介css语法规范css代码风格:css选择器的作用css基础选择器标签选择器:类选择器多类名选择器id选择器:id选择器和类选择器的区别:通配符选择器:选择器总结css简介 ​ CSS 是层叠样式表 ( Cascading Style …

深度学习模型模拟大脑地形图,有助于回答大脑不同部分如何协同工作

来源:ScienceAI编辑:凯霞大脑中处理视觉信息的部分——颞下(IT)皮层——受损可能是毁灭性的,尤其是对成年人而言。那些受影响的人可能会失去阅读能力(一种称为失读症的疾病)或辨认面孔&#xff…

深度学习再登Science:万物皆可做神经网络处理器,你甚至可以用锅碗瓢盆

来源:机器学习研究组订阅想象一下,你周围的任何东西,比如一个煎锅、一个玻璃镇纸,都可以用来当成神经网络的中央处理器,那是什么感觉?神经网络简单来说,是一种模仿大脑执行复杂任务的只能系统&a…

css目标

第一天 第二天

Gotta Catch Em All!——三元环计数

传送: https://vjudge.net/problem/Kattis-gottacatchemall 前置知识: 三元环计数 https://www.cnblogs.com/Dance-Of-Faith/p/9759794.html 思路: 首先去重边,记每个点的度数为n,三元环个数为m,答案为(∑…

【前瞻】机器人领域十项前沿技术

来源:工业互联网观察 机器人大讲堂近些年来,机器人行业发展迅速,机器人被广泛应用于各个领域尤其是工业领域,不难看出其巨大潜力。与此同时,我们也必须认识到机器人行业的蓬勃发展,离不开先进的科研进步和…

day27 网络编程一

网络编程 基础 一 软件开发架构 # c/s架构(client/server) c:客户端 / s:服务端 # b/s架构(browser/server) b:浏览器 / s:服务器 ps:bs架构本质也是cs架构 手机端看上去cs架构比较火,实际上bs已经在崛起,微信支付宝都在做一件事:统一接口,手机端之后肯定也是bs比较火 未来应用…

不止摩尔定律,计算领域值得学习的定律还有哪些?

来源:新智元当下,计算机领域最受欢迎的两大定律是:摩尔定律和梅特卡夫定律。摩尔定律,是以Intel(英特尔)联合创始人Gordon Moore(戈登•摩尔)为命名,摩尔定律预言,芯片上…

世界一流大学如何建设人工智能学科

来源:光明日报作者:李锋亮 庞雅然 人工智能人才培养是变革核心人工智能、基因工程、纳米科学并列为21世纪三大尖端技术,是工业革命4.0的变革核心。其中,人工智能涉及广泛的知识领域,包括技术体系内的数学基础、技术基础…

机器学习获量子加速!物理学家与计算科学家「自然联姻」

来源:新智元AI和量子计算的碰撞,会产生什么神奇的火花?IBM团队的一项研究表明,在机器学习任务上,已经找到了量子计算能够加速数据分类的证据,远超传统算法。未来,基于量子的机器学习加速器可能就…

day28 socket网络编程

一 socket 套接字 二 粘包问题 一 socket 套接字 1.1 为何学习socket一定要先学习互联网协议: 1.首先:网络编程目标就是教会你如何基于socket编程,来开发一款自己的C/S架构软件 2.其次:C/S架构的软件(软件属于应用层…

2022年值得关注的8个人工智能趋势

来源:AI前线作者:Michael Spencer译者:Sambodhi策划:凌敏1. AI-on-5G2022 年,工业 AI 和 AI-on-5G 物联网应用将会成为主流。想象一下,当我们以元宇宙为目标的时候,我们对物理空间的升级方式同样…

我国科学家首次揭示“时空”记忆在猕猴大脑中表征的几何结构

来源:央视新闻客户端作者:帅俊全 2月11日,国际学术期刊《科学》以长文形式发表了题为《序列工作记忆在猕猴前额叶表征的几何结构》的研究论文。近日,中国科学院脑科学与智能技术卓越创新中心与国内多家单位合作,发现神…

智源学术顾问David Harel:经典建模与AI的联姻,如何攻破机器学习的可解释性?| 大师讲座...

来源:智源社区讲者:David Harel整理:熊宇轩编辑:李梦佳导读:设想一下,现在我们要建造一种工厂机器人,能移动物体、组装零件、抬起物体。机器学习专家自然会采用深度学习、神经网络一类的AI技术&…

重磅突发!全球首富40颗卫星遭摧毁

来源:中国基金报在上周最新发射的49颗卫星中,有40颗卫星遭地磁风暴“摧毁”——全球首富、特斯拉CEO马斯克旗下SpaceX公司的星链计划遭遇挫折。此外,美国国家航空航天局(NASA)、亚马逊均表示,对于SpaceX星链计划还要新部署约3万颗…

扩散模型就是自动编码器!DeepMind研究学者提出新观点并论证

来源:明敏 发自 凹非寺量子位 | 公众号 QbitAI由于在图像生成效果上可以与GAN媲美,扩散模型最近成为了AI界关注的焦点。谷歌、OpenAI过去一年都提出了自家的扩散模型,效果也都非常惊艳。另一边,剑桥大学的学者David Krueger提出&a…

2019已悄然过半

2019过半,不知不觉已进入秋天,今年上海夏天格外凉爽,没感觉热就结束了。上半年总体感觉归于平淡,但是平平淡淡才是真嘛。年初制定的个人计划基本完成,关键是难度系数都不高,下半年有两项重要考核正在等着&a…