【intro】图注意力网络(GAT)

论文阅读

https://arxiv.org/pdf/1710.10903

abstract

GAT,作用于图结构数据,采用masked self-attention layers来弥补之前图卷积或类似图卷积方法的缺点。通过堆叠layers,让节点可以添加其邻居的特征,我们就可以给不同的邻居节点不同的权重,而这一步操作不需要使用任何昂贵的矩阵计算(比如求逆矩阵),也不需要依赖对图结构的了解。

可以很容易地应用于inductive,transductive 问题(归纳、直推)。

introduction

CNN:grid-like structure, efficiently reuse their local filters,  with learnable parameters, by applying them to all  the input positions. 

但是很多任务的数据并不能表示成grid-like structure。

->GNN->两种方案:spectral approaches,non-spectral approaches(谱方法、非谱方法)

  1. spectral approaches
    采用图的谱表示方法,已经被成功应用于node classification。依赖于laplacian eigenbasis(拉普拉斯特征基),而laplacian eigenbasis又依赖于图结构,因此在一个图结构上训练的模型并不能直接应用于另一种结构的图。
  2. non-spectral approaches
    定义一个算子,使其能够在不同大小的邻域上工作并且保证CNN的权值共享。

->注意力机制:允许不同大小的输入,专注于输入中最相关的部分来做决策。->通过邻居,找到节点的hidden representation

GAT architecture

graph attentional layer

输入是一系列节点特征:

h = \{ \vec{h_1}, \vec{h_2}, \cdot \cdot \cdot, \vec{h_N} \}, \vec{h_i}\in \mathbb{R}^F

这里N表示节点的数量,F表示每个节点的特征的数量

而这一层会产生一系列新的节点特征(这里特征的数量可能不同了):

{h}' = \{ \vec{​{h_1}'}, \vec{​{h_2}'},\cdot \cdot \cdot , \vec{​{h_N}'} \}, \vec{​{h_i}'} \in\mathbb{R}^{​{F}'}

为了获得足够的表达能力将输入的特征转换到更高阶的特征,我们至少需要一个可学习的线性变换->因此出事步骤是一个共享的线性变换,将一个权重矩阵W \in \mathbb{R}^{​{F}'\times F}应用于所有的节点。紧接着,我们对节点使用self-attention:a:\mathbb{R}^{​{F}'} \times \mathbb{R}^{F} \rightarrow \mathbb{R}

计算注意力系数:e_{ij}=a(W\vec{h_i}, W\vec{h_j})

这表明了节点j的特征对节点i的重要程度。->这就允许了每个节点都可以影响其他的节点,从而放弃所有的结构信息。我们通过masked attention(对于节点j \in N_i只计算e_{ij},这里N_i表示节点i在图中的一些邻居->对于对于属于i的邻居的j,只计算ij之间的关系)将其引入图结构。这里邻居指的是节点i的一阶邻居,并且包含了节点i。为了让不同节点之间的系数更好比较,做normalization(归一化)

\alpha _{ij} = softmax_j(e_{ij}) = \frac{exp(e_{ij})}{\sum_{k \in N_i}^{}exp(e_{ik})}

这里的注意力机制a是一个单层的前馈神经网络,用一个权重向量\vec{a} \in \mathbb{R}^{2{F}'}进行参数化,之后使用LeakyReLU做非线性。->注意力机制的系数可以表示为:

\alpha _{ij} = \frac{exp(LeakyReLU(\vec{a}^T [W\vec{h}_i || W\vec{h}_j] ))}{\sum_{k \in N_i}^{} exp(LeakyReLU(\vec{a}^T [W\vec{h}_i || W\vec{h}_k] ) )) }

这里T表示转置,||表示连接操作

一旦得到归一化的注意力系数,酒可以用于计算计算与之对应的特征的线性组合。为了能够作为每个节点最终的输出特征(在使用一个潜在的非线性\sigma之后):

\vec{​{h_i}'} = \sigma (\sum_{j \in N_i}^{} \alpha_{ij} W \vec{h}_j )

为了稳定自我注意的学习过程,使用multi-head。K个独立注意机制执行表达式\vec{​{h_i}'} = \sigma (\sum_{j \in N_i}^{} \alpha_{ij} W \vec{h}_j )的变换,然后将它们的特征连接起来,得到如下输出特征表示:

这里||表示连接,\alpha _{ij} ^k表示由第k个注意力机制(a^k)和于输入的线性变换相关的权重矩阵W^k计算的归一化注意力参数。最后返回的输出{h}'中的每个节点包含K{F}'特征(而不是{F}')。

如果我们在网络的最后一层使用multi-head attention,这时,连接就显得不再好用了,这时我们采用的是取平均,并在之后应用非线性:

\vec{​{h_i}'} = \sigma\left ( \frac{1}{K} \sum_{k=1}^{K} \sum_{j \in N_i}^{} \alpha_{ij}^k W^k \vec{h_j} \right )

如上图所示右侧为多头图注意力层(multi-head graph attentional layer)

comparisons to related work

优点

1. 计算高效:self-attention layer上的操作可以在所有边上并行执行,并且对于输出特真多计算可以在节点间并行计算。并且不需要昂贵的特征分解或者类似的昂贵的矩阵计算。

2. 与GCN相比,隐式允许在同一片邻域中赋不同的权重->model capacity↗️↗️

3. 共享。因此,它不依赖于对全局图结构或所有节点(特征)的预先访问(这是许多先前技术的限制)。->不需要图是无向图,并且可以适用于归纳式学习,将模型应用于训练时没有见过的图。

4. 不假设有任何排序

5. 使用节点特征进行相似性计算,而不是节点的结构属性(这将假设预先知道图形结构)。

补充

论文后面的部分就是实验了。

这里摘录一些博客的内容

向往的GAT(图注意力网络的原理、实现及计算复杂度) - 知乎

与GCN的联系与区别

无独有偶,我们可以发现本质上而言:GCN与GAT都是将邻居顶点的特征聚合到中心顶点上(一种aggregate运算),利用graph上的local stationary学习新的顶点特征表达。不同的是GCN利用了拉普拉斯矩阵,GAT利用attention系数。一定程度上而言,GAT会更强,因为 顶点特征之间的相关性被更好地融入到模型中。

为什么GAT适用于有向图?

我认为最根本的原因是GAT的运算方式是逐顶点的运算(node-wise),这一点可从公式(1)—公式(3)中很明显地看出。每一次运算都需要循环遍历图上的所有顶点来完成。逐顶点运算意味着,摆脱了拉普利矩阵的束缚,使得有向图问题迎刃而解。

为什么GAT适用于inductive任务?

GAT中重要的学习参数是N_ia(\cdot ),因为上述的逐顶点运算方式,这两个参数仅与1.1节阐述的顶点特征相关,与图的结构毫无关系。所以测试任务中改变图的结构,对于GAT影响并不大,只需要改变 N_i,重新计算即可。

与此相反的是,GCN是一种全图的计算方式,一次计算就更新全图的节点特征。学习的参数很大程度与图结构相关,这使得GCN在inductive任务上遇到困境。

下面谈谈我对这一段的理解吧。

首先,第一个GCN和GAT都利用了图的结构关系,区别在于,GCN中节点i的邻域中节点的重要性是图结构确认时就已经定下的,并不是需要学习的参数。在前面的学习中也能看出,一个节点j对节点i越专心,就意味着这个节点天然会分到更大的权重。这一特点同样会影响应用与有向图,假设一个场景,我在微博上关注了一个明星A,并且我很专一,只关注明星A,并且只和明星A互动,如果laplacian,那我就会分到超大的权重,这显然是不合理的。

N_i表示的是节点i的邻域(实际上是节点i的一部分邻居节点),a表示的是一个映射。

我们回顾一下前面的内容

e_{ij}=a(W\vec{h_i}, W\vec{h_j})

这是在干什么呢?->对于顶点i,计算其邻居与其之间的相似系数

深入理解图注意力机制 - 知乎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/7988.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

redis秒杀(PHP版本)

前提提要 今天产品端提了个需求,院校组要求借调我去帮忙,因为我以前做过商城,现在他们需求做一个积分商城,需要做一个秒杀模块,结果毫无意外的我被借调过去了,刚好可以复习一下以前的知识,现在介…

如何更好地使用Kafka? - 事先预防篇

要确保Kafka在使用过程中的稳定性,需要从kafka在业务中的使用周期进行依次保障。主要可以分为:事先预防(通过规范的使用、开发,预防问题产生)、运行时监控(保障集群稳定,出问题能及时发现&#…

Cargo - 构建 rust项目、管理依赖包

文章目录 关于 Cargo构建项目创建工程编译运行buildclean 管理依赖添加依赖updatecheck计时 manual rust 安装可参考:https://blog.csdn.net/lovechris00/article/details/124808034 关于 Cargo Cargo 官方文档 : https://doc.rust-lang.org/cargo/crat…

文本转图表的AI工具-Chart-GPT

Chart-GPT Chart-GPT一款基于 GPT 实现的开源工具,可在几秒内,将文本快速转换为各种图表。用户只需在输入字段中输入数据说明和所需的图表类型,Chart-GPT的后台生成器即可建出多种类型的图表,包括条形图、折线图、组合图、散点图、…

「Dasha and Photos」Solution

简述题意 给定一个 n m n \times m nm 的方格,每个格子里有一个小写英文字母。 现在你有 k k k 个 n m n \times m nm 的方格,这些方格都是给定方格的基础上将左上角为 ( a i , b i ) (a_i,b_i) (ai​,bi​),右下角为 ( c i , d i ) …

【ITK配准】第二期 多模态配准

很高兴在雪易的CSDN遇见你 VTK技术爱好者 QQ:870202403 公众号:VTK忠粉 前言 本文分享ITK配准中的多模态配准,希望对各位小伙伴有所帮助! 感谢各位小伙伴的点赞+关注,小易会继续努力分享,一起进步! 你的点赞就是我的动力(^U^)ノ~YO 图像配准中最…

[力扣题解]40. 组合总和 II

题目&#xff1a;40. 组合总和 II 思路 回溯法 &#xff08;回溯还是很难的&#xff0c;递归不好理解&#xff0c;看着代码很少吧。。。&#xff09; 代码 class Solution { public:vector<vector<int>> result;vector<int> path;void function(vector&l…

2024-05-08 精神分析-对损失和挫败的强烈易感性-分析

摘要: 对损失的强烈的易感性&#xff0c;会在遭受损失或者挫败的时候&#xff0c;表现的极其敏感&#xff0c;这个过程主要是在创业的过程中更加强烈的表现并带来巨大的影响。必须要对其进行彻底的分析&#xff0c;并保持对此行为的长期的警惕。 所谓前事不忘后事之师&#x…

【LAMMPS学习】八、基础知识(5.11)磁自旋

8. 基础知识 此部分描述了如何使用 LAMMPS 为用户和开发人员执行各种任务。术语表页面还列出了 MD 术语&#xff0c;以及相应 LAMMPS 手册页的链接。 LAMMPS 源代码分发的 examples 目录中包含的示例输入脚本以及示例脚本页面上突出显示的示例输入脚本还展示了如何设置和运行各…

FFmpeg 音视频处理工具三剑客(ffmpeg、ffprobe、ffplay)

【导读】FFmpeg 是一个完整的跨平台音视频解决方案&#xff0c;它可以用于音频和视频的转码、转封装、转推流、录制、流化处理等应用场景。FFmpeg 在音视频领域享有盛誉&#xff0c;号称音视频界的瑞士军刀。同时&#xff0c;FFmpeg 有三大利器是我们应该清楚的&#xff0c;它们…

web 扫描漏洞:HTML form without CSRF protection 问题解决

一.扫描工具&#xff1a;acunetix 二.问题描述 该漏洞主要是利用用户登录网站中的session 或 cookie 信息&#xff0c;采用诱导链接&#xff0c;获取用户浏览器中的相关session 或 cookie &#xff0c;发送恶意请求或重复攻击&#xff1b; 三.解决方法 1.在提交浏览器表单信…

2024年第九届数维杯数学建模B题思路分享

文章目录 1 赛题思路2 比赛日期和时间3 竞赛信息4 建模常见问题类型4.1 分类问题4.2 优化问题4.3 预测问题4.4 评价问题 5 建模资料 1 赛题思路 (赛题出来以后第一时间在CSDN分享) https://blog.csdn.net/dc_sinor?typeblog 2 比赛日期和时间 报名截止时间&#xff1a;2024…

Ansible-playbook剧本

目录 一、Ansible playbook简介 2.1 playbook格式 2.2 playbook组成部分 二、playbook示例 2.1 yaml文件编写 2.2 运行playbook 2.3 定义、引用变量 2.4 指定远程主机sudo切换用户 ​编辑 2.5 when条件判断 ​编辑​编辑 2.6 迭代 ​编辑 ​编辑 三、总结 Ansib…

2023黑马头条.微服务项目.跟学笔记(五)

2023黑马头条.微服务项目.跟学笔记 五 延迟任务精准发布文章 1.文章定时发布2.延迟任务概述 2.1 什么是延迟任务2.2 技术对比 2.2.1 DelayQueue2.2.2 RabbitMQ实现延迟任务2.2.3 redis实现3.redis实现延迟任务4.延迟任务服务实现 4.1 搭建heima-leadnews-schedule模块4.2 数据库…

2024 概率论和数理统计/专业考试/本科考研/论文/重点公式考点汇总

## 列表http://www.deepnlp.org/equation/category/statistics ## 均匀分布http://www.deepnlp.org/equation/uniform-distribution ## t-分布http://www.deepnlp.org/equation/student-t-distribution ## 伯努利分布http://www.deepnlp.org/equation/bernoulli-distributio…

RoundTrip测试RTT时延

网络时间同步&#xff08;NTP&#xff09;原理 网络时钟同步的工作过程如下&#xff1a; Device A发送一个NTP报文给Device B&#xff0c;该报文带有它离开Device A时的时间戳&#xff0c;该时间戳为10:00:00am&#xff08;T1&#xff09;。 当此NTP报文到达Device B时&#…

简单了解泛型

基本数据类型和对应的包装类 在Java中, 基本数据类型不是继承自Object, 为了在泛型代码中可以支持基本类型, Java给每个基本类型都对应了一个包装类型. 简单来说就是让基本数据类型也能面向对象.基本数据类型可以使用很多方法, 这就必须让它变成类. 基本数据类型对定的包装类…

如何O(1)判断一个数是不是x的幂

如何 O(1) 判断一个数是不是 x 的幂 (x 有限大) 数据在 32 位整数范围内 2 的幂 231. 2 的幂 - 力扣&#xff08;LeetCode&#xff09; 给你一个整数 n&#xff0c;请你判断该整数是否是 2 的幂次方。如果是&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。…

sql注入练习

1.什么是SQL注入 SQL注入是比较常见的网络攻击方式之一&#xff0c;它不是利用操作系统的BUG来实现攻击&#xff0c;而是针对程序员编写时的疏忽&#xff0c;通过SQL语句&#xff0c;实现无账号登录&#xff0c;甚至篡改数据库 2.sql注入原理 攻击者注入一段包含注释符的SQL语…

能将图片转为WebP格式的WebP Server Go

本文完成于 2023 年 11 月 之前老苏介绍过 webp2jpg-online&#xff0c;可以将 webp 格式的图片&#xff0c;转为 jpg 等&#xff0c;今天介绍的 WebP Server Go 是将 jpg 等转为 webp 格式 文章传送门&#xff1a;多功能图片转换器webp2jpg-online 什么是 WebP ? WebP 它是由…