GAT-GRAPH ATTENTION NETWORKS（论文笔记）

CCF等级：A

发布时间：2018年

代码位置

25年4月21日交

一、简介

二、原理

1.注意力系数

2.归一化

3.特征组合与非线性变换

4.多头注意力

4.1特征拼接操作

4.2平均池化操作

三、实验性能

四、结论和未来工作

一、简介

图注意力网络（GATs），可以在图结构数据上操作的神经网络架构。在GAT模型中，节点能够在它们的邻域特征上进行“关注”，从而隐式地为邻域中的不同节点指定不同的权重。简单理解为节点能够知道关联的每个节点对自己的影响权重是多少。

二、原理

首先将节点转化为向量，然后通过自我注意机制计算每个节点对其邻居的重要性权重（即注意力系数），并通过softmax函数进行归一化。接下来，利用这些归一化的注意力系数对邻近节点的特征加权求和，得到每个节点的新特征表示，并通常应用非线性激活函数进一步处理。为了增强模型的表现力和稳定性，GAT可以采用多头注意力机制独立执行上述过程多次，并将结果拼接或平均，最终生成用于分类或其他任务的节点特征表示。

1.注意力系数

先将节点转化为向量，节点 $h_i$ 的向量为 $\overrightarrow{h_i}$ 。（这一部分不重要，就不展开讲解）

$e_{ij} = a(W\overrightarrow{h_i},W\overrightarrow{h_j})$

$\overrightarrow{h_i}$ 和 $\overrightarrow{h_j}$ 分别是节点 $i$ 和节点 $j$ 的特征向量。
$W$ 是一个权重矩阵，用于线性变换这些特征向量。
$a(\cdot , \cdot )$ 是一个注意力机制函数，用于计算两个变换后的特征向量之间的相似度或相关性。

使用权重矩阵 $W$ 对节点进行线性变换,再通过注意力机制函数 $a(\cdot , \cdot )$ 计算这两个变换后特征向量之间的注意力分数 $e_{ij}$ 。

节点 $i$ 对其邻居节点 $j$ 的注意力系数 $a_{ij}$

注意： $e_{ij}$ 只衡量了节点 $i$ 关注节点 $j$ 的程度，而不是同时考虑 $j$ 对 $i$ 关注程度。换句话说 $e_{ij}$ 和 $e_{ji}$ 是独立计算的，它们分别代表了从节点 $i$ 到节点 $j$ 和从节点 $j$ 到节点 $i$ 的注意力权重，这允许模型对每个方向的重要性进行不同的赋值。

2.归一化

$a_{ij} = softmax_j(e_{ij}) = \frac{\exp (e_{ij})}{\sum_{k \in N_i} \exp (e_{ik})}$

$\exp(e_{ij})$ 是注意力分数 $e_{ij}$ 的指数函数值。
$\sum_{k \in N_i} \exp(e_{ik})$ 是节点 $i$ 所有邻居节点 $k$ 的注意力分数的指数函数值之和。
$N-i$ 表示节点 $i$ 的邻居节点集合。

通过 $softmax$ 函数，每个节点 $i$ 对其邻居节点 $j$ 的注意力权重 $a_{ij}$ 被归一化到 $[0,1]$ 区间内，并且所有邻居节点的注意力权重之和为 1。归一化不仅提高了模型性能，还增强了模型的鲁棒性和解释性。

计算注意力系数和归一化的公式可以合并为

$\alpha_{ij} = \frac{\exp\left(\text{LeakyReLU}\left(\tilde{\mathbf{a}}^T [\mathbf{W} \vec{h}_i \| \mathbf{W} \vec{h}_j]\right)\right)}{\sum_{k \in N_i} \exp\left(\text{LeakyReLU}\left(\tilde{\mathbf{a}}^T [\mathbf{W} \vec{h}_i \| \mathbf{W} \vec{h}_k]\right)\right)}$

3.特征组合与非线性变换

利用标准化后的注意力系数 $a_{ij}$ ，对邻近节点 $j$ 的特征进行加权求和，从而得到每个节点的新特征表示。

$\overrightarrow{h'_i} = \sigma (\sum_{j \in N_i} \alpha_{ij}W\overrightarrow{h_j})$

$\overrightarrow{h'_i}$ 是节点 $i$ 更新后的特征向量。
$\alpha _{ij}$ 表示经过 $softmax$ 归一化后，邻居节点 $j$ 对节点 $i$ 的注意力权重。
$W$ 是一个可学习的权重矩阵，用于对输入特征进行线性变换。
$N_i$ 表示节点 $i$ 的邻居集合。
$\sigma$ 是一个非线性激活函数，例如 $ReLU$ 或 $LeakyReLU$ ，用于引入非线性。

通过上述步骤，图注意力网络（GATs）能够动态地调整每个节点对其邻居节点的关注度，并据此更新自身的特征表示，以捕捉更丰富的局部结构信息。

4.多头注意力

通过为每个注意力头使用不同的权重矩阵，模型可以捕捉到不同类型的特征关系。

类似于卷积神经网络中使用不同的卷积核计算。

多头注意力机制类似于多尺度特征提取，不同尺度的特征通过不同的卷积核提取。

多头注意力机制来计算节点 $\overrightarrow{h_i}$ 的新特征表示 $\overrightarrow{h'i}$

4.1特征拼接操作

$\vec{h}_i' = \parallel_{k=1}^{K} \sigma\left( \sum_{j \in N_i} \alpha_{ij}^k \mathbf{W}^k \vec{h}_j \right)$

$\parallel_{k=1}^{K}$ 表示将 $K$ 个注意力头的结果进行拼接，形成最终的特征表示。
$W^k$ 是第 $k$ 个注意力头对应的权重矩阵，用于对邻居节点 $j$ 的特征向量 $\overrightarrow{h_j}$ 进行线性变换。
$\sum_{j \in N_i} \alpha_{ij}^k \mathbf{W}^k \vec{h}_j$ 表示对所有邻居节点 $j$ 的特征向量进行加权求和。这里的 $N_i$ 是节点 $i$ 的邻居节点集合。