推荐指数: #paper/⭐⭐⭐ #paper/💡
发表于:AAAI21
简称:FAGCL
问题提出背景:
GCN常常使用低频信息,但是在现实中,不仅低频信息重要,高频信息页重要
如上图,随着类间链接的增加,低频信号的增强开始变弱,高频信号的增强开始增加.
作者贡献:
- 不仅低频信号重要,高频信号也重要
- 我们提出了FAGCN,不需要知道网络类型就可以自适应传播低频高频信号
模型
先验知识:
L = I n − D − 1 / 2 A D − 1 / 2 , L = I_n - D^{-1/2}AD^{-1/2}, L=In−D−1/2AD−1/2,
在这里, λ l ∈ [ 0 , 2 ] \lambda_{l}\in[0,2] λl∈[0,2], L = U Λ U T L = U\Lambda U^{T} L=UΛUT, Λ = d i a g ( [ λ 1 , λ 2 , ⋯ , λ n ] ) \Lambda=diag([\lambda_1,\lambda_2,\cdots,\lambda_n]) Λ=diag([λ1,λ2,⋯,λn])
ChebNet的卷积核: g θ = ∑ k = 0 K − 1 α k Λ k g_\theta=\sum_{k=0}^{K-1}\alpha_k\Lambda^k gθ=∑k=0K−1αkΛk, g θ = I − Λ g_{\theta}=I-\Lambda gθ=I−Λ
高频滤波器和低频滤波器
如下,我们设计了高通滤波器 F L F_{L} FL和低通滤波器 F H F_{H} FH
F L = ε I + D − 1 / 2 A D − 1 / 2 = ( ε + 1 ) I − L , F H = ε I − D − 1 / 2 A D − 1 / 2 = ( ε − 1 ) I + L \begin{align} \mathcal{F}_L=\varepsilon I+D^{-1/2}AD^{-1/2}=(\varepsilon+1)I-L,\\\mathcal{F}_H=\varepsilon I-D^{-1/2}AD^{-1/2}=(\varepsilon-1)I+L \end{align} FL=εI+D−1/2AD−1/2=(ε+1)I−L,FH=εI−D−1/2AD−1/2=(ε−1)I+L
在这里, ε \varepsilon ε是超参,范围为[0,1]
如果我们使用 F L 和 F h F_{L}和F_{h} FL和Fh替代卷积核f,我们可以得到如下:
F L ∗ G x = U [ ( ε + 1 ) I − Λ ] U ⊤ x = F L ⋅ x , F H ∗ G x = U [ ( ε − 1 ) I + Λ ] U ⊤ x = F H ⋅ x . \begin{align} \mathcal{F}_L*_Gx=U[(\varepsilon+1)I-\Lambda]U^\top x=\mathcal{F}_L\cdot x,\\\mathcal{F}_H*_Gx=U[(\varepsilon-1)I+\Lambda]U^\top x=\mathcal{F}_H\cdot x. \end{align} FL∗Gx=U[(ε+1)I−Λ]U⊤x=FL⋅x,FH∗Gx=U[(ε−1)I+Λ]U⊤x=FH⋅x.
由于一阶滤波器: g θ ( λ i ) = ε + 1 − λ i g_\theta(\lambda_i)=\varepsilon+1-\lambda_i gθ(λi)=ε+1−λi(图2a)会存在负的幅度,我们为了摆脱这种情况,我们采用了图2b,图2d的二阶滤波器
低通高通分析
F L = ε I + D − 1 / 2 A D − 1 / 2 \mathcal{F}_L=\varepsilon I+D^{-1/2}AD^{-1/2} FL=εI+D−1/2AD−1/2
F H = ε I − D − 1 / 2 A D − 1 / 2 \mathcal{F}_H=\varepsilon I-D^{-1/2}AD^{-1/2} FH=εI−D−1/2AD−1/2如上, F L ⋅ x F_{L}\cdot x FL⋅x表示节点和邻居特征在光谱区域的和,高频信号 F H ⋅ x F_{H}\cdot x FH⋅x代表节点和邻居特征之间的不同
为了整合高频和低频信号,一个很自然的想法是利用注意力机制去学习高频和低频信号
h ~ i = α i j L ( F L ⋅ H ) i + α i j H ( F H ⋅ H ) i = ε h i + ∑ j ∈ N i α i j L − α i j H d i d j h j , \tilde{\mathrm{h}}_i=\alpha_{ij}^L(\mathcal{F}_L\cdot\mathbf{H})_i+\alpha_{ij}^H(\mathcal{F}_H\cdot\mathbf{H})_i=\varepsilon\mathbf{h}_i+\sum_{j\in\mathcal{N}_i}\frac{\alpha_{ij}^L-\alpha_{ij}^H}{\sqrt{d_id_j}}\mathbf{h}_j, h~i=αijL(FL⋅H)i+αijH(FH⋅H)i=εhi+j∈Ni∑didjαijL−αijHhj,
为了简化,我们令:
α i j L + α i j H = 1 \alpha_{ij}^{L}+\alpha_{ij}^{H}=1 αijL+αijH=1
α i j G = α i j L − α i j H \alpha_{ij}^{G}=\alpha_{ij}^{L}-\alpha_{ij}^{H} αijG=αijL−αijH
remark
理解1:当 α i j G > 0 , i . e . , α i j L > α i j H \alpha_{ij}^{G} > 0, i.e., \alpha_{ij}^{L} > \alpha_{ij}^{H} αijG>0,i.e.,αijL>αijH,这表示低频信号是主要的信号.
理解2: α i j G > 0 \alpha_{ij}^{G}>0 αijG>0表示节点和邻居特征, h i + h j \mathrm{h}_i+\mathrm{h}_j hi+hj. α i j G < 0 \alpha_{ij}^G<0 αijG<0表示节点之间的区别.
为了自适应的设置 α i j G \alpha_{ij}^G αijG,我们考虑节点和它的邻居
α i j G = tanh ( g ⊤ [ h i ∥ h j ] ) \alpha_{ij}^G=\tanh\left(\mathrm{g}^\top\left[\mathrm{h}_i\parallel\mathrm{h}_j\right]\right) αijG=tanh(g⊤[hi∥hj]) g ∈ R 2 F \mathbf{g}\in\mathbb{R}^{2F} g∈R2F可以被视为一个共享的卷积核.tan函数限 α i j G \alpha_{ij}^G αijG在[-1,1]内.初次之外,我们仅仅考虑节点和它的一阶邻居N的相关系数
计算 α i j G \alpha_{ij}^G αijG之后,我们就可以聚合邻居的表征:
h i ′ = ε h i + ∑ j ∈ N i α i j G d i d j h j , \mathbf{h}_i^{^{\prime}}=\varepsilon\mathbf{h}_i+\sum_{j\in\mathcal{N}_i}\frac{\alpha_{ij}^G}{\sqrt{d_id_j}}\mathbf{h}_j, hi′=εhi+j∈Ni∑didjαijGhj,
整个网络的结构
h i ( 0 ) = ϕ ( W 1 h i ) ∈ R F ′ × 1 h i ( l ) = ε h i ( 0 ) + ∑ j ∈ N i α i j G d i d j h j ( l − 1 ) ∈ R F ′ × 1 h o u t = W 2 h i ( L ) ∈ R K × 1 , \begin{aligned}&\mathbf{h}_i^{(0)}=\phi(\mathbf{W}_1\mathbf{h}_i)&&\in\mathbb{R}^{F^{\prime}\times1}\\&\mathbf{h}_i^{(l)}=\varepsilon\mathbf{h}_i^{(0)}+\sum_{j\in\mathcal{N}_i}\frac{\alpha_{ij}^G}{\sqrt{d_id_j}}\mathbf{h}_j^{(l-1)}&&\in\mathbb{R}^{F^{\prime}\times1}\\&\mathbf{h}_{out}=\mathbf{W}_2\mathbf{h}_i^{(L)}&&\in\mathbb{R}^{K\times1},\end{aligned} hi(0)=ϕ(W1hi)hi(l)=εhi(0)+j∈Ni∑didjαijGhj(l−1)hout=W2hi(L)∈RF′×1∈RF′×1∈RK×1,
W 1 ∈ R F × F ′ , W 2 ∈ R F ′ × K \mathbf{W}_1\in\mathbb{R}^{F\times F^{\prime}},\mathbf{W}_2\in\mathbb{R}^{F^{\prime}\times K} W1∈RF×F′,W2∈RF′×K是权重矩阵.K代表类的个数
我们对FAGCN进行分析,当 α i j = 1 \alpha_{ij}=1 αij=1,整个网络就是GCN网络.当我们使用正则化的 α i j \alpha_{ij} αij以及softmax函数,整个网络就是一个GAT网络.但是,GCN和GAT的 α i j \alpha_{ij} αij都大于0, 更倾向于聚合低频信号.FAGCN可以更好的去聚合低频和高频信号.
除此之外,我们还可以推断出,低通过滤可以让表征更相似,低通可以让表征更加区分
可视化边相似度
如上图,我们可以得到如下结论:Cora,Citeseer,Pubmed节点所有的边都是正的权重.然而,根据6b,6c可以展示:大量的类内边是负权重,这表明当类内边和类间边区分不清时,高频信号发挥更重要的作用.而对于actor数据集,他是个异类,类间和类内边没有明显区分.
总结
写的真好.这篇提出了一个自适应系数,自适应的学习高通滤波器权重和低通滤波器权重,更好的聚合各种信息.