PaperNotes(17)-图卷积神经网络GCN-笔记

图卷积神经网络GCN-笔记

1.卷积是什么
2.图卷积的源起
3.空域卷积
- 3.1消息传递网络MPNN
- 3.2 图采样与聚合GraphSage
4.频域卷积
5.图结构的序列化-Patch-SAN

从图(Graph)到图卷积(Graph Convolution)：漫谈图神经网络模型 (二)(https://www.cnblogs.com/SivilTaram/p/graph_neural_network_2.html)
该文详细写明了设涉及的参考材料，是一个很棒的综述性材料。本文仅作为阅读该系列文章的笔记，详情请参考原文。
参考博文2:稍微简略一些，建议看完《漫谈图神经网络模型 (二）》再去看此文，最终讲到不需要做特征值分解的GCN，有点神奇。
https://blog.csdn.net/qq_41727666/article/details/84622965

此前的图神经网络是基于循环结构，此篇主要介绍基于图卷积神经网络中的卷积操作。

1.卷积是什么

卷积本身是一种数学算子，对两个函数f和g操作，生成第三个函数h。
$h(t)=∫−∞∞f(τ)g(t−τ)dτh(t)=\int_{-\infty}^{\infty}f(\tau)g(t-\tau)d\tau$

即：新函数在t处的值=f 和g 关于t对称处函数值成绩的和。简单(抽象)地说就是一个加权求和的过程。了解加权求和的核心之后，可以建模出图像上的卷积操作。每一层的卷积核就是一个权重可学习的权值函数 $g(⋅)g(\cdot)$ 。

卷积核的权重可以依据任务确定：实现边缘提取laplacian算子、可依据损失函数学习特定特征提取的权重。

卷积操作的作用：通过结点和周围结点的信息，提取/聚合结点的特征。

小结：在机器学习领域，卷积的具体操作是加权求和，卷积的效果是特征聚合/提取。

2.图卷积的源起

图像卷积操作要求规整的数据结构，图上结点的邻居结点数量不固定。

衍生了两种特征聚合图结点的特征的操作：

把图转换成规整的结构–少数
处理变长邻居结点的卷积核–主流，主要焦点

图卷积又分为空域卷积和频域卷积：

空域卷积–卷积核直接在原图上卷积操作
频域卷积–图做了傅立叶变换之后再进行卷积操作

启发：一种最简单的无参卷积–将所有的邻居结点的隐藏状态加和，以更新当前结点的隐藏状态。

3.空域卷积

3.1消息传递网络MPNN

Massage Passing Neural Network–MPNN，空域卷积的形式化框架。他将空域卷积分解为两个过程：消息传递 $Ml(⋅)M_l(\cdot)$ 和状态更新 $Ul(⋅)U_l(\cdot)$
$hvl+1=Ul+1(hv,∑u∈ne[v]Ml+1(hvl,hul,xuv))h_v^{l+1}=U_{l+1}(h_v, \sum_{u\in ne[v]}M_{l+1}(h^l_v,h_u^l,x_{uv}))$
即本结点与邻居结点的信息通过 $Ml(⋅)M_l(\cdot)$ 形成消息，将所有的消息类和后，然后通过状态更新函数 $Ul(⋅)U_l(\cdot)$ 更新自己的隐状态。

GCN：每一层包含所有结点，每层的MU参数并不共享，层数由设计确定
GNN：按更新时间序列展开成，各层的MU参数共享，每一次更新所有的结点，按不动点理论，时间序列的长度不定。

MPNN主要缺陷：卷积操作针对整张图，所有结点都要进内存。大规模图上的全图卷积操作并不现实。

3.2 图采样与聚合GraphSage

采样部分结点进行学习，

每一层的消息传递和状态更新不涉及所有结点，随机采样若干个结点。
针对每个结点，随机选取固定数目的邻居结点，（1阶/2阶均可）
定义aggregate函数聚合邻居结点的信息
计算采样点处的损失

GraphSage状态更新公式：
$hvl+1=σ(Wl+1∗aggregate(hvl,{hul}),∀u∈ne[v])h_v^{l+1}=\sigma(W^{l+1}*aggregate(h_v^l,\{h_u^l\}),\forall u \in ne[v])$

GraphSage的设计重点在于aggregate函数的设计上。

4.频域卷积

(理解起来稍微有一点抽象)–利用傅立叶变换在图上的抽象来实现图上卷积操作。
傅立叶变换：将一个在空域上定义的函数分解成频域上的若干频率成分。
$f^(t)=∫f(x)exp⁡−2πixtdx\hat{f}(t)=\int f(x)\exp^{-2\pi ixt}dx$

傅立叶变换恒等式：两个函数在空域上的卷积的效果，等于两函数在频域上的乘积。
$(f∗g)(t)=F−1[F[f(t)]⊙F[g(t)]](f*g)(t)=F^{-1}[F[f(t)]\odot F[g(t)]]$

所以：可以利用傅立叶变换，得到频域表示后，进行哈达玛乘积，再傅立叶逆变换回去，即可得到空域卷积的结果。

傅立叶变换的作用：

去规律的噪点
加速卷积操作（卷积核比较小时没啥加速效果）

利用傅立叶变换实现图上卷积的核心点：如何找到变换算子 $exp⁡−2πixt\exp^{-2\pi ixt}$ 。

依据变换算子是拉普拉斯算子的特征函数这一重要特性，找到图数据拉普拉斯变换算子–拉普拉斯矩阵对应的特征向量。

(频域卷积的前提条件-图是无向图。)
图拉普拉斯矩阵的特征值分解：
$L=UΛUTL=U\Lambda U^T$
$U = (u_1, u_2, ... , u_n)$
$Λ=diag(λ1,λ2,...,λn)\Lambda = diag(\lambda_1, \lambda_2, ... , \lambda_n)$

图结点数据傅立叶变换: $(^f)(t)=∑n=1Nf(n)ut(n)\hat(f)(t) = \sum_{n=1}^Nf(n)u_t(n)$ 这个叠加的n是个什么东西？N个结点的信息

整张图的傅立叶变换: $f^=[f^(1)...f^(N)]=UTf\hat{f}= \left[ \begin{array}{ccc} \hat{f}(1)\\ ... \\ \hat{f}(N)\\ \end{array} \right]= U^Tf$
用神经网络建模卷积核傅立叶变化后的函数，用 $gθg_\theta$ 表示，那么频域卷积可以表示为：
$gθ⊙UTfg_\theta\odot U^Tf$

再通过傅立叶逆变换可以求得，最终图上的卷积。(逆变换算子为 $exp⁡2πixt\exp^{2\pi ixt}$ ，类比图中的逆变换算子为U)：
$o=(f∗g)θ=UgθUTfo=(f*g)_\theta=Ug_\theta U^Tf$

图上频域卷积的工作，都聚焦于 $gθg_\theta$ 的设计。频域卷积，隐状态更新涉及:

$l$ 层隐状态 $hl∈RN∗dlh^l\in R^{N*d_l}$ ，每一行为该层一个结点的隐藏状态：
$hl=[h11lh12l...h1dll...hN1lhN2l...hNdll]h^l= \left[ \begin{array}{ccc} h^l_{11}&h^l_{12}&...&h^l_{1d_l}\\ ... \\ h^l_{N1}&h^l_{N2}&...&h^l_{Nd_l}\\ \end{array} \right]$
傅立叶变换算子 $U^T$ ,每一行是拉普拉斯矩阵的一个特征向量:
$UT=[u11u12...u1N...uN1uN2...uNN]U^T= \left[ \begin{array}{ccc} u_{11}&u_{12}&...&u_{1N}\\ ... \\ u_{N1}&u_{N2}&...&u_{NN}\\ \end{array} \right]$
卷积核频域形式 $gθ:dl+1∗Ng_\theta:d_{l+1}*N$ ,参数化呗,还就是一个权重呀(没说明白怎么作用的呀,后面再看看吧)：
$gθ=[θ1...0.........0...θN]g_\theta= \left[ \begin{array}{ccc} \theta_1&...&0\\ ...&...&... \\ 0&...&\theta_N\\ \end{array} \right]$