非空集合 G G G上定义的二元运算如果满足某些性质,就构成了一个群。常见的群有:
- O ( n ) O(n) O(n): n n n维正交群,包含旋转和反演操作,反演可以理解为推理或者映射。
- S O ( n ) SO(n) SO(n): n n n维特殊正交群,只包含旋转操作。
- E ( n ) E(n) E(n): n n n维欧几里得群,包含旋转反演和平移操作。
- S O ( n ) SO(n) SO(n): n n n维特殊欧几里得群,只包含旋转和平移操作。
对于群 G G G中的任意变换,如果有: ϕ ( ρ i n p u t ( g ) x ) = ρ o u t p u t ( g ) ϕ ( x ) , ∀ g ∈ G \phi(\rho_{input}(g)x)=\rho_{output}(g)\phi(x),\thinspace\thinspace\forall g\in G ϕ(ρinput(g)x)=ρoutput(g)ϕ(x),∀g∈G则称函数 ϕ \phi ϕ在群空间 G G G上具有等变性。其中 ρ i n p u t \rho_{input} ρinput和 ρ o u t p u t \rho_{output} ρoutput分别代表输入和输出空间的群表示。
例如在 O ( 3 ) O(3) O(3)群中,假设输入与输出空间使用同一套坐标系,如果等变性成立则意味着 ϕ ( O x ) = O ϕ ( x ) \phi(Ox)=O\phi(x) ϕ(Ox)=Oϕ(x);
又例如对于一个平移向量 t ∈ R n t\in\mathbb{R}^{n} t∈Rn,同一坐标系下的平移等变性意味着 ϕ ( x − t ) = ϕ ( x ) − t \phi(x-t)=\phi(x)-t ϕ(x−t)=ϕ(x)−t;
特殊的,如果 ρ o u t p u t ( g ) \rho_{output}(g) ρoutput(g)为单位元,则得到不变性的定义: ϕ ( ρ i n p u t ( g ) x ) = ϕ ( x ) , ∀ g ∈ G \phi(\rho_{input}(g)x)=\phi(x),\thinspace\thinspace\forall g\in G ϕ(ρinput(g)x)=ϕ(x),∀g∈G因此,不变性是一种特殊的等变性。
以化学物理领域为例,不变性和等变性各有用途:
- 分子的能量预测应该偏向于使用不变性,包括预测配体和蛋白质口袋的相互作用也更倾向于使用不变性(比如几何相互作用GNN预测3D-PLA)。
- 在预测蛋白质结合位点时偏向于使用等变性,这种任务类似视觉领域的分割和检测,它们需要等变性来受益。
在GNN中实现等变性通常有三种方式:
- 不可约表示:一个群的线性表示可以被表示为一系列不可约表示的和,利用这一性质可以实现等变,比如SE(3)-Transformer。
- 正则表达:将图卷积滤波器定义为群的函数,比如LieConv,它定义了李群上的卷积操作,从而可以实现任意李群上的等变网络。
- 标量法:将几何向量转化为具有不变性的标量,然后将其施加在原始的向量上,从而获得等变表示。比如EGNN,即E(n) Equivariant Graph Neural Networks,通过使用向量的标量化来实现 E ( 3 ) E(3) E(3)等变性,EGNN结构简单高效,已经被用作很多任务的backbone。
下面主要引入EGNN,模型的输入包括 M M M个节点的嵌入向量 h l = { h 0 l , . . . , h M − 1 l } \textbf{h}^{l}=\left\{\textbf{h}_{0}^{l},...,\textbf{h}_{M-1}^{l}\right\} hl={h0l,...,hM−1l},每个节点的坐标向量 x l = { x 0 l , . . . , x M − 1 l } \textbf{x}^{l}=\left\{\textbf{x}_{0}^{l},...,\textbf{x}_{M-1}^{l}\right\} xl={x0l,...,xM−1l}和边的特征向量 e i j e_{ij} eij。EGNN基于如下的消息传递和特征聚合来实现GNN运算: m i j = ϕ e ( h i l , h j l , ∣ ∣ x i l − x j l ∣ ∣ 2 , e i j ) x i l + 1 = x i l + ∑ j ( x i l − x j l ) ϕ x ( m i j ) m i = ∑ j ∈ N ( i ) m i j h i l + 1 = ϕ i ( h i l , m i ) \textbf{m}_{ij}=\phi_{e}(\textbf{h}_{i}^{l},\textbf{h}_{j}^{l},||\textbf{x}_{i}^{l}-\textbf{x}_{j}^{l}||^{2},e_{ij})\\ \textbf{x}_{i}^{l+1}=\textbf{x}_{i}^{l}+\sum_{j}(\textbf{x}_{i}^{l}-\textbf{x}_{j}^{l})\phi_{x}(\textbf{m}_{ij})\\ \textbf{m}_{i}=\sum_{j\in N(i)}\textbf{m}_{ij}\\ \textbf{h}_{i}^{l+1}=\phi_{i}(\textbf{h}_{i}^{l},\textbf{m}_{i}) mij=ϕe(hil,hjl,∣∣xil−xjl∣∣2,eij)xil+1=xil+j∑(xil−xjl)ϕx(mij)mi=j∈N(i)∑mijhil+1=ϕi(hil,mi)证明等变性也很简单,首先证明消息 m i j \textbf{m}_{ij} mij具有不变性(具体参考几何相互作用GNN预测3D-PLA): m i j = ϕ e ( h i l , h j l , ∣ ∣ Q x i l + g − [ Q x j l + g ] ∣ ∣ 2 , e i j ) = ϕ e ( h i l , h j l , ∣ ∣ x i l − x j l ∣ ∣ 2 , e i j ) \textbf{m}_{ij}=\phi_{e}(\textbf{h}_{i}^{l},\textbf{h}_{j}^{l},||Q\textbf{x}_{i}^{l}+g-[Q\textbf{x}_{j}^{l}+g]||^{2},e_{ij})=\phi_{e}(\textbf{h}_{i}^{l},\textbf{h}_{j}^{l},||\textbf{x}_{i}^{l}-\textbf{x}_{j}^{l}||^{2},e_{ij}) mij=ϕe(hil,hjl,∣∣Qxil+g−[Qxjl+g]∣∣2,eij)=ϕe(hil,hjl,∣∣xil−xjl∣∣2,eij)基于此可证明 x \textbf{x} x具有等变性: Q x i l + g + ∑ j ( Q x i l + g − Q x j l − g ) ϕ x ( m i j ) = Q x i l + g + Q ∑ j ( x i l − x j l ) ϕ x ( m i j ) = Q ( x i l + ∑ j ( x i l − x j l ) ϕ x ( m i j ) ) + g = Q x i l + 1 + g Q\textbf{x}_{i}^{l}+g+\sum_{j}(Q\textbf{x}_{i}^{l}+g-Q\textbf{x}_{j}^{l}-g)\phi_{x}(\textbf{m}_{ij})\\=Q\textbf{x}_{i}^{l}+g+Q\sum_{j}(\textbf{x}_{i}^{l}-\textbf{x}_{j}^{l})\phi_{x}(\textbf{m}_{ij})\\=Q(\textbf{x}_{i}^{l}+\sum_{j}(\textbf{x}_{i}^{l}-\textbf{x}_{j}^{l})\phi_{x}(\textbf{m}_{ij}))+g\\=Q\textbf{x}_{i}^{l+1}+g Qxil+g+j∑(Qxil+g−Qxjl−g)ϕx(mij)=Qxil+g+Qj∑(xil−xjl)ϕx(mij)=Q(xil+j∑(xil−xjl)ϕx(mij))+g=Qxil+1+g另外,可以发现,对于性质类型的特征 h \textbf{h} h是具有不变性的。