RDGCN翻译
Relation-Aware Entity Alignment for Heterogeneous Knowledge Graphs
面向异质知识图谱的关系感知实体对齐
阅读时间:2024.03.24
领域:知识图谱,知识对齐
作者:Yuting Wu等人 PKU
出处:IJCAI
Abstract
实体对齐是从不同的知识图(KGs)中链接具有相同真实世界实体的任务,最近被基于嵌入的方法所主导。这种方法通过学习KG表示来工作,以便可以通过测量实体嵌入之间的相似性来执行实体对齐。虽然有希望,但该领域的现有工作往往不能很好地捕获多关系KGs中常见的复杂关系信息,留下了很大的改进空间。本文提出了一种新的关系感知双图卷积网络(RDGCN),通过知识图与其对偶关系副本之间的密切交互来融合关系信息,并进一步捕获邻域结构以学习更好的实体表示。在三个真实的跨语言数据集上的实验表明,我们的方法通过学习更好的KG表示,比最先进的对齐方法提供了更好和更健壮的结果。
1 Introduction
知识图谱(KGs)是各种自然语言处理应用的构建块,如问答[Zhang等,2018]、文本分类[Wang等,2016]、推荐系统[Zhang等,2016]等。KGs中的知识通常被组织成 ⟨ h e a d e n t i t y , r e l a t i o n , t a i l e n t i t y ⟩ \langle head entity, relation, tail entity \rangle ⟨headentity,relation,tailentity⟩的三元组。在为实体和关系构建分布式表示的知识表示学习方面已经有了相当多的工作。典型的作品是所谓的跨家族方法,如TransE[Bordes等人,2013],TransH[Wang等人,2014]和PTransE[Lin等人,2015],它们将关系解释为对其头部实体和尾部实体的嵌入进行翻译操作。
然而,KG通常是不完整的,不同的KG往往是相辅相成的。这使得设计一种可以在不同KG之间整合不同知识的技术成为一个令人信服的案例。实现这一点的有效方法是实体对齐。已有致力于嵌入不同KG以实现实体对齐的现有努力。其中大多数,如JE[Hao等人,2016]、MTransE[Chen等人,2017]、JAPE[Sun等人,2017]、IPTransE[朱等人,2017]和BooTea[Sun等人,2018],都依赖跨家族模型根据一组先前的比对来学习实体表示。最近的工作[Wang等人,2018]采取了一种不同的方法,利用图卷积网络(GCNs)[Kipf和Well,2017]联合表示多个KG实体,为实体对齐显示了一个新的、有前途的方向。
与传统的基于特征的方法[Sarasua等人,2012;Mahdisoltani等人,2013]相比,基于嵌入的方法具有需要更少的人参与特征构建的优势,并且可以扩展到大KG。然而,仍然有几个障碍阻碍了更广泛地采用基于嵌入的方法。首先,如上所述,现有的大多数方法都使用跨家族模型作为嵌入KG的主干,这些KG受假设 h e a d + r e l a t i o n ≈ t a i l head + relation \approx tail head+relation≈tail的约束。这种强假设使得该模型不能有效地捕捉多关系图中更复杂的关系信息。
作为激励示例,图1显示了 D B P 15 K Z H − E N DBP15K_{ZH−EN} DBP15KZH−EN[Sun等人,2017]数据集的真实示例。先前的研究[Li等人,2018b]表明,跨家族方法不能捕捉图中描述的三角形结构。例如,对于图1(a)的结构,TransE需要三个公式 v 1 + r a ≈ v 2 v_1+r_a\approx v_2 v1+ra≈v2、 v 2 + r a ≈ v 3 v_2+r_a\approx v_3 v2+ra≈v3和 v 1 + r a ≈ v 3 v_1+r_a\approx v_3 v1+ra≈v3同时成立。然而,为了满足前两个方程,我们将得到 v 1 + 2 r a ≈ v 3 v_1+2r_a\approx v_3 v1+2ra≈v3,这与第三个方程 v 1 + r a ≈ v 3 v_1+r_a\approx v_3 v1+ra≈v3相矛盾。因此,如果使用跨家族学习KG表示,则对齐性能将不可避免地受到影响,因为更复杂的结构,如三角形结构,经常出现在多关系图中。
基于GCN的模型[Wang等人,2018]代表了基于嵌入的实体对齐的飞跃。然而,这种方法也无法正确地对关系信息进行建模。由于普通GCN是在无向和无标号图上操作的,因此基于GCN的模型会忽略KG的有用关系信息。尽管关系图卷积网络(R-GCN)[Schlichtkrull等人,2018]可以用于对多关系图进行建模,R-GCN仅为每个关系使用一个权重矩阵,并且对于通常包含数千个关系的真实世界KG需要过多的参数集。这个缺点使得学习有效的R-GCN模型变得困难。Dual-Primal Graph CNN(DPGCNN)[Monti等人,2018]为解决这个问题提供了一个新的解决方案。DPGCNN在图及其对偶图上交替进行卷积操作,其顶点对应于原始图的边缘,并迭代地应用图注意力机制来使用其对偶图增强原始边缘表示。与GCN和R-GCN相比,DPGCNN可以更好地探索复杂的边缘结构,并产生更好的KG表示。
受DPGCNN的启发,在本文中,我们提出了一种新的具有感知能力的双图卷积网络(RDGCN),以解决正确捕获和集成关系信息的挑战。虽然DPGCNN是一个很好的起点,但将其应用于学习KG表示并不简单。这样做需要我们找到一种方法来更好地近似关系表示,并描述不同KG关系之间的关系。我们通过扩展DPGCNN来开发一个加权模型来解决这个问题,并探索用实体名称初始化的头/尾表示作为代理来捕获关系信息,而无需过多的模型参数,这些参数通常很难训练。
与GCN和R-GCN不同的是,我们的RDGCN方法通过与原始实体图和对偶关系图之间的多轮交互,有效地将更复杂的关系信息融入实体表示。为了进一步融合邻域结构信息,我们还扩展了带有高速公路门控的GCN。
我们在三个真实世界的数据集上评估我们的RDGCN。实验结果表明,RDGCN可以有效地解决上述挑战,并显着优于最近提出的6种方法在所有数据集上。这项工作的主要贡献是一种新的DPGCNN为基础的模型学习强大的KG表示。我们的工作是第一个扩展DPGCNN进行实体对齐的工作,这比最先进的替代方案产生了更好的性能。
2 Related Work
2.1 Graph Convolutional Networks
最近,人们对扩展神经网络来处理图形越来越感兴趣。已经有许多令人鼓舞的工作,这些工作通常被归类为光谱方法[Bruna等人,2014; Defferrard等人,2016; Kipf和Welling,2017]和空间方法[Atwood和Towsley,2016;汉密尔顿等人,2017年; Velickovic等人,2018年]。GCN [Kipf和Welling,2017]最近已经成为许多NLP任务的强大的基于深度学习的方法,如半监督节点分类[Kipf和Welling,2017],语义角色标记[Marcheggiani和Titov,2017]和神经机器翻译[Bastings等人,2017年]。此外,作为GCN的扩展,R-GCN [Schlichtkrull等人,2018]最近被提出来对关系数据进行建模,并已成功地用于链接预测和实体分类。最近,图形注意力网络(GATs)[Velickovic et al.,2018年]已经提出并实现了最先进的性能。DPGCNN [Monti等人,2018]在第1节中讨论了GAT模型的推广,并在顶点分类,链接预测和图引导矩阵完成任务方面取得了更好的性能。
受DPGCNN确定邻域感知边缘特征的能力的启发,我们提出了第一个用于实体对齐的关系感知多图学习框架。
2.2 Entity Alignment
以前的实体对齐方法通常需要大量的专家参与[Sarasua等人,2012]来设计模型特征[Mahdisoltani等人,2013]或由其他用户贡献的外部来源[Wang等人,2017年]。最近,基于嵌入的方法[Hao等人,2016年; Chen等人,2017年; Sun等人,2017年; Zhu等人,2017年; Sun等人,2018; Wang等人,2018]已提出解决这一问题。此外,NTAM [Li等人,2018 a]是一种非平移方法,其利用概率模型进行对准任务。KDCoE [Chen等人,2018]是一种半监督学习方法,用于共同训练多语言KG嵌入和实体描述的嵌入。
作为一个偏离以前的工作,我们的方法直接建模的关系信息,通过构建对偶关系图。正如我们将在后面的文章中展示的那样,这样做可以改进学习到的实体嵌入,从而导致更准确的对齐。
3 Problem Formulation
形式上,KG表示为 G = ( E , R , T ) G =(E, R, T) G=(E,R,T),其中 E , R , T E,R,T E,R,T分别是实体,关系和三元组的集合。设 G 1 = ( E 1 , R 1 , T 1 ) G_1 =(E_1,R_1,T_1) G1=(E1,R1,T1)和 G 2 = ( E 2 , R 2 , T 2 ) G_2 =(E_2,R_2,T_2) G2=(E2,R2,T2)是待对准的两个异质KG。也就是说, G 1 G_1 G1中的实体可能在 G 2 G_2 G2中有不同语言或不同表面名称的对应物。作为起点,我们可以收集 G 1 G_1 G1和 G 2 G_2 G2之间的少量等价实体对作为比对种子 L = { ( e i 1 , e i 2 ) ∣ e i 1 ∈ E 1 , e i 2 ∈ E 2 } \mathbb L = \{(e_{i1},e_{i2})|e_{i1}\in E_1,e_{i2}\in E_2\} L={(ei1,ei2)∣ei1∈E1,ei2∈E2}。我们将实体对齐任务定义为使用对齐种子自动查找更多等效实体。这些已知的对齐实体对可以用作训练数据。
4 Our Approach: RDGCN
为了更好地将关系信息合并到实体表示,给定输入KG(即原始图),首先构造其对偶关系图,其顶点表示原始图中的关系,然后利用图注意机制来鼓励对偶关系图与原始图之间的交互.然后将原始图中的结果顶点表示馈送到具有高速公路门控的GCN [Kipf和Welling,2017]层,以捕获相邻的结构信息。最终的实体表示将用于确定两个实体是否应对齐。图2提供了我们模型的总体架构。
4.1 Constructing the Dual Relation Graph
不失一般性,我们将 G 1 G_1 G1和 G 2 G_2 G2放在一起作为原始图 G e = ( V e , E e ) \mathcal G^e =(\mathcal V^e, \mathcal E^e) Ge=(Ve,Ee),其中顶点集 V e = E 1 ∪ E 2 \mathcal V^e = E_1 \cup E_2 Ve=E1∪E2是 G 1 G_1 G1和 G 2 G_2 G2中所有顶点的并集,边集 E e = T 1 ∪ T 2 \mathcal E^e = T_1 \cup T_2 Ee=T1∪T2是 G 1 G_1 G1和 G 2 G_2 G2中所有边/三元组的并集。注意,我们没有连接 G e \mathcal G^e Ge中的对准种子,因此 G 1 G_1 G1和 G 2 G_2 G2在 G e \mathcal G^e Ge中是断开的。
给定原始图 G e \mathcal G^e Ge,其对偶关系图 G r = ( V r , E r ) \mathcal G^r =(\mathcal V^r,\mathcal E^r) Gr=(Vr,Er)构造如下:1)对于 G e \mathcal G^e Ge中的每种类型的关系 r r r, V r \mathcal V^r Vr中将存在顶点 v r v^r vr,因此 V r = R 1 ∪ R 2 \mathcal V^r = R_1 \cup R_2 Vr=R1∪R2;2)如果两个关系 r i r_i ri和 r j r_j rj在 G e \mathcal G^e Ge中共享相同的头或尾实体,则我们在 G r \mathcal G^r Gr中创建连接 v i r v_i^r vir和 v j r v^r_j vjr的边 u i j r u^r_{ij} uijr。
与最初设计的对偶图不同,这里我们期望对偶关系图能够更好地表达 G e \mathcal G^e Ge中不同 v r v_r vr之间的关系。因此,我们根据两个关系 v i r v^r_i vir和 v j r v^r_j vjr在 G e \mathcal G^e Ge中共享类似头部或尾部的可能性,用权重 w i j r w^r_{ij} wijr对 G r \mathcal G^r Gr中的每条边 u i j r u^r_{ij} uijr进行加权,计算如下:
w i j r = H ( r i , r j ) + T ( r i , r j ) w_{ij}^r=H(r_i,r_j)+T(r_i,r_j) wijr=H(ri,rj)+T(ri,rj)
H ( r i , r j ) = H i ∩ H j H i ∪ H j , T ( r i , r j ) = T i ∩ T j T i ∪ T j H(r_i,r_j)=\frac{H_i\cap H_j}{H_i\cup H_j},T(r_i,r_j)=\frac{T_i\cap T_j}{T_i\cup T_j} H(ri,rj)=Hi∪HjHi∩Hj,T(ri,rj)=Ti∪TjTi∩Tj
其中 H i H_i Hi和 T i T_i Ti分别是 G e \mathcal G^e Ge中关系 r i r_i ri的头和尾实体的集合。这里,构造对偶图的开销与原始图中的关系类型的数量成比例。在我们的案例中,为每个评估数据集构建图表只需要不到两分钟的时间。
4.2 Interactions between Dual and Primal Graphs
我们引入对偶关系图的目的是更好地将关系信息融入到原始图表示中。为此,我们建议应用图注意机制(GAT)迭代地获得对偶关系图和原始图的顶点表示,其中注意机制有助于提示两个图之间的交互。每一个双原始交互包含两个层,双注意层和原始注意层。请注意,我们可以在两个图上堆叠多个交互以进行相互改进。
Dual Attention Layer(双重注意层)
令 X r ∈ R m × 2 d \mathbf{X}^r \in \mathbb R^{m\times 2d} Xr∈Rm×2d表示输入对偶顶点表示矩阵,其中每行对应于对偶关系图 G r \mathcal G^r Gr中的一个顶点。不同于普通的GAT[Veli Rickovic等人,2018],我们使用原始顶点特征来计算双重注意力分数 X ^ e \hat{\mathbf{X}}^e X^e(由等式8)由来自先前交互模块的原始注意力层产生:
x ~ i r = σ r ( ∑ j ∈ N i r α i j r x j r ) , \tilde{\mathbf{x}}_{i}^{r}=\sigma^{r}(\sum_{j\in N_{i}^{r}}\alpha_{ij}^{r}\mathbf{x}_{j}^{r}), x~ir=σr(j∈Nir∑αijrxjr),
α i j r = e x p ( η ( w i j r a r [ c i ∥ c j ] ) ) ∑ k ∈ N i r e x p ( η ( w i k r a r [ c i ∥ c k ] ) ) , \alpha_{ij}^{r}=\frac{exp(\eta(w_{ij}^{r}a^{r}[\mathbf{c}_{i}\|\mathbf{c}_{j}]))}{\sum_{k\in N_{i}^{r}}exp(\eta(w_{ik}^{r}a^{r}[\mathbf{c}_{i}\|\mathbf{c}_{k}]))}, αijr=∑k∈Nirexp(η(wikrar[ci∥ck]))exp(η(wijrar[ci∥cj])),
其中, x ~ i r \tilde{\mathbf{x}}_i^r x~ir表示在对偶顶点 v i r v^r_i vir处的 d ′ d' d′维输出表示(对应于关系 r i ∈ G e r_i \in \mathcal G^e ri∈Ge); x ~ j r \tilde{\mathbf{x}}_j^r x~jr表示顶点 v j r v^r_j vjr的对偶表示; N i r N^r_i Nir是 v i r v^r_i vir的邻居索引的集合; α i j r \alpha^r_{ij} αijr是对偶注意力分数; a r a^r ar是将 2 d ′ 2d' 2d′维输入映射到标量中的全连接层; σ r \sigma_r σr是激活函数ReLU; η \eta η是修正线性单元(Leaky ReLU); c i \mathbf c_i ci是从先前的原始注意力层获得的 G e \mathcal G^e Ge中的关系 r i r_i ri的关系表示。
请注意,在我们基于图嵌入的框架中,由于训练数据有限,我们无法直接提供关系表示。因此,我们通过连接 G e \mathcal G^e Ge中的平均头部和尾部实体表示来近似 r i r_i ri的关系表示:
c i = [ ∑ k ∈ H i x ^ k e ∣ H i ∣ ∥ ∑ l ∈ T i x ^ l e ∣ T i ∣ ] , \mathbf{c}_{i}=[\frac{\sum_{k\in H_{i}}\hat{\mathbf{x}}_{k}^{e}}{|H_{i}|}\|\frac{\sum_{l\in T_{i}}\hat{\mathbf{x}}_{l}^{e}}{|T_{i}|}], ci=[∣Hi∣∑k∈Hix^ke∥∣Ti∣∑l∈Tix^le],
其中, x ^ k e \hat{\mathbf{x}}_{k}^{e} x^ke和 x ^ l e \hat{\mathbf{x}}_{l}^{e} x^le是来自先前的主要关注层的关系 r i r_i ri的第 k k k个头实体和第 l l l个尾实体的输出表示。
一个特殊的情况是,当当前的双重注意力层是我们模型的第一层时,我们在等式3中没有 x j r \mathbf x^r_j xjr。因此,由先前的双注意力层产生的初始双顶点表示使用由等式5产生的初始双顶点表示。初始原始顶点表示为 X e _ i n i t \mathbf{X}^{e\_init} Xe_init。类似地, c i \mathbf c_i ci也将通过初始的 X e _ i n i t \mathbf{X}^{e\_init} Xe_init来获得。
Primal Attention Layer(原始注意力层)
在这一层中,当在原始图上应用GAT时,我们可以使用 G r \mathcal G^r Gr中的对偶顶点表示来计算原始注意力分数,这些对偶顶点表示实际上对应于原始图 G e \mathcal G^e Ge中的关系。通过这种方式,我们能够使用由双注意层产生的关系表示来影响原始顶点嵌入。
具体地,我们使用 X e ∈ R n × d \mathbf{X}^e \in \mathbb R^{n\times d} Xe∈Rn×d来表示输入原始顶点表示矩阵。对于原始图 G e \mathcal G^e Ge中的实体 e q e_q eq,其表示 x ^ q e \hat{\mathbf{x}}_{q}^{e} x^qe可以通过下式计算:
x ~ q e = σ e ( ∑ t ∈ N q e α q t e x t e ) , \tilde{\mathbf{x}}_{q}^{e}=\sigma^{e}(\sum_{t\in N_{q}^{e}}\alpha_{qt}^{e}\mathbf{x}_{t}^{e}), x~qe=σe(t∈Nqe∑αqtexte),
α q t e = e x p ( η ( a e ( x ~ q t r ) ) ) ∑ k ∈ N q e e x p ( η ( a e ( x ~ q k r ) ) ) , \alpha_{qt}^{e}=\frac{exp(\eta(a^{e}(\tilde{\mathbf{x}}_{qt}^{r})))}{\sum_{k\in N_{q}^{e}}exp(\eta(a^{e}(\tilde{\mathbf{x}}_{qk}^{r})))}, αqte=∑k∈Nqeexp(η(ae(x~qkr)))exp(η(ae(x~qtr))),
其中, x ~ q t r \tilde{\mathbf{x}}_{qt}^{r} x~qtr表示从 G r \mathcal G^r Gr获得的 r q t r_{qt} rqt(实体 e q e_q eq和 e t e_t et之间的关系)的对偶表示; α q t e \alpha^e_{qt} αqte是原始注意力分数; N q e N^e_q Nqe是 G e \mathcal G^e Ge中实体 e q e_q eq的邻居索引的集合; a e a^e ae是将 d ′ d' d′维输入映射到标量的全连接层, σ e \sigma^e σe是原始层激活函数。
在我们的模型中,原始顶点的初始表示矩阵 X e _ i n i t \mathbf{X}^{e\_init} Xe_init,可以使用实体名称初始化,这为实体对齐提供了重要的证据。因此,我们通过将初始表示与原始注意力层的输出混合来显式地保留证据:
x ^ q e = β s ∗ x ~ q e + x q e _ i n i t , \hat{\mathbf{x}}_{q}^{e}=\beta_{s}*\tilde{\mathbf{x}}_{q}^{e}+\mathbf{x}_{q}^{e\_init}, x^qe=βs∗x~qe+xqe_init,
其中, x ~ q e \tilde{\mathbf{x}}_{q}^{e} x~qe表示 G e \mathcal G^e Ge中实体 e q e_q eq的交互模块的最终输出表示; β s \beta_s βs是第 s s s个主要注意力层的加权参数。
4.3 Incorporating Structural Information
在对偶关系图和原始图之间的多轮交互之后,我们能够从原始图中收集关系感知实体表示。接下来,我们将带有高速公路门控的双层GCN[Kipf和Welling,2017]应用于生成的原始图,以进一步纳入来自其相邻结构的证据。
在具有实体表示 X ( l ) X^{(l)} X(l)作为输入的每个GCN层 l l l中,输出表示 X ( l + 1 ) X^{(l+1)} X(l+1)可以被计算为:
X ( l + 1 ) = ξ ( D ~ − 1 2 A ~ D ~ − 1 2 X ( l ) W ( l ) ) , X^{(l+1)}=\xi(\tilde D^{-\frac{1}{2}}\tilde A\tilde D^{-\frac{1}{2}}X^{(l)}W^{(l)}), X(l+1)=ξ(D~−21A~D~−21X(l)W(l)),
其中, A ~ = A + I \tilde A = A+I A~=A+I是添加了自连接的原始图 G e \mathcal G^e Ge的邻接矩阵, I I I是单位矩阵; D ~ j j = ∑ k A ~ j k \tilde D_{jj} = \sum_k\tilde A_{jk} D~jj=∑kA~jk, W ( l ) ∈ R d ( l ) × d ( l + 1 ) W^{(l)}\in \mathbb R^{d(l)}\times d^{(l+1)} W(l)∈Rd(l)×d(l+1)是层特定的可训练权重矩阵; ξ \xi ξ是激活函数ReLU。在构造 A A A时,我们将 G e \mathcal G^e Ge视为无向图,以允许信息在两个方向上流动。
此外,为了控制跨层累积的噪声并保留从交互中学习到的有用的关系信息,我们在GCN层之间引入逐层门,这在精神上类似于高速公路网络[Srivastava等人,2015年]:
T ( X ( l ) ) = σ ( X ( l ) W T ( l ) + b T ( l ) ) , T(X^{(l)})=\sigma(X^{(l)}W_{T}^{(l)}+b_{T}^{(l)}), T(X(l))=σ(X(l)WT(l)+bT(l)),
X ( l + 1 ) = T ( X ( l ) ) ⋅ X ( l + 1 ) + ( 1 − T ( X ( l ) ) ) ⋅ X ( l ) , X^{(l+1)}=T(X^{(l)})\cdot X^{(l+1)}+(1-T(X^{(l)}))\cdot X^{(l)}, X(l+1)=T(X(l))⋅X(l+1)+(1−T(X(l)))⋅X(l),
其中 X ( l ) X^{(l)} X(l)是层 l + 1 l+1 l+1的输入; σ \sigma σ是sigmoid函数; ⋅ \cdot ⋅ 是逐元素乘法; X T ( l ) X^{(l)}_T XT(l)和 b T ( l ) b^{(l)}_T bT(l)是变换门 T ( X ( l ) ) T(X^{(l)}) T(X(l))的权重矩阵和偏置向量。
**对齐。**通过从GCN层的输出中收集的最终实体表示X ',可以通过简单地测量两个实体之间的距离来执行实体对齐。具体地,两个实体之间的距离d(e1,e2),e1与G1之间的距离和e2与G2之间的距离可以计算为:
d ( e 1 , e 2 ) = ∥ x ˉ e 1 − x ˉ e 2 ∥ L 1 . d(e_1,e_2)=\|\bar{x}_{e_1}-\bar{x}_{e_2}\|_{L_1}. d(e1,e2)=∥xˉe1−xˉe2∥L1.
4.4 Training
对于训练,我们期望对齐实体对之间的距离尽可能近,而否定实体对之间的距离尽可能远。因此,我们使用基于边缘的评分函数作为训练目标:
L = ∑ ( p , q ) ∈ L ∑ ( p ′ , q ′ ) ∈ L ′ max { 0 , d ( p , q ) − d ( p ′ , q ′ ) + γ } , L=\sum_{(p,q)\in\mathbb{L}}\sum_{(p',q')\in\mathbb{L}'}\max\{0,d(p,q)-d(p',q')+\gamma\}, L=(p,q)∈L∑(p′,q′)∈L′∑max{0,d(p,q)−d(p′,q′)+γ},
其中 γ > 0 \gamma > 0 γ>0是一个边缘超参数; L \mathbb L L是我们的比对种子, L ′ \mathbb L' L′是负实例的集合。
我们不是随机抽样,而是寻找具有挑战性的负样本来训练我们的模型。给定一个正对齐对 ( p , q ) (p, q) (p,q),我们根据等式12选择 p ( o r q ) p(or\ q) p(or q)的 K \mathcal K K-最近实体。12在嵌入空间中替换 q ( o r p ) q(or\ p) q(or p)作为负实例。
5 Experimental Setup
**数据集。**我们在来自 D B P 15 K DBP15K DBP15K的三个大规模跨语言数据集上评估了我们的方法[Sun等人,2017年]。这些数据集基于DBpedia的中文、英文、日文和法文版本。每个数据集包含来自不同语言的两个KG的数据,并提供15K预对齐的实体对。表1给出了数据集的统计数据。我们使用与以前的作品相同的训练/测试分割[Sun等人,2018],30%用于训练,70%用于测试。
**比较模型。**我们将我们的方法与我们在第1节中提到的6种最近的比对方法进行比较:JE [Hao等人,2016],MTransE [Chen等人,2017],日本[Sun等人,2017],IPTransE [Zhu等人,2017],BootEA [Sun等人,2018]和GCN [Wang等人,2018],其中BootEA在DBP15K上实现了最佳性能。
**模型变体。**为了评估我们模型的不同组件,我们提供了用于消融研究的RDGCN的四种实现变体,包括(1)GCN-s:具有实体名称初始化但没有高速公路门的双层GCN;(2)R-GCN-s:双层R-GCN [Schlichtkrull等人,(3)HGCN-s:具有实体名称初始化和高速公路门的两层GCN;(4)RD:两个双原始交互模块的实现,但没有后续的GCN层。
**实施细节。**我们使用的组态是: β 1 = 0.1 , β 2 = 0.3 , γ = 1.0 \beta_1 = 0.1, \beta_2 = 0.3, \gamma = 1.0 β1=0.1,β2=0.3,γ=1.0。在双重注意力层和原始注意力层中,隐藏表征的维度分别为 d = 300 、 d ′ = 600 和 d ~ = 300 d = 300、d' = 600和\tilde d = 300 d=300、d′=600和d~=300。GCN层中隐藏表示的所有维度都是300。学习率设置为0.001,每10个epoch采样 K = 125 \mathcal K = 125 K=125个负对。为了更好地利用不同KG中的实体名称进行初始化,我们使用Google翻译将中文,日文和法文实体名称翻译成英文,然后使用预训练的英文单词向量 g l o v e . 840 B . 300 d glove.840B.300d glove.840B.300d来构建原始图的输入实体表示。请注意,Google翻译无法保证在没有任何上下文的情况下准确翻译命名实体。我们手动检查了100个日文/中文实体名称的英文翻译,发现大约20%的英文翻译不正确,这对我们的模型构成了进一步的挑战。
**指标。**我们使用 H i t s @ k Hits@k Hits@k,一种广泛使用的度量[Sun等人,2018; Wang等人,2018年,在我们的实验中。 H i t s @ k Hits@k Hits@k得分(越高越好)通过测量排在前 k k k个列表中的正确对齐的实体的比例来计算。
6 Results and Discussion
6.1 Main Results
表2显示了所有比较方法在评价数据集上的性能。通过使用自举过程来迭代地探索许多未标记的数据,BootEA在 D B P 15 K Z H − E N DBP15K_{ZH-EN} DBP15KZH−EN上给出了最好的 H i t s @ 10 Hits@10 Hits@10分数,并且明显优于GCN和其他基于自举的模型。毫不奇怪,GCN优于大多数基于解释的模型,即,JE、MTransE、JAPE和IPtransE。通过在实体的邻居上执行图卷积,GCN能够捕获知识图的更多结构特征,特别是当使用更多GCN层时,而基于解释的模型中的翻译假设更多地关注头,尾和关系之间的关系。
我们观察到RDGCN在所有指标和数据集上都提供了最佳性能,除了在 D B P 15 K Z H − E N DBP15K_{ZH-EN} DBP15KZH−EN上的 H i t s @ 10 Hits@10 Hits@10,RDGCN的性能仅次于BootEA,得分略低(84.55 vs 84.75)。虽然BootEA通过展示利用许多未标记数据可以实现的目标来提供强大的基线,但我们的RDGCN具有需要较少的先验比对数据来学习更好的表示的优势。我们相信,一个自学习过程可以进一步提高RDGCN的性能,我们把这个留给未来的工作。稍后在第6.3节中,我们展示了RDGCN保持一致的性能,并且在训练数据集大小减少时显著优于BootEA。RDGCN的良好性能在很大程度上归功于其学习关系感知嵌入的能力。
6.2 Ablation Studies
**GCN-s与GCN。**如表2所示,GCN-s在所有数据集中显著改善了GCN,导致 D B P 15 K F R − E N DBP15K_{FR −EN} DBP15KFR−EN上的 H i t s @ 1 Hits@1 Hits@1 增加了17.2%。如第5节所述,三个跨语言数据集要求我们通过粗略的机器翻译来处理跨语言数据,这可能会引入大量噪音(在我们的试点研究中,准确率约为80%)。但我们对GCN的改进表明,虽然本质上有噪声,但这些粗略的翻译仍然可以提供有用的证据来捕获,因此不应该被忽视。
**GCN-s与R-GCN-s。**R-GCN是GCN的扩展,通过显式地建模KG关系,但在我们的实验中,我们观察到GCN-s在所有数据集上都比RGCN-s实现了更好的性能。如第1节所述,R-GCN通常需要更多的训练数据来学习有效的模型,因为它的参数数量很大,我们评估中可用的训练数据可能不足以完全释放R-GCN的潜力。
**HGCN-s与GCN-s。**将HGCN-s与GCN-s进行比较,我们可以看到,HGCN-s在采用分层公路门之后,大大提高了GCN-s的性能,例如,在 D B P 15 K F R − E N DBP15K_{FR −EN} DBP15KFR−EN上, H i t s @ 1 Hits@1 Hits@1提高了30%以上。这主要是由于它们能够防止噪声顶点驱动KG表示。
**HGCN-s与RDGCN。**当比较HGCN-s和RDGCN时,我们可以看到双原始交互模块对性能至关重要:去除双注意层和原始注意力层会导致 D B P 15 K Z H − E N DBP15K_{ZH −EN} DBP15KZH−EN上 H i t s @ 1 Hits@1 Hits@1和 H i t s @ 10 Hits@10 Hits@10分别下降1.1%和2.02%。交互模块通过引入近似关系信息来挖掘知识库的关系特征,并通过对偶关系图与原始图的多次交互,将关系和实体信息充分融合。结果表明,有效的建模和关系信息的使用是有益的实体对齐。
**RD与RDGCN。**将RD与RDGCN进行比较,当从我们的模型中删除GCN层时,性能会显著下降,例如,RD和RDGCN的 H i t s @ 1 Hits@1 Hits@1在 D B P 15 K Z H − E N DBP15K_{ZH−EN} DBP15KZH−EN上相差8.94%。这并不奇怪,因为双原始图交互被设计为集成KG关系信息,而GCN层可以有效地捕获KG的相邻结构信息。这两个关键组件在某种程度上是互补的,应该结合在一起学习更好的关系感知表示。
6.3 Analysis
三角形结构。图3(d)显示了RDGCN和BootEA(最先进的对齐模型)在具有三角形结构的测试实例上的性能。我们可以看到,在所有三个数据集上,我们的RDGCN对于具有三角结构的实体的对齐准确率都明显高于BootEA,这表明RDGCN可以更好地处理复杂的关系信息。
**可用的先前对齐的影响。**我们进一步比较我们的RDGCN与BootEA,通过改变预对齐实体的比例从10%到40%,步长为10%。正如预期的那样,两种模型在所有三个数据集上的结果随着先验比对信息量的增加而逐渐改善。根据图3(a-c),我们的RDGCN始终优于BootEA,并且似乎对先前比对的比例不敏感。当仅使用10%的预对齐实体对作为训练数据时,RDGCN仍然取得了令人满意的结果。例如,RDGCN使用10%的先验比对在 D B P 15 K F R − E N DBP15K_{FR −EN} DBP15KFR−EN上实现了86.35%的 H i t s @ 1 Hits@1 Hits@1。当BootEA使用40%的先前比对时,该结果转化为比BootEA高17.79%的 H i t s @ 1 Hits@1 Hits@1得分。这些结果进一步证实了我们的模型的鲁棒性,特别是有限的先验比对。
**案例研究。**图4显示了 D B P 15 K Z H − E N DBP15K_{ZH−EN} DBP15KZH−EN中的一个示例,目标实体对 ( v Z H 和 v E N ) (v_{ZH}和v_{EN}) (vZH和vEN)不应该对齐。基于竞争翻译的模型,包括BootEA,给予较低的距离分数 ( v Z H 和 v E N ) (v_{ZH}和v_{EN}) (vZH和vEN),这表明这两个实体应该对齐。这是因为那些模型未能解决与三个对齐的相邻实体相关联的特定关系信息。对于这个例子, v 1 v_1 v1和 v 5 v_5 v5都表示蒋经国,但是 v 1 v_1 v1具有与 v Z H v_{ZH} vZH的 p a r e n t s parents parents关系,而 v 2 v_2 v2具有与 v E N v_{EN} vEN的 c h i l d r e n children children关系。利用这样的信息,更好的比对模型应该为两个实体产生更大的距离分数,尽管它们具有相似的邻居。通过仔细考虑双原始交互过程中的关系信息,我们的RDGCN给出了更大的距离分数,从而得到正确的比对结果。
7 Conclusions
本文提出了一种新的异构KG上的实体对齐感知的双图卷积网络。我们的方法旨在探索复杂的关系信息,通常存在于多关系KG。通过对原始图和对偶关系图之间的密切交互进行建模,我们的模型能够通过门控GCN层将关系信息与相邻结构信息结合起来,并学习更好的实体表示以进行对齐。与最先进的方法相比,我们的模型使用更少的训练数据,但在三个真实世界的数据集上实现了最佳的对齐性能。
机器学习小白,知识图谱方向,欢迎一起学习交流,如有错误欢迎指出!
向各位大佬请教一下文中的bootstrapping和highway gates该怎么翻译?
论文原文:
https://www.ijcai.org/proceedings/2019/0733.pdf
GitHub代码:
https://github.com/StephanieWyt/RDGCN