GCN-Align翻译
Cross-lingual Knowledge Graph Alignment via Graph Convolutional Networks
基于图卷积网络的跨语言知识图谱对齐
Abstract
多语言知识图(KGs),如DBpedia和YAGO,包含几种不同语言的实体结构化知识,它们是跨语言AI和NLP应用程序的有用资源。跨语言知识库对齐是将不同语言的知识库实体与对应实体进行匹配的任务,是丰富多语言知识库中跨语言链接的重要途径。在本文中,我们提出了一种新的方法为跨语言KG对齐通过图卷积网络(GCNs)。给定一组预对齐的实体,我们的方法训练GCN将每种语言的实体嵌入到统一的向量空间中。基于嵌入空间中实体之间的距离来发现实体对齐。该算法利用实体的结构信息和属性信息学习嵌入信息,并将结构嵌入和属性嵌入的结果相结合,得到精确的对齐结果。在对齐真实的多语种KG的实验中,我们的方法得到了最好的性能相比,其他基于嵌入的KG对齐方法。
1 Introduction
知识图谱(KGs)以机器可读的形式表示人类知识,正成为人工智能和自然语言处理领域中许多应用的重要基础。如果要构建跨语言应用程序,DBpedia(Bizer等人,2009)、Yago(Suchanek等人,2008;Rebele等人,2016)和BabelNet(Navigli和Ponzetto,2012)等多语言KG尤其有价值。除了以每种不同语言编码的知识外,多语言知识词典还包含丰富的跨语言链接,这些链接与不同语言的对等实体相匹配。跨语言链接在弥合多语言KG中的语言差距方面发挥了重要作用;然而,并不是所有同等的实体都能在大多数多语言KG中通过跨语言链接进行连接。因此,越来越多的研究工作致力于跨语言KG对齐问题的研究,目的是在多语言KG中自动匹配不同语言的实体。
传统的跨语言KG对齐方法要么依赖于机器翻译技术,要么利用各种独立于语言的特征来发现跨语言链接。最近,已经提出了几种基于嵌入的跨语言KG对齐方法,包括MTransE(Chen等人,2017)和JAPE(Sun等人,2017)。给出两个KG及其一组预先对齐的实体,基于嵌入的方法将实体投影到低维向量空间,基于对其向量表示的计算来匹配实体。遵循上面非常相似的想法,JE(Hao等人,2016)和ITransE(Zhu等人,2017)是基于嵌入的方法,用于在异类KG之间匹配实体,它们也可以解决跨语言KG对齐问题。上述基于嵌入的方法可以在不需要机器翻译或特征工程的情况下获得良好的性能。
然而,我们发现上述方法都试图在一个统一的优化问题中联合建模的跨语言知识和单语知识。在优化过程中,必须仔细平衡两种知识的损失。例如,JE、MTransE和ITransE都在其模型的损失函数中使用超参数来加权实体对齐的损失;JAPE使用预先对齐的实体将两个KG组合为一个,并在其损失函数中向负样本的分数添加权重。在上述方法中,实体的嵌入既要对KGS中的结构信息进行编码,又要对实体的等价关系进行编码。此外,现有模型没有充分利用实体的属性(例如,一个人的年龄、一个国家的人口)。MTransE和ITransE不能使用KGs中的属性信息;尽管JAPE包含模型中的属性类型,但实体的属性值被忽略。我们认为,考虑属性值可以进一步提高KG比对的结果。
基于上述观察,我们提出了一种新的基于嵌入的KG对齐方法,该方法利用图卷积网络(GCNs)直接对实体之间的等价关系进行建模。GCN是一种直接在图形结构数据上操作的卷积网络,它通过对节点邻域信息进行编码来生成节点级嵌入。KGs中两个等价实体的邻接关系通常包含其他等价实体,因此我们选择GCNs来生成实体的邻域感知嵌入,用于发现实体对齐。我们的方法还可以提供一种简单而有效的方法来将实体的属性值包括在对齐模型中。更具体地说,我们的方法有以下优点:
- 我们的方法利用每个KG中的实体关系来构建GCNs的网络结构,并且在模型训练中只考虑了实体之间的等价关系。我们的方法具有较小的模型复杂性,并且可以获得令人鼓舞的对齐结果。
- 我们的方法只需要预先对齐的实体作为训练数据,而不需要KGs之间的任何预先对齐的关系或属性。
- 我们的方法有效地结合了实体关系和实体属性,以提高对齐结果。
在真实多语种知识库对齐实验中,与基准方法相比,我们的方法获得了最好的性能。
本文的其余部分安排如下,第2节回顾了一些相关工作,第3节介绍了一些背景知识,第4节介绍了我们提出的方法,第5节给出了评估结果,第6节是结论和下一步工作。
2 Related Work
2.1 KG Embedding
在过去的几年里,人们对KG的嵌入问题做了大量的工作。KG嵌入模型在保留原有知识的同时,将KG中的实体和关系嵌入到低维向量空间中。嵌入通常通过最小化KG中所有实体和关系的全局损失函数来学习,该函数可进一步用于关系预测、信息提取等任务。TransE是一种代表性的KG嵌入方法(Bordes等人,2013年),它将实体和关系投影到相同的向量空间;如果三元组 ( h , r , t ) (h, r, t) (h,r,t)成立,则TransE希望 h + r ≈ t \boldsymbol{h}+\boldsymbol{r}≈\boldsymbol{t} h+r≈t。嵌入是通过最小化训练集上基于边缘的排名标准来学习的。TransE模型简单但功能强大,在链接预测和三分类问题上取得了令人满意的结果。为了进一步改进TransE,已经提出了几个基于TransE的增强模型,包括TransR(Lin等人,2015)、TransH(Wang等人,2014)和TransD(Ji等人,2015)等。通过引入新的关系翻译表示,后一种方法以增加模型复杂性为代价获得了更好的性能。还有许多其他的KG嵌入方法,最近的调查(Wang等人,2017年;Nickel等人,2016年)给出了详细的介绍和比较。
2.2 Embedding-based KG Alignment
在这里,我们介绍与我们最相关的KG对齐方法,并讨论我们的方法与它们之间的主要区别。
JE(Hao等人,2016)联合学习了多个KG在统一向量空间中的嵌入,以对齐KG中的实体。JE使用一组种子实体对齐来连接两个KG,然后使用改进的TransE模型学习嵌入,该模型在其全局损失函数中增加了实体对齐的损失。
MTransE(Chen等人,2017)通过使用TransE对独立嵌入空间中每个KG的实体和关系进行编码;它还提供了每个嵌入向量到其他空间中的跨语言对应的转换。MTransE的损失函数是两个分量模型(即知识模型和比对模型)的损失的加权和。为了训练比对模型,MTransE需要一组两个KG的比对三元组。
JAPE(Sun等人,2017)结合了结构嵌入和属性嵌入,以匹配不同KG中的实体。结构嵌入遵循TransE模型,该模型学习两个KG覆盖图中实体的矢量表示。属性嵌入遵循Skip-gram模型,该模型旨在捕捉属性之间的相关性。为了获得理想的结果,JAPE需要预先对齐两个KG的关系和属性。
ITransE(朱等人,2017)是一种面向多个KG的联合知识嵌入方法,也适用于跨语言KG对齐问题。ITransE首先学习TransE之后的实体和关系嵌入,然后根据种子实体对齐集合,学习将不同KG的知识嵌入到联合空间中。ITransE通过使用新发现的实体对齐来更新实体的联合嵌入来执行迭代实体对齐。ITransE要求在KG之间共享所有关系。
上述方法遵循类似的框架来匹配不同KG中的实体。它们都依赖于TransE模型来学习实体嵌入,然后定义对齐实体嵌入之间的某种变换。与这些方法相比,我们的方法使用了一个完全不同的框架;它使用GCNs将实体嵌入到统一的向量空间中,其中对齐的实体被期望尽可能接近。我们的方法只关注两个KG中的匹配实体,而不学习关系的嵌入。MTransE、JAPE和ITransE都需要在KG中对齐或共享关系;我们的方法不需要这种先验知识。
3 Problem Formulation
KG以三元组的形式表示关于真实世界实体的知识。这里我们考虑KGs中的两种三元组:关系三元组和属性三元组。关系三元组表示实体之间的关系,其形式为 ⟨ e n t i t y 1 , r e l a t i o n , e n t i t y 2 ⟩ \left \langle entity_1,relation,entity_2\right \rangle ⟨entity1,relation,entity2⟩。属性三元组描述实体的属性,其形式为 ⟨ e n t i t y , a t t r i b u t e , v a l u e ⟩ \left \langle entity,attribute,value\right \rangle ⟨entity,attribute,value⟩。例如,在Yago的数据中, g r a d u a t e d F r o m graduatedFrom graduatedFrom是关系,而 ( A l b e r t _ E i n s t e i n , g r a d u a t e d F r o m , E T H _ Z u r i c h ) (Albert\_Einstein, graduatedFrom, ETH\_Zurich) (Albert_Einstein,graduatedFrom,ETH_Zurich)是关系三元组;diedOnDate是属性, ( A l b e r t E i n s t e i n , d i e d O n D a t e , 1955 ) (Albert Einstein, diedOnDate, 1955) (AlbertEinstein,diedOnDate,1955)是属性三元组。关系三元组和属性三元组都描述了关于实体的重要信息,我们将在跨语言KG对齐任务中考虑它们。
形式上,我们将KG表示为 G = ( E , R , A , T R , T A ) G=(E,R,A,T_R,T_A) G=(E,R,A,TR,TA),其中 E , R , A E,R,A E,R,A分别是实体、关系和属性的集合; T R ⊂ E × R × E T_R\sub E\times R\times E TR⊂E×R×E是关系三元组的集合, T A ⊂ E × A × V T_A\sub E\times A\times V TA⊂E×A×V是属性三元组的集合,其中 V V V是属性值的集合。
设 G 1 = ( E 1 , R 1 , A 1 , T 1 R , T 1 A ) G_1=(E_1,R_1,A_1,T_1^R,T_1^A) G1=(E1,R1,A1,T1R,T1A)和 G 2 = ( E 2 , R 2 , A 2 , T 2 R , T 2 A ) G_2=(E_2,R_2,A_2,T_2^R,T_2^A) G2=(E2,R2,A2,T2R,T2A)是不同语言的两个KG, S = { ( e i 1 , e i 2 ) ∣ e i 1 ∈ E 1 , e i 2 ∈ E 2 } i = 1 m S=\{(e_{i1},e_{i2})|e_{i1}\in E_1,e_{i2}\in E_2\}_{i=1}^m S={(ei1,ei2)∣ei1∈E1,ei2∈E2}i=1m是 G 1 G_1 G1和 G 2 G_2 G2之间的一组预先对齐的实体对。我们将跨语言KG对齐的任务定义为在现有实体对齐的基础上找到新的实体对齐。在DBpedia和Yago等多语言KG中,可以使用其中的跨语言链接来构建预先对齐的实体对集。已知的实体对齐在KG对齐过程中用作种子或训练数据。
4 The Proposed Approach
我们提出的方法的框架如图1所示。给定两个不同语言的KGs G 1 G_1 G1和 G 2 G_2 G2,以及它们之间的一组已知对齐实体对 S = { ( e i 1 , e i 2 ) } i = 1 m S=\{(e_{i1},e_{i2})\}_{i=1}^m S={(ei1,ei2)}i=1m,我们的方法基于GCN的实体嵌入自动发现新的实体对齐。我们方法的基本思想是使用GCNs将来自不同语言的实体嵌入到统一的向量空间中,在那里等价的实体被期望尽可能地接近。通过将预定义的距离函数应用于实体的GCN表示来预测实体对齐。
4.1 GCN-based Entity Embedding
GCNs(Bruna等人,2014年;Henaff等人,2015年;Defferrard等人,2016年;Kipf和Well,2017年)是一种直接对图形数据进行操作的神经网络。GCN允许端到端地学习输入是任意大小和形状的图形的预测管道。GCN的输入是节点的特征向量和图的结构;GCN的目标是学习输入图上的特征的函数并产生节点级输出。GCNs可以将节点的邻域信息编码为实值向量,该向量通常用于分类或回归。在解决KG对齐问题时,我们假设
(1)等价实体趋向于具有相似的属性;
(2)等价实体通常与其他等价实体相邻。
GCNs可以将属性信息和结构信息结合在一起,因此我们使用GCNs将实体投影到等价实体相互接近的低维向量空间。
GCN模型由多个堆叠的GCN层组成。GCN模型的第 l l l层的输入是顶点特征矩阵, H ( l ) ∈ R n × d ( l ) H^{(l)}\in \mathbb{R}^{n\times d^{(l)}} H(l)∈Rn×d(l),其中 n n n为顶点数, d ( l ) d^{(l)} d(l)为第 l l l层中的特征数。通过以下卷积计算,第 l l l层的输出是新的特征矩阵 H ( l + 1 ) H^{(l+1)} H(l+1):
H ( l + 1 ) = σ ( D ^ − 1 2 A ^ D ^ − 1 2 H ( l ) W ( l ) ) H^{(l+1)}=\sigma\left(\hat D^{-\frac{1}{2}}\hat A\hat D^{-\frac{1}{2}}H^{(l)}W^{(l)}\right) H(l+1)=σ(D^−21A^D^−21H(l)W(l))
其中 σ \sigma σ是激活函数; A A A是表示图的结构信息的 n × n n\times n n×n连通矩阵; A ^ = A + I {\hat{A}}=A+I A^=A+I, I I I是单位矩阵; D ^ \hat D D^是 A ^ \hat{A} A^的对角结点度矩阵; W ( l ) ∈ R d ( l ) × d ( l + 1 ) W^{(l)}\in\mathbb{R}^{d^{(l)}\times d^{(l+1)}} W(l)∈Rd(l)×d(l+1)是GCN中第 l l l层的权重矩阵, d ( l + 1 ) d^{(l+1)} d(l+1)是新顶点特征的维度。
**结构和属性嵌入。**在我们的方法中,GCNs被用来在一个统一的向量空间中嵌入两个KG的实体。为了同时利用实体的结构和属性信息,该方法在GCN层为每个实体分配了两个特征向量:结构特征向量 h s h_s hs和属性特征向量 h a h_a ha。在输入层, h s ( 0 ) h_s^{(0)} hs(0)在训练过程中被随机初始化和更新; h a ( 0 ) h_a^{(0)} ha(0)是实体的属性向量,在模型训练过程中是固定的。假设 H s H_s Hs和 H a H_a Ha是所有实体的结构和属性特征矩阵,我们将卷积计算重新定义为:
[ H s ( l + 1 ) ; H a ( l + 1 ) ] = σ ( D ^ − 1 2 A ^ D ^ − 1 2 [ H s ( l ) W s ( l ) ; H a ( l ) W a ( l ) ] ) [H_{s}^{(l+1)};H_{a}^{(l+1)}] =\sigma\left(\hat{D}^{-\frac12}\hat{A}\hat{D}^{-\frac12}[H_{s}^{(l)}W_{s}^{(l)};H_{a}^{(l)}W_{a}^{(l)}]\right) [Hs(l+1);Ha(l+1)]=σ(D^−21A^D^−21[Hs(l)Ws(l);Ha(l)Wa(l)])
其中 W s ( l ) W_s^{(l)} Ws(l)和 W a ( l ) W_a^{(l)} Wa(l)分别是第 l l l层的结构特征和属性特征的权重矩阵; [ ; ] [;] [;]表示两个矩阵的级联。选择激活函数 σ \sigma σ为 R E L U ( ⋅ ) = m a x ( 0 , ⋅ ) RELU(·)=max(0,·) RELU(⋅)=max(0,⋅)。
**型号配置。**更具体地说,我们的方法使用两个两层GCN,每个GCN处理一个KG来生成其实体的嵌入。如第3节所定义的,我们将两个KG表示为 G 1 = ( E 1 , R 1 , A 1 , T 1 R , T 1 A ) G_1=(E_1,R_1,A_1,T_1^R,T_1^A) G1=(E1,R1,A1,T1R,T1A)和 G 2 = ( E 2 , R 2 , A 2 , T 2 R , T 2 A ) G_2=(E_2,R_2,A_2,T_2^R,T_2^A) G2=(E2,R2,A2,T2R,T2A);并将它们对应的GCN模型表示为 G C N 1 GCN_1 GCN1和 G C N 2 GCN_2 GCN2。对于实体的结构特征向量,我们在 G C N 1 GCN_1 GCN1和 G C N 2 GCN_2 GCN2的所有层中将特征向量的维度设置为 d s d_s ds,两个GCN模型共享两层结构特征的权重矩阵 W S ( 1 ) W^{(1)}_S WS(1)和 W S ( 2 ) W^{(2)}_S WS(2)。对于实体的属性向量,我们将输出特征向量的维度设置为 d a d_a da。由于两个KG可能具有不同数量的属性(即 ∣ A 1 ∣ ≠ ∣ A 2 ∣ |A_1|\neq|A_2| ∣A1∣=∣A2∣),因此两个GCN模型中输入属性特征向量的维度不同。每个GCN模型的第一层将输入的属性特征向量转换为大小为 d a d_a da的向量;两个GCN模型生成相同维度的属性嵌入。表1概述了我们方法中的两个GCN的参数。两个GCN的最终输出是实体的 ( d s + d a ) (d_s+d_a) (ds+da)维嵌入,这些实体被进一步用于发现实体对齐。
**连通度矩阵的计算。**在GCN模型中,连接性矩阵 A A A定义了卷积计算中的实体的邻域。对于无向图,邻接矩阵可以直接用作 A s A_s As。但KG是关系多重图,实体之间通过类型化关系连接。因此,我们设计了一种计算KG的 A A A的具体方法;我们让 a i j ∈ A a_{ij}\in A aij∈A表示比对信息从第 i i i个实体传播到第 j j j个实体的程度。考虑到两个实体通过不同的关系(例如,hasParent与hasFriend)连接到对齐的实体,两个实体等价的概率差别很大。因此,我们为每个关系计算两个度量,称为功能和逆功能:
f u n ( r ) = # H e a d _ E n t i t i e s _ o f _ r # T r i p l e s _ o f _ r i f u n ( r ) = # T a i l _ E n t i t i e s _ o f _ r # T r i p l e s _ o f _ r \begin{aligned}fun(r)&=\frac{\#Head\_Entities\_of\_r}{\#Triples\_of\_r} \\\\ifun(r)&=\frac{\#Tail\_Entities\_of\_r}{\#Triples\_of\_r} \end{aligned} fun(r)ifun(r)=#Triples_of_r#Head_Entities_of_r=#Triples_of_r#Tail_Entities_of_r
其中, # T r i p l e s _ o f _ r \#Triples\_of\_r #Triples_of_r是关系r的三元组的数目; # H e a d _ E n t i t i e s _ o f _ r \#Head\_Entities\_of\_r #Head_Entities_of_r和 # T a i l _ E n t i t i e s _ o f _ r \#Tail\_Entities\_of\_r #Tail_Entities_of_r分别是 r r r的头实体和尾实体的数目。为了衡量第 i i i个实体对第 j j j个实体的影响,我们将 a i j ∈ A a_{ij}\in A aij∈A设置为:
a i j = ∑ ⟨ e i , r , e j ⟩ ∈ G i f u n ( r ) + ∑ ⟨ e j , r , e i ⟩ ∈ G f u n ( r ) a_{ij}=\sum_{\langle e_i,r,e_j\rangle\in G}ifun(r)+\sum_{\langle e_j,r,e_i\rangle\in G}fun(r) aij=⟨ei,r,ej⟩∈G∑ifun(r)+⟨ej,r,ei⟩∈G∑fun(r)
4.2 Alignment prediction
基于从GCN表示空间中的两个KG的实体之间的距离来预测实体对齐。 G 2 G_2 G2中的 e j e_j ej和 G 1 G_1 G1中的实体 e i e_i ei,我们计算它们之间的以下距离度量:
D ( e i , v j ) = β f ( h s ( e i ) , h s ( v j ) d s + ( 1 − β ) f ( h a ( e i ) , h a ( v j ) ) d a D(e_{i},v_{j})=\beta\frac{f(\boldsymbol{h}_{\boldsymbol{s}}(e_{i}),\boldsymbol{h}_{\boldsymbol{s}}(v_{j})}{d_{s}} +(1-\beta)\frac{f(\boldsymbol{h_{a}}(e_{i}),\boldsymbol{h_{a}}(v_{j}))}{d_{a}} D(ei,vj)=βdsf(hs(ei),hs(vj)+(1−β)daf(ha(ei),ha(vj))
其中 f ( x , y ) = ∥ x − y ∥ 1 f(\boldsymbol{x},\boldsymbol{y})=\parallel\boldsymbol{x}-\boldsymbol{y}\parallel_1 f(x,y)=∥x−y∥1, h s ( ⋅ ) \boldsymbol{h}_s(\cdot) hs(⋅)和 h a ( ⋅ ) \boldsymbol{h}_a(\cdot) ha(⋅)分别表示实体的结构嵌入和属性嵌入; d s d_s ds和 d a d_a da是结构嵌入和属性嵌入的维度; β \beta β是平衡两种嵌入重要性的超参数。
对于等效实体,距离预期较小,而对于非等效实体,距离预期较大。对于 G 1 G_1 G1中的特定实体 e i e_i ei,我们的方法计算 e i e_i ei与 G 2 G_2 G2中所有实体之间的距离,并返回一个排名实体列表作为候选对齐。也可以从 G 2 G_2 G2到 G 1 G_1 G1进行对准。在实验中,我们报告了KG对齐的两个方向的结果。
4.3 Model Training
为了使GCN能够在向量空间中尽可能接近地嵌入等价实体,我们使用一组已知的实体对齐 S S S作为训练数据来训练GCN模型。通过最小化以下基于边际的排名损失函数来执行模型训练:
L s = ∑ ( e , v ) ∈ S ∑ ( e ′ , v ′ ) ∈ S ( e , v ) ′ [ f ( h s ( e ) , h s ( v ) ) + γ s − f ( h s ( e ′ ) , h s ( v ′ ) ] + L_s=\sum_{(e,v)\in S}\sum_{(e',v')\in S'_{(e,v)}}[f(\boldsymbol{h}_s(e),\boldsymbol{h}_s(v))+\gamma_s-f(\boldsymbol{h}_s(e'),\boldsymbol{h}_s(v')]_+ Ls=(e,v)∈S∑(e′,v′)∈S(e,v)′∑[f(hs(e),hs(v))+γs−f(hs(e′),hs(v′)]+
L a = ∑ ( e , v ) ∈ S ′ ∑ ( e ′ , v ′ ) ∈ S ( e , v ′ ) ′ [ f ( h a ( e ) , h a ( v ) ) + γ a − f ( h a ( e ′ ) , h a ( v ′ ) ] + L_a=\sum_{(e,v)\in S'}\sum_{(e',v')\in S'_{(e,v')}}[f(\boldsymbol{h_a}(e),\boldsymbol{h_a}(v))+\gamma_a-f(\boldsymbol{h_a}(e'),\boldsymbol{h_a}(v')]_+ La=(e,v)∈S′∑(e′,v′)∈S(e,v′)′∑[f(ha(e),ha(v))+γa−f(ha(e′),ha(v′)]+
其中 [ x ] + = max { 0 , x } [x]_+=\max\{0,x\} [x]+=max{0,x}, S ( e , v ) ′ S_{(e,v)}^{\prime} S(e,v)′表示通过破坏 ( e , v ) (e,v) (e,v)构建的负实体比对集,即用 G 1 G_1 G1或 G 2 G_2 G2中随机选择的实体替换 e e e 或 v v v ; γ s , γ a > 0 \gamma_{s},\gamma_{a}>0 γs,γa>0是分隔正实体比对和负实体比对的边缘超参数。 L s L_s Ls和 L a L_a La分别是结构嵌入和属性嵌入的损失函数;它们彼此独立,因此分别进行优化。我们采用随机梯度下降(SGD),以最小化上述损失函数。
5 Experiment
5.1 Datasets
我们在实验中使用了由Sun et al.(2017)构建的DBP 15K数据集。数据集由DBpedia生成,DBpedia是一个大型多语言KG,包含不同语言版本之间丰富的跨语言链接。DBpedia的中文、英文、日文和法文版本的子集是按照一定的规则选择的。表2概述了数据集的详细信息。每个数据集包含两个不同语言的KG数据和15000个连接两个KG中等效实体的中介语链接。在实验中,使用已知的等价实体对进行模型训练和测试。
5.2 Experiment Settings
在实验中,我们将我们的方法与JE,MTransE和JAPE进行了比较,并构建了JAPE的一个变体JAPE’,它不使用预先对齐的关系和属性。因为ITransE方法执行迭代比对,并且它需要两个KG共享相同的关系,所以我们不将其包括在比较中。每个数据集中的跨语言链接被用作实体对齐的黄金标准。对于所有比较的方法,我们使用30%的跨语言链接进行训练,其中70%用于测试;所有方法的训练和测试的划分都是相同的。我们使用Hits@k作为评价指标来评估所有方法的性能。Hits@k度量排在前k个候选中的正确对齐的实体的比例。对于我们的方法的参数,我们设置 d s = 1000 d_s = 1000 ds=1000, d a = 100 d_a = 100 da=100;损失函数中的裕度 γ s = γ a = 3 \gamma_s = \gamma_a = 3 γs=γa=3,距离度量中的 β β β经验地设置为0.9。
5.3 Result
表3显示了所有比较方法在DBP 15 K数据集上的结果。我们在每个数据集上报告了方法的 H i t s @ 1 Hits@1 Hits@1, H i t s @ 10 Hits@10 Hits@10和 H i t s @ 50 Hits@50 Hits@50。因为我们使用与(Sun et al.,2017)相同的数据集,JE、MTransE和JAPE的结果获自(Sun et al.,2017年)。对于JAPE和JAPE’的结构,它们都有三种变体:无负三元组的结构嵌入(SE w/o neg.),结构嵌入(SE)、结构与属性联合嵌入(SE+AE)。我们使用GCN(SE)和GCN(SE+AE)来表示我们的方法的两个变体:一个只使用关系三元组来执行结构嵌入,另一个使用关系和属性三元组来执行结构和属性嵌入。
GCN(SE)vs. GCN(SE+AE)
我们首先比较GCN(SE)和GCN(SE+AE)的结果,看看归因信息是否有助于KG对齐任务。根据结果,在我们的方法中添加属性确实会导致稍微好一点的结果。改善范围从1%到10%,这与JAPE(SE)相对于JAPE(SE+AE)的改善非常相似。这表明,KG对齐主要依赖于KG中的结构信息,但属性信息仍然是有用的。该方法使用相同的框架嵌入结构和属性信息,两种嵌入的结合有效。
GCN(SE+AE)vs. Baselines
在 D B P 15 K Z H − E N DBP 15 K_{ZH-EN} DBP15KZH−EN的数据集上,JAPE(SE+AE)表现最好,得到了五个最好的Hits@k值;我们的方法GCN(SE+AE)在ZH→EN的对齐方向上得到了最好的 H i t s @ 1 Hits@1 Hits@1。GCN(SE+AE)和JAPE的结果在Hits@1和Hits@10的ZH→EN方向上得到非常接近的结果。在EN→ZH的取向方向上,JAPE(SE+AE)优于GCN(SE+AE)约2- 3%。但是应该注意的是,JAPE使用额外的对齐关系和属性作为其输入,而我们的方法不使用这些先验知识。如果与JAPE’评分标准相比,GCN(SE+AE)评分标准的评分结果优于Hits@1和Hits@10评分标准。
与JE和MTransE相比,GCN(SE+AE)在大多数情况下优于JE和MTransE 10%以上。在 D B P 15 K J A − E N DBP 15 K_{JA-EN} DBP15KJA−EN和 D B P 15 K F R − E N DBP 15 K_{FR-EN} DBP15KFR−EN的数据集上,GCN(SE+AE)在所有Hits@k度量方面都优于所有比较方法。即使与使用额外的关系和属性对齐的JAPE相比,GCN(SE+AE)仍然得到了更好的结果。
与所有基线相比,GCN(SE)和GCN(SE+AE)均显著优于JE和MTransE。在所有基线中,JAPE是最强的一个;这可能是由于它能够同时使用关系和属性三元组,以及它消耗的关系和属性的额外对齐。我们的方法在两个数据集上取得了比JAPE更好的结果;虽然JAPE比我们的方法表现得更好,但它们的结果之间的差异很小。如果两个KG之间不存在关系和属性对齐,我们的方法将具有明显的优势。
GCN vs. JAPE using different sizes of training data
为了研究训练集的大小如何影响我们的方法的结果,我们通过使用不同数量的预对齐实体作为训练数据,进一步比较我们的方法与JAPE。对于JAPE,预先对齐的实体被用作种子,以使它们的向量重叠。在我们的方法中,所有预对齐的实体都用于训练GCN模型。直觉上,使用的预对齐实体越多,GCN和JAPE都应该获得更好的结果。
在这里,我们使用不同比例的预对齐实体作为训练数据,范围为10%到50%,步长为10%;所有其余的预对齐实体都用于测试。图2显示了三个数据集中两种方法的 H i t s @ 1 Hits@1 Hits@1。它表明,随着训练数据大小的增加,这两种方法都表现得更好。我们的方法总是优于JAPE,除了使用40%的预对齐实体作为图2(a)中的训练数据。特别是在将日语与英语和法语与英语对齐的任务中,我们的方法比JAPE具有明显的优势。
6 Conclusion and Future Work
本文提出了一种新的嵌入式KG对齐方法,该方法通过GCNs学习的实体嵌入发现实体对齐。我们的方法可以利用知识库中的关系和属性三元组来发现实体对齐。我们对真实的多语种幼儿园的数据进行了评估,结果显示了我们的方法比比较基线的优势。在未来的工作中,我们将探索用于KG对齐任务的更高级的GCN模型,例如关系GCN(Schlichtkrull等人,2017)和图形注意力网络(GAT)(Velickovic等人,2017年)。此外,如何迭代地发现新的实体对齐在我们的方法的框架是另一个有趣的方向,我们将在未来的研究。
这篇论文介绍了一种新的基于嵌入的KG对齐方法,该方法基于GCN学习的实体嵌入来发现实体对齐。我们的方法可以利用KG中的关系三元组和属性三元组来发现实体对齐。我们在真实多语言KG的数据上评估了我们的方法,结果显示出我们的方法相对于比较基线具有优势。
在未来工作中,我们将探索更先进的GCN模型用于KG对齐任务,如关系GCN (Schlichtkrull等人,2017)和图注意力网络(GATs)(Velickovic等人,2017)。此外,如何在我们的框架中迭代发现新的实体对齐也是一个有趣的方向,我们将在未来进行研究。
初学者小白,如果不足之处,欢迎指出,欢迎一起交流学习!
原论文地址