SelfKG: Self-Supervised Entity Alignment in Knowledge Graphs
SelfKG:知识图中的自监督实体对齐
ABSTRACT
实体对齐旨在识别不同知识图谱(KG)中的等效实体,是构建网络规模知识图谱的基本问题。在其发展过程中,标签监督被认为是准确对准所必需的。受到自监督学习最近进展的启发,我们探索了在多大程度上可以摆脱实体对齐的监督。通常,标签信息(正实体对)用于监督将每个正实体对中对齐的实体拉近的过程。然而,我们的理论分析表明,实体对齐的学习实际上可以通过将未标记的负对相互远离而不是拉近标记的正对来受益更多。通过利用这一发现,我们开发了实体对齐的自我监督学习目标。我们向 SelfKG 提供了有效的策略来优化这一目标,从而在没有标签监督的情况下协调实体。对基准数据集的大量实验表明,没有监督的 SelfKG 可以与最先进的监督基线相匹配或达到可比的结果。SelfKG 的表现表明,自我监督学习为知识图谱中的实体对齐提供了巨大的潜力。代码和数据可在 https://github.com/THUDM/SelfKG 获取。
1 INTRODUCTION
知识图谱(KG)已在各种 Web 应用程序中得到广泛采用,例如搜索、推荐和问答。 建设大型知识图谱是一项非常具有挑战性的任务。 虽然我们可以从头开始提取新的事实,但对于现实世界的应用场景来说,将现有的(不完整的)KG 对齐在一起实际上是必要的。 在过去的几年里,实体对齐问题,或者说本体映射和模式匹配,一直是Web研究界的一个基本问题。
最近,基于表示学习的对齐方法由于其卓越的灵活性和准确性而成为实体对齐的主流解决方案。然而,它们的成功在很大程度上依赖于人工标签提供的监督,而对于网络规模的知识图谱来说,这种监督可能会存在偏差并且成本高昂。鉴于这一基本挑战,我们的目标是探索在没有标签监督的情况下跨知识图谱对齐实体的潜力(即自我监督的实体对齐)。
为了实现这一目标,我们重新审视已建立的监督实体对齐方法的通用流程。从概念上讲,对于来自两个知识图谱的每个配对实体,现有学习目标的目标是,如果它们实际上是相同的实体(即正对),则使它们彼此更加相似,否则如果它们是不同的实体(即负对),则使它们不相似。在嵌入空间中,通过将对齐的实体拉得更近并将不同的实体推得更远来实现这一目标。
我们确定在此过程中需要监督的部分。首先,监督有助于拉近对齐实体的距离。其次,出现的另一个问题是生成标签感知负对的过程。对于知识图谱中的每个实体,在训练中,其负对是通过从其他知识图谱中随机采样实体而形成的,同时排除真实值。如果没有监督,隐式对齐的实体可能会被采样为负对,从而破坏训练(即碰撞)。
贡献。我们引入了知识图谱中自监督的实体对齐问题。为了解决这个问题,我们提出了SelfKG框架,它不依赖于标记实体对来对齐实体。它由三个技术组件组成:1)相对相似性度量,2)自负采样,3)多个负队列。
为了摆脱标签监督,我们从理论上发展了相对相似度度量(RSM)的概念,它可以实现自监督学习目标。RSM的核心思想是,它不是直接将对齐的实体在嵌入空间中拉得更近,而是尝试将未对齐的负实体推得更远,从而避免使用正实体对的监督。从相对意义上来说,在优化 RSM 时,(隐式)对齐的实体可以被认为是被拖到一起的。
SelfKG通过设计提出了一种自负采样策略,以解决在知识图谱中进行有监督标签意识负采样和无监督负采样中假阴性样本碰撞的困境。具体来说,对于知识图谱中的每个实体,我们通过直接从相同的知识图谱中采样实体来形成其负对。换句话说,SelfKG完全依赖于从输入的知识图谱中随机采样的负实体对。我们从理论上证明了这种策略对于跨知识图谱对齐实体仍然是有效的。
最后,我们的理论分析还表明,随着负样本数量的增加,自监督损失的误差项衰减得更快,即大量的负样本可以使SelfKG受益。然而,动态编码大量负样本在计算上非常昂贵。我们通过扩展MoCo技术来解决这个问题,支持两个负队列,每个负队列对应两个KG进行比对,确保负样本的有效增加。
根据经验,我们进行了大量的实验来证明知识图谱中自监督实体对齐的前提。我们将所提出的 SelfKG 方法与两个广泛使用的实体对齐基准数据集(DWY100K 和 DBP15K)上的 24 个监督基线和 1 个无监督基线进行了比较。结果表明,在不使用任何标签的情况下,SelfKG 可以与最先进的监督基线相匹配或达到可比的性能(参见图 1)。这证明了自我监督学习在实体对齐方面的力量以及我们对 SelfKG 的设计选择。
2 PROBLEM DEFINITION
我们引入了知识图谱中的实体对齐问题。从概念上讲,KG 可以表示为一组三元组 T T T,每个三元组表示两个实体 x i ∈ E x_i\in E xi∈E 和 x j ∈ E x_j\in E xj∈E 之间的关系 r i j ∈ R r_{ij}\in R rij∈R。在这项工作中,我们将 KG 表示为 G = { E , R , T } G = \{E, R, T\} G={E,R,T},其中 E E E、 R R R 和 T T T分别是其实体集、关系集和三元组。
给定两个 KG, G x = { E x , R x , T x } G_{x} = \{E_{x},R_{x},T_{x}\} Gx={Ex,Rx,Tx} 和 G y = { E y , R y , T y } G_{y} = \{E_{y},R_{y},T_{y}\} Gy={Ey,Ry,Ty},现有对齐实体对的集合定义为 S = { ( x , y ) ∣ x ∈ E x , y ∈ E y , x ⇔ y } S=\{(x,y)|x\in E_{x},y\in E_{y},x\Leftrightarrow y\} S={(x,y)∣x∈Ex,y∈Ey,x⇔y},其中 ⇔ \Leftrightarrow ⇔ 表示等价。 G x G_x Gx 和 G y G_y Gy 之间实体对齐的目标是为 E y E_y Ey 中的每个实体(如果存在)从 E x E_x Ex 找到等效实体。
最近,一个重要的工作重点是基于嵌入的技术,用于在向量空间中对齐实体,例如,训练神经编码器 f f f 将每个实体 x ∈ E x\in E x∈E 投影到潜在空间中。在这些尝试中,大多数都集中在(半)监督设置上,即 S S S 的一部分用于训练对齐模型。由于现实世界中 KG 之间的对齐标签有限,我们建议研究实体对齐任务在无监督或自监督的环境中可以在多大程度上解决,在这种情况下, S S S 中的现有对齐都不可用。
3 SELF-SUPERVISED ENTITY ALIGNMENT
3 自我监督的实体协调
在本节中,我们讨论监督在实体对齐中扮演的角色,然后提出可以帮助在没有标签监督的情况下对齐实体的策略。为此,我们提出了 SelfKG 框架,用于跨 KG 的自我监督实体对齐。
3.1 The SelfKG Framework
为了实现无标签信息的学习,SelfKG的主要目标是设计一个可以指导其学习过程的自我监督目标。为了实现这一目标,我们提出了跨两个 KG 的实体之间的相对相似性度量的概念(参见第 3.2 节)。为了进一步提高 SelfKG 的自监督优化,我们引入了自负采样技术(参见第 3.3 节)和多个负队列技术(参见第 3.4 节)。
接下来,我们介绍 SelfKG 中实体嵌入的初始化,它很大程度上建立在现有技术的基础上,包括统一空间学习和基于 GNN 的邻域聚合器。
统一空间学习。 单空间学习的思想已被最近的(半)监督实体对齐技术所采用。 在此,我们介绍如何利用它来支持 SelfKG 的自我监督学习设置。
简单地说,将来自不同知识图谱的实体嵌入到统一空间中可以极大地有利于对齐任务。通过标记实体对,很自然地利用监督将不同的空间对齐到一个空间中,例如,合并对齐的实体进行训练,或者学习具有丰富训练标签的投影矩阵,将来自不同嵌入空间的实体投影到统一空间中。
就多语言数据集(例如 DBP15K)而言,问题更具挑战性。得益于预先训练的语言模型,现在可以使用高质量的多语言初始嵌入。例如,多语言 BERT 已在最近的工作中使用。在 SelfKG 中,我们采用 LaBSE——一种最先进的多语言预训练语言模型,在 109 种不同语言上进行训练——将不同的知识图嵌入到统一空间中。
邻域聚合器。 为了进一步改进实体嵌入,使用邻域聚合将邻居实体的信息聚合到中心实体。 在这项工作中,我们直接使用具有一层的单头图注意网络来聚合一跳邻居的预训练嵌入。
请注意,最近已经探索利用多跳图结构来解决实体对齐问题。尽管一些研究声称它们受益于多跳邻居,但其他研究认为一跳邻居为大多数情况提供了足够的信息。在我们的消融研究中(参见第 4.2 节),我们发现多跳信息实际上损害了 SelfKG 的性能,这可能是由于在自我监督环境中可能不可忽略的遥远邻居噪声造成的。因此,为了演示实体对齐自监督的最低要求,我们在聚合过程中仅涉及一跳邻居实体。
3.2 Relative Similarity Metric
3.2 相对相似度度量
我们提出了跨 KG 的实体对齐的自监督损失。首先,我们分析实体对齐的监督 NCE 损失。然后,我们引入相对相似度度量来避免标记对。我们最终推导出 SelfKG 的自监督 NCE。
在表示学习中,边际损失和交叉熵损失已被广泛采用作为相似性度量。不失一般性,它们可以以噪声对比估计(NCE)的形式表达。
在实体对齐的背景下,NCE 损失可以形式化如下。令 p x , p y p_x,p_y px,py 为两个 KG G x , G y G_x,G_y Gx,Gy 的分布, p p o s p_{pos} ppos 表示正实体对 ( x , y ) ∈ R n × R n (x,y) \in \mathbb{R}^{n}\times\mathbb{R}^{n} (x,y)∈Rn×Rn 的表示分布。 给定一对对齐实体 ( x , y ) ∼ p p o s (x, y) \sim p_{pos} (x,y)∼ppos,负样本 { y i − } i = 1 M ∼ i . i . d . p y \{y_{i}^{-}\}_{i=1}^{M}\stackrel{\mathrm{i.i.d.}}{\sim}p_{y} {yi−}i=1M∼i.i.d.py,温度 τ \tau τ,编码器 f f f 满足 ∥ f ( ⋅ ) ∥ = 1 \|f(\cdot)\|=1 ∥f(⋅)∥=1,我们有 监督 NCE 损失为
L N C E ≜ − log e f ( x ) T f ( y ) / τ e f ( x ) T f ( y ) / τ + ∑ i e f ( x ) T f ( y i − ) / τ = − 1 τ f ( x ) T f ( y ) ⏟ a l i g n m e n t + log ( e f ( x ) T f ( y ) / τ + ∑ i e f ( x ) T f ( y i − ) / τ ) ⏟ u n i f o r m i t y . ( 1 ) \begin{aligned}\mathcal{L}_{\mathrm{NCE}}&\triangleq-\log\frac{e^{f(x)^{\mathsf{T}}f(y)/\tau}}{e^{f(x)^{\mathsf{T}}f(y)/\tau}+\sum_{i}e^{f(x)^{\mathsf{T}}f(y_{i}^{-})/\tau}}\\&=\underbrace{-\frac{1}{\tau}f(x)^{\mathsf{T}}f(y)}_{\mathrm{alignment}}+\underbrace{\log(e^{f(x)^{\mathsf{T}}f(y)/\tau}+\sum_{i}e^{f(x)^{\mathsf{T}}f(y_{i}^{-})/\tau})}_{\mathrm{uniformity}}\:.\end{aligned}\quad\quad(1) LNCE≜−logef(x)Tf(y)/τ+∑ief(x)Tf(yi−)/τef(x)Tf(y)/τ=alignment −τ1f(x)Tf(y)+uniformity log(ef(x)Tf(y)/τ+i∑ef(x)Tf(yi−)/τ).(1)
其中“alignment”项是将正对拉近,“uniformity”项是将负对推开。
我们说明了如何针对自我监督设置进一步调整 NCE 损失。KG 中“pulling”和“pushing”实体对的示例如图 2(左)所示。 之前的研究表明,NCE损失具有以下渐近特性:
定理 1.(绝对相似度度量(ASM)) 对于固定的 τ > 0 \tau>0 τ>0,当负样本数 M → ∞ M \rightarrow \infty M→∞,(归一化)对比损失 L N C E \mathcal L_{NCE} LNCE(即 L A S M \mathcal L_{ASM} LASM)以绝对偏差收敛到其极限 在 O ( M − 2 / 3 ) O(M^{-2/3}) O(M−2/3) 内衰减。如果存在完美均匀的编码器 𝑓,它会形成均匀性项的精确最小值。
定理 1 使 NCE 损失成为需要监督的绝对相似性度量。然而,请注意,尽管 KG 中的实体存在潜在的歧义和异质性,但对齐的对即使名称不完全相同,也应该具有相似的语义含义。此外,已知预先训练的词嵌入通过将相似实体投影到嵌入空间中来捕获这种语义相似性,从而可以确保等式(1)中相对较大的 f ( x ) T f ( y ) f(x)^Tf(y) f(x)Tf(y)。 在等式1中,即“对齐”术语。
因此,为了优化 NCE 损失,主要任务是优化式(1)中的“均匀性”项而不是“对齐”术语。考虑到 f f f 的有界性,我们可以立即绘制 L A S M \mathcal L_{ASM} LASM 的无监督上限,如下所示。
命题1.相对相似度度量(RSM)。 对于固定的 τ > 0 \tau > 0 τ>0 且编码器 f f f 满足 ∥ f ( ⋅ ) ∥ = 1 \|f(\cdot)\|=1 ∥f(⋅)∥=1,我们始终具有以下相对相似性度量加上由常数控制的绝对偏差作为 L A S M \mathcal L_{ASM} LASM 的上限:
L R S M = − 1 τ + E { y i − } i = 1 M ∼ i . i . d . p γ [ log ( e 1 / τ + ∑ i e f ( x ) T f ( y i − ) / τ ) ] ≤ L A S M ≤ L R S M + 1 τ [ 1 − min ( x , y ) ∼ p p o s ( f ( x ) T f ( y ) ) ] . ( 2 ) \begin{aligned}\mathcal{L}_{\mathrm{RSM}}& =-\frac{1}{\tau}+\mathbb{E}_{\{y_{i}^{-}\}_{i=1}^{M}\stackrel{\mathrm{i.i.d.}}{\sim}p_{\gamma}}\biggl[\log(e^{1/\tau}+\sum_{i}e^{f(x)^{\mathsf{T}}f(y_{i}^{-})/\tau})\biggr] \\&\leq \mathcal{L}_{\mathrm{ASM}} \leq \mathcal{L}_{\mathrm{RSM}}+\frac{1}{\tau}\left[1-\min_{(x,y)\sim p_{\mathrm{pos}}}\left(f(x)^{\mathsf{T}}f(y)\right)\right].\end{aligned}\quad\quad(2) LRSM=−τ1+E{yi−}i=1M∼i.i.d.pγ[log(e1/τ+i∑ef(x)Tf(yi−)/τ)]≤LASM≤LRSM+τ1[1−(x,y)∼pposmin(f(x)Tf(y))].(2)
通过优化 L R S M \mathcal L_{RSM} LRSM,通过将不对齐的实体推得更远,对齐的实体相对靠近。换句话说,如果我们不能将对齐的实体拉近(例如,没有正标签),我们可以将那些未对齐的实体推得足够远。
通过分析实体对齐常用的 NCE 损失,我们发现将那些随机采样的(负)对推得远比拉近对齐的(正)对对训练更有好处。因此,在 SelfKG 中,我们只专注于尝试将负面数据推得远远的,这样我们就可以摆脱正面数据(即标签)的使用。
3.3 Self-Negative Sampling
3.3 自负采样
在上面的分析中,我们证明了为了在没有监督的情况下对齐实体,SelfKG 的重点是采样负实体对——一个来自 KG G x G_x Gx,另一个来自 KG G y G_y Gy。在负采样期间,如果没有对标签感知负采样的监督,底层对齐的实体对很可能被采样为负实体对,即发生冲突。通常,如果采样的负数较少,则可以忽略此碰撞概率; 但我们发现大量的负样本对于SelfKG的成功至关重要(参见图4),在这种情况下,碰撞概率是不可忽略的(参见表4),导致性能相对地下降高达7.7%。为了缓解这个问题,考虑到我们正在从 G x G_x Gx 和 G y G_y Gy 的单空间中学习,我们建议从 G x G_x Gx 中对实体 x ∈ G x x \in G_x x∈Gx 采样负数 x i − x^-_i xi−。通过这样做,我们可以通过简单地排除 x x x 来避免冲突,即自负抽样。
然而,由此可能会引发另外两个问题。首先,由于现实世界的噪声数据质量, G x G_x Gx中经常可能存在多个重复的 x x x,这些重复的 x x x可能会被采样为负数。请注意,这也是监督设置面临的挑战,其中 G y G_y Gy 中也可能存在一些重复的 y y y。 通过遵循[38]中的证明概要,我们表明一定量的噪声不会影响 NCE 损失的收敛。
定理 2. (Noisy ASM) 令平均重复因子 λ ∈ N + , τ ∈ R + \lambda\in\mathbb{N}^{+},\tau\in\mathbb{R}^{+} λ∈N+,τ∈R+ 为常数。 噪声 ASM 表示如下,它仍然收敛到 ASM 的相同极限,绝对偏差在 O ( M − 2 / 3 ) O(M^{-2/3}) O(M−2/3) 中衰减。
L A S M ∣ λ , x ( f ; τ , M , p Y ) = ∑ ( x , y ) ∼ p p o s [ − log e f ( x ) T f ( y ) / τ λ e f ( x ) T f ( y ) / τ + ∑ i e f ( x ) T f ( y i − ) / τ ] { y i − } i = 1 M ∼ i . i . d . p y ( 3 ) \begin{aligned}\mathcal{L}_{\mathrm{ASM}|\lambda,x}(f;\tau,M,p_{Y})&=\sum_{(x,y)\sim p_{\mathrm{pos}}}\left[-\log\frac{e^{f(x)^{\mathsf{T}}f(y)/\tau}}{\lambda e^{f(x)^{\mathsf{T}}f(y)/\tau}+\sum_{i}e^{f(x)^{\mathsf{T}}f(y_{i}^{-})/\tau}}\right]\\&\{y_{i}^{-}\}_{i=1}^{M}\overset{\mathrm{i.i.d.}}{\sim}p_{y}\end{aligned}\quad\quad(3) LASM∣λ,x(f;τ,M,pY)=(x,y)∼ppos∑[−logλef(x)Tf(y)/τ+∑ief(x)Tf(yi−)/τef(x)Tf(y)/τ]{yi−}i=1M∼i.i.d.py(3)
第二个问题是,通过将负样本从 y i − ∈ G y y_i^-\in G_y yi−∈Gy 更改为 x i − ∈ G x x_i^-\in G_x xi−∈Gx,我们需要确认 L R S M \mathcal L_{RSM} LRSM 对于实体对齐是否仍然有效。根据经验,对于选定的负样本 y i − ∈ G y y_i^-\in G_y yi−∈Gy,我们可以预期存在一些部分相似的 x i − ∈ G x x_i^-\in G_x xi−∈Gx。由于编码器 f f f 是 G x G_x Gx 和 G y G_y Gy 共享的,因此 f ( x i − ) f(x^-_i) f(xi−) 的优化也将有助于 f ( y j − ) f(y^-_j) f(yj−) 的优化。为了证明这一点,我们提供以下定理。
定理 3.(带自负采样的噪声 RSM) 令 Ω x , Ω y \Omega_{x},\Omega_{y} Ωx,Ωy 分别为 KG 三元组的空间, { x i − : Ω x → R n } i = 1 M , { y i − : Ω y → R n } i = 1 M \{x_{i}^{-}:\Omega_{\mathrm{x}}\to\mathbb{R}^{n}\}_{i=1}^{M},\{y_{i}^{-}:\Omega_{\mathrm{y}}\to\mathbb{R}^{n}\}_{i=1}^{M} {xi−:Ωx→Rn}i=1M,{yi−:Ωy→Rn}i=1M 分别为独立同分布分布为 p x , p y p_x,p_y px,py 的随机变量, S d − 1 S^{d-1} Sd−1 表示 R n \mathbb R^n Rn 中的单球体。 如果存在随机变量 f : R n → S d − 1 s . t . f ( x i − ) f : \mathbb{R}^n \to S^{d-1} \mathrm{s.t.} f(x_i^-) f:Rn→Sd−1s.t.f(xi−) 和 f ( y i − ) f(y_i^-) f(yi−) 在 S d − 1 , 1 ≤ i ≤ M . S^{d-1},1\leq i\leq M. Sd−1,1≤i≤M.上满足相同的分布,则我们有:
lim M → ∞ ∣ L R S M ∣ λ , x ( f ; τ , M , p x ) − L R S M ∣ λ , x ( f ; τ , M , p y ) ∣ = 0. ( 4 ) \operatorname*{lim}_{M\to\infty}|\mathcal{L}_{\mathrm{RSM}|\lambda,x}(f;\tau,M,p_{x})-\mathcal{L}_{\mathrm{RSM}|\lambda,x}(f;\tau,M,p_{y})|=0.\quad\quad(4) M→∞lim∣LRSM∣λ,x(f;τ,M,px)−LRSM∣λ,x(f;τ,M,py)∣=0.(4)
王等人表明,在 p x = p y p_x=p_y px=py 的条件下,编码器 f f f 可以近似为均匀损失的最小化。具体来说, f f f 遵循超球面上的均匀分布。在SelfKG中,统一空间学习条件确保了两个KG的最终统一表示。 最初的 p x p_x px 和 p y p_y py相似但不相同,这表明自负抽样是必要的。然而,随着训练的继续,编码器将会得到改进,因为定理 2 保证使两个 KG 更加对齐。换句话说, G x G_x Gx 和 G y G_y Gy 的实体嵌入可以被视为来自更大空间中的单个分布的样本,即 p x = p y p_x=p_y px=py。这反过来又使得 f f f 的存在变得更加可实现。
在实践中,我们如下联合优化 G x G_x Gx 和 G y G_y Gy 上的损失,如图 2(右)和图 3 所示。
L = L R S M ∣ λ , x ( f ; τ , M , p x ) + L R S M ∣ λ , y ( f ; τ , M , p y ) . ( 5 ) \mathcal{L}=\mathcal{L}_{\mathrm{RSM}|\lambda,x}(f;\tau,M,p_{x})+\mathcal{L}_{\mathrm{RSM}|\lambda,y}(f;\tau,M,p_{y}).\quad\quad(5) L=LRSM∣λ,x(f;τ,M,px)+LRSM∣λ,y(f;τ,M,py).(5)
此外,由于 L λ ( f ; τ , M , p x ) \mathcal{L}_{\lambda}(f;\tau,M,p_{\mathrm{x}}) Lλ(f;τ,M,px) 的误差项在 O ( M − 2 / 3 ) O(M^{-2/3}) O(M−2/3) 中衰减(参见定理 2),我们使用相对大量的负样本来提高性能。
3.4 Multiple Negative Queues
3.4 多个负队列
增加负样本的数量自然会导致额外的计算成本,因为动态编码大量负样本非常昂贵。为了解决这个问题,我们建议扩展 SelfKG 的 MoCo 技术。在MoCo中,维护了一个负队列来将先前编码的批次存储为编码负样本,该队列以有限的成本托管数千个编码负样本。
为了适应SelfKG中的自负采样策略,我们实际上维护了两个负队列,分别与两个输入KG相关联。图 3 显示了一个说明性示例。一开始,我们不会实现梯度更新,直到其中一个队列达到预定义长度 1 + K 1+K 1+K,其中“1”表示当前批次, K K K 表示之前使用的批次数量 作为负样本。给定 ∣ E ∣ |E| ∣E∣ 因为 KG 中的实体数量 K K K、和批量大小 N N N 受到以下约束
( 1 + K ) × N < min ( ∣ E x ∣ , ∣ E y ∣ ) , ( 6 ) (1+K)\times N<\min(|E_x|,|E_y|),\quad\quad\quad(6) (1+K)×N<min(∣Ex∣,∣Ey∣),(6)
保证我们不会在当前批次中抽取实体。因此,当前批次使用的负样本的实际数量为 ( 1 + K ) × N − 1 (1+K)\times N-1 (1+K)×N−1。
Momentum update. 负队列带来的主要挑战是编码样本过时,特别是在训练早期编码的样本,在此期间模型参数变化很大。因此,仅使用一个频繁更新的编码器的端到端训练实际上可能会损害训练。为了缓解这个问题,我们采用动量训练策略,该策略维护两个编码器——在线编码器和目标编码器。虽然在线编码器的参数 θ o n l i n e \theta_{online} θonline 通过反向传播立即更新,但用于编码当前批次然后推入负队列的目标编码器 θ t a r g e t \theta_{target} θtarget通过动量异步更新:
θ t a r g e t ← m ⋅ θ t a r g e t + ( 1 − m ) ⋅ θ o n l i n e , m ∈ [ 0 , 1 ) ( 7 ) \theta_{\mathrm{target}}\leftarrow m\cdot\theta_{\mathrm{target}}+(1-m)\cdot\theta_{\mathrm{online}},m\in[0,1)\quad\quad(7) θtarget←m⋅θtarget+(1−m)⋅θonline,m∈[0,1)(7)
适当的动量不仅对于稳定的训练很重要,而且还可能通过避免表示崩溃来影响最终的表现(参见图 4)。我们在第 4 节中介绍了一系列相关的超参数研究。
总结。 我们提出了 SelfKG 用于自我监督的实体对齐。图 2 说明: 1. 相对相似度度量 (RSM) 将 x x x 的非对齐实体( y 0 − y^-_0 y0−、 y 1 − y^-_1 y1− 和 y 2 − y^-_2 y2− )推得足够远,而不是直接将底层对齐的 y y y 拉近 x x x(标记为对),无需标签监督即可进行学习; 2. 自负采样从 G x G_x Gx中采样负实体 x x x,以避免将真实 y y y采样为其负数。 图3说明了SelfKG的训练。 它利用现有技术(来自预训练语言模型和邻域聚合器的嵌入)将实体嵌入初始化到统一空间中。 SelfKG的技术贡献在于:
(1) 式2中自监督损失的设计通过 KG 中的相对相似度度量 (RSM) 启用;
(2)自负抽样策略进一步推进了方程2代入方程5避免样本出现假阴性;
(3)将MoCo扩展到两个负队列以支持大量负样本的有效使用。
4 EXPERIMENT
我们根据两个广泛认可的公共基准评估SelfKG:DWY100K 和 DBP15K。DWY100K 是单语言数据集,DBP15K 是多语言数据集。
DWY100K。 这里使用的 DWY100K 数据集最初由[31]构建。DWY100K 由两个大型数据集组成: D W Y 100 K d b p _ w d DWY100K_{dbp\_wd} DWY100Kdbp_wd(DBpedia 到 Wikidata)和 D W Y 100 K d b p _ y g DWY100K_{dbp\_yg} DWY100Kdbp_yg(DBpedia 到 YAGO3)。 每个数据集包含 100,000 对对齐的实体。 然而, D W Y 100 K d b p _ w d DWY100K_{dbp\_wd} DWY100Kdbp_wd 的“wd”(维基数据)部分中的实体由索引(例如 Q123)表示,而不是包含实体名称的 URL,我们通过 Wikidata API for python 搜索它们的实体名称。
DBP15K。 DBP15K 数据集最初由 [30] 构建,并由 [42] 翻译成英文。DBP15K由三个跨语言数据集组成: D B P 15 K z h _ e n DBP15K_{zh\_en} DBP15Kzh_en(中文到英语)、 D B P 15 K j a _ e n DBP15K_{ja\_en} DBP15Kja_en(日语到英语)和 D B P 15 K f r _ e n DBP15K_{fr\_en} DBP15Kfr_en(法语到英语)。 所有三个数据集均由多语言 DBpedia 创建,每个数据集包含 15,000 对对齐实体。我们报告原始版本和翻译版本的结果。
我们在工作中使用的 DWY100K 和 DBP15K 的统计数据如表 1 所示。除了基本信息之外,我们还对数据集的平均(1 跳)邻居相似度进行了研究,即一对对齐邻居的对齐邻居的比率 实体,表明邻域信息的噪声程度。我们观察到 DWY100K 的邻域信息非常有用,而 DBP15K 的邻域信息可能非常嘈杂。
实验设置。 我们遵循表1所示的DWY100K和DBP15K的原始分割。对于SelfKG,我们从原始训练集中随机取出5%作为早期停止的开发集。像大多数作品一样,我们使用 H i t @ k ( k = 1 , 10 ) Hit@k(k = 1, 10) Hit@k(k=1,10) 来评估我们模型的性能。相似度分数是使用两个实体嵌入的 ℓ 2 \ell_2 ℓ2 距离计算的。批量大小设置为 64,动量 m m m 设置为 0.9999,温度 τ \tau τ 设置为 0.08,队列大小设置为 64。我们在配备 NVIDIA V100 GPU(32G) 的 Ubuntu 服务器上对 Adam 使用 1 0 − 6 10^{−6} 10−6 的学习率。
4.1 Results
在这一部分中,我们报告 SelfKG 的结果以及 DWY100K 和 DBP15K 的基线。对于所有基线,我们从相应的论文中获取报告的分数,或者直接从 BERT-INT、CEAFF或 NAEA的表格中获取。根据训练标签的使用比例,我们将所有模型分为两类:
- 受监督:训练集中 100% 的对齐实体链接得到利用
- 无监督和自监督:利用了 0% 的训练集。
DWY100K 的整体性能。 从表 2 中,我们观察到 SelfKG 优于除监督 CEAFF 和 BERT-INT 之外的所有监督和无监督模型。然而,在没有任何监督的情况下,SelfKG 在 D W Y 100 K d b p _ w d DWY100K_{dbp\_wd} DWY100Kdbp_wd 上仅落后于受监督的最先进的 CEAFF 1.2%。 D W Y 100 K d b p _ y g DWY100K_{dbp\_yg} DWY100Kdbp_yg 之所以能够使 SelfKG 达到如此高的准确率,是因为其对齐的实体对的名称分别具有很大的相似性,这使得这个数据集更加容易。这一鼓舞人心的结果意味着,至少对于像 DWY100K 这样的单语言数据集,监督对于实体对齐来说并不是完全必要的。
DBP15K 的整体性能。 对于 DBP15K 数据集,我们发现不同的基线在实现中使用不同版本的 DBP15K。例如,BERT-INT 使用[30]构建的原始多语言版本,而其他一些方法包括RDGCN 和DGMC 使用机器翻译(谷歌翻译)来翻译非英语数据集( 即 DBP15K 的 zh、ja、fr) 转换为英文。 如果 DBP15K 被翻译,则在某种程度上不应将其视为多语言设置。为了公平比较,我们报告了 SelfKG 在两种设置下的结果。
我们观察到,SelfKG 击败了除 HMAN 、CEAFF 和 BERT-INT 之外的所有先前监督模型。最先进的监督技术与 SelfKG 之间存在差距,这表明多语言对齐肯定比单语言设置更复杂。我们还观察到不同语言数据集之间存在明显的差距。 D B P 15 K z h _ e n DBP15K_{zh\_en} DBP15Kzh_en 的 Hit@1 最低, D B P 15 K j a _ e n DBP15K_{ja\_en} DBP15Kja_en居中, D B P 15 K f r _ e n DBP15K_{fr\_en} DBP15Kfr_en得分最高。然而,如果我们回想表1中给出的邻居相似度得分,则 D B P 15 K z h _ e n DBP15K_{zh\_en} DBP15Kzh_en 具有最高的邻居相似度。这一发现表明,性能差异主要归因于多语言环境带来的挑战,而不是结构相似性。
4.2 Ablation Study
我们分别对 SelfKG 的 DWY100K 和 DBP15K 进行了广泛的消融研究。我们根据其引入的不同类型的信息消融了组件。此外,我们以 D B P 15 K z h _ e n DBP15K_{zh\_en} DBP15Kzh_en数据集为例对一些重要的超参数进行了研究。
在表 4 中,我们提出了在 DWY100K 和 DBP15K 上对 SelfKG 进行的消融研究,包括邻域聚合器的消融和基于相对相似性度量(RSM)的自监督对比训练目标的消融(即使用LaBSE)。 我们首先观察到 LaBSE 提供了相当好的初始化。然而,仅有 LaBSE 还不够。 正如我们所看到的,在 DWY100K 上,LaBSE 从我们的 RSM 中受益匪浅,在 D W Y 100 K d b p _ w d DWY100K_{dbp\_wd} DWY100Kdbp_wd 上绝对增益超过 10%,在 DBP15K 上绝对增益超过 5%。邻域聚合器的使用在 DWY100K 和 DBP15K 上都提高了 SelfKG,这表明引入邻域信息的重要性。
此外,我们在没有自负采样策略的情况下测试 SelfKG 的性能,这意味着我们像大多数基线一样从目标 KG 中采样负实体,但没有标签(这可能会引入真正的正实体)。 结果表明,自负采样对于SelfKG来说是必要的,它带来了2-7%的绝对增益。虽然策略性能的提高可以部分归因于避免碰撞,但细心的读者可能会想到为什么可能存在的重复实体的危害不如碰撞那么严重。可以潜在地解释,实体对齐任务评估不同 KG(例如 G x G_x Gx和 G y G_y Gy)之间的对齐准确性,而不是在一个 KG 内(例如 G x G_x Gx)。即使我们可能对 G x G_x Gx 中的重复实体进行采样并将它们推开,它可能只会对其与 G y G_y Gy 中的目标实体 y y y 的相似性产生有限的影响。
预训练单空间嵌入质量的影响。 为了阐明不同预训练词嵌入的影响,我们进行了一项实验,用基线方法中广泛使用的 FastText 嵌入替换 SelfKG 中使用的 LaBSE 嵌入。
首先,比较有训练和没有训练的 FastText 结果,表 5 中训练后的结果始终比训练前的结果高 8.5% - 17.2%。这些结果也优于之前所有的无监督基线,表明 SelfKG 在应用时的有效性 任何嵌入初始化。
其次,将 FastText 结果与 LaBSE 结果进行比较,我们还证实,与 FastText 词嵌入相比,LaBSE 等更强的预训练语言模型将提高 SelfKG 的性能。基线方法也是如此,例如 HMAN 和 BERT-INT,它们利用多语言 BERT 作为编码器。 尽管有更好的预训练嵌入,但在我们的消融研究中(参见表 4 和表 5),我们表明“-w.o. RSM + nrighbors”(即 SelfKG 训练之前的 LaBSE)可以显着提高 6.4% - 28.2% SelfKG,它展示了我们方法的有用性。
关系信息和多跳结构信息的影响。 为了更好地检验关系结构信息是否有助于自监督环境(这可能与之前的监督观察结果不同),我们首先进行合并多跳信息的实验,然后整合关系信息。表 6 显示了当利用多跳邻居(更具体地说,20 个最近邻居子图)而不是 1 跳邻居时 DBP15K 上的结果。我们观察到性能实际上更差。这可能是因为不同知识图谱的异质性,也因为邻居噪声可能在自我监督的环境中被放大。
基于1跳限制,对于合并关系信息,我们将关系名称嵌入及其相应的尾实体名称嵌入作为新的1跳邻居嵌入。我们可以看到,使用关系信息,结果略有改善,这表明关系信息有一点用处。
超参数的影响。 SelfKG中的主要超参数是(1)负队列大小和批量大小(影响负样本的容量),(2)控制SelfKG训练稳定性的动量系数 m m m。
正如定理1和定理2所指出的,对比损失的误差项随 O ( M − 2 / 3 ) O(M^{-2/3}) O(M−2/3)衰减,这表明扩大负样本数量的重要性。将batch size固定为64,改变负队列的大小,得到如图4所示的曲线。当队列大小在100到101之间时,性能提升并不明显;当队列大小在100到101之间时,性能提升不明显;但当它增长到 102 时,改进就变得显着了。 将队列大小固定为64,随着batch size的增加,提升更加稳定,从101到102。
对于动量系数 m m m,我们发现适当大的 m m m(例如 0.9999)通常对 SelfKG 更好。此外,适当的 m m m 对于更好的训练稳定性也至关重要(参见图 4)。 小动量会导致更快的收敛,但也会导致表示崩溃和随之而来的较差性能。太大的动量(例如 0.99999)收敛太慢。
4.3 SelfKG v.s. Supervised SelfKG
在实践中,我们经常遇到数据资源低、监管非常有限的情况。为了证明 SelfKG 的可扩展性,我们在不同的数据资源设置上将自监督 SelfKG 与 D B P 15 K z h _ e n DBP15K_{zh\_en} DBP15Kzh_en 上的监督对应 SelfKG (sup) 进行比较。 SelfKG (sup) 遵循传统的监督实体对齐方法,使用绝对相似度度量,如式 3所示。
在我们的初步实验中,我们发现原始 DBP15K 的数据分割(30% 标签用于训练,70% 用于测试)不足以展现 SelfKG (sup) 的优势,导致 SelfKG (sup) 的 Hit@1 为 0.744 )和 SelfKG 为 0.745。 因此,我们构建了 D B P 15 K z h _ e n DBP15K_{zh\_en} DBP15Kzh_en 的新分割,其中 20% 用于测试,80% 用于构建不同大小的训练集。结果如图 5 所示,其中横轴表示 SelfKG (sup) 的训练标记实体与所有实体的比率。我们观察到 SelfKG 与使用 25% 标记实体量的 SelfKG (sup) 大致相当,这与我们在上述初步实验中的观察结果一致。当使用少于 25% 的标记实体量时,SelfKG 的表现比 SelfKG (sup) 好得多,这证明了 SelfKG 在低监督数据资源设置中的有效性。
5 RELATED WORK
实体对齐。 实体对齐,也称为实体解析、本体对齐或模式匹配,是知识图谱社区中的一个基本问题,已经研究了几十年。在深度学习时代之前,大多数方法都专注于设计适当的相似性因子和基于贝叶斯的概率估计。[34]提出了将一致性转变为最小化决策风险的想法。RiMOM提出了一种多策略本体对齐框架,该框架利用笛卡尔积的主要相似性因素来无监督地对齐概念。主张基于规则的链接并设计规则发现算法。[53]开发了一种基于因子图模型的高效多网络链接算法。
最近,基于嵌入的方法因其灵活性和有效性而引起了人们的关注。TransE是最开始引入嵌入方法来表示关系数据的。开发了基于TransE的知识图谱对齐策略。[30]主张跨语言实体对齐任务并从 DBpedia 构建数据集。[51]建议将实体自我网络嵌入到向量中以进行对齐。[39]引入GCN对知识图中的实体和关系进行建模以执行对齐。[36]认为我们可以使用属性和结构来相互监督。BERT-INT提出了一种基于BERT的交互式实体对齐策略,并显着提高了公共基准上的监督实体对齐性能。[50]设计异构图注意网络来跨开放学术图执行大规模实体链接。
然而,现在大多数基于嵌入的方法严重依赖监督数据,阻碍了它们在真实网络规模噪声数据中的应用。作为先前的努力,在[22]中,作者提出了概念链接的自监督预训练,但具有下游监督分类。在这项工作中,我们努力研究不使用标签的完全自我监督方法的潜力,以降低实体对齐成本,同时提高性能。
自我监督学习。 自监督学习无需人工监督即可学习数据中的共现关系,是一种数据高效且功能强大的机器学习范式。我们可以将它们分为两类:生成式和对比式。
生成式自监督学习通常与预训练有关。例如BERT、GPT、XLNet等开拓了语言模型预训练领域,推动了自然语言处理的发展。最近 MoCo 和 SimCLR在计算机视觉领域提出了对比自监督学习来进行成功的视觉预训练。利用实例辨别和对比损失的核心思想已被证明对于下游分类任务特别有用。自监督学习也被应用于图预训练任务,例如在GCC中,作者使用对比学习来预训练子图的结构表示,并将模型转移到其他图上。[47]建议按照 SimCLR 的策略向采样图添加增强,以提高图预训练性能。
6 CONCLUSION
在这项工作中,我们重新审视了实体对齐问题中监督的使用和效果,该问题的目标是在不同知识图谱中对齐具有相同含义的实体。基于我们得出的三个见解 - 单空间学习、相对相似性度量和自负采样,我们开发了一种自监督实体对齐算法 - SelfKG - 无需训练标签即可自动对齐实体。在两个广泛使用的基准 DWY100K 和 DBP15K 上的实验表明,SelfKG 能够击败或匹配大多数利用 100% 训练数据集的监督对齐方法。我们的发现表明在实体对齐问题中摆脱监督的巨大潜力,并且预计会有更多的研究来更深入地理解自监督学习。
论文链接:
https://arxiv.org/pdf/2203.01044
GitHub仓库:
https://github.com/THUDM/SelfKG