摘要
知识图表示学习(KGRL)或知识图嵌入(KGE)在知识构建和信息探索的人工智能应用中起着至关重要的作用。这些模型旨在将知识图中的实体和关系编码到低维向量空间中。在KGE模型的训练过程中,使用正样本和负样本是区分的必要条件。然而,直接从现有的知识图中获得负样本是一个挑战,强调需要有效的生成技术。这些负样本的质量极大地影响了学习嵌入的准确性,使它们的生成成为KGRL的一个关键方面。本文系统地综述了各种负抽样方法及其对KGRL成功的贡献。通过将现有的NS方法分为五种不同的类别,概述了它们各自的优缺点。此外,这项调查确定了开放的研究问题,作为未来调查的潜在方向。通过对基本神经网络概念的概括和统一,本研究为在KGRL背景下设计有效的神经网络方法提供了有价值的见解,并为该领域的进一步发展提供了动力。
知识图谱的嵌入:更好更快的负采样_哔哩哔哩_bilibili姚权铭,第四范式机器学习研究小组负责人,香港科技大学计算机博士,2018年香港科技大学博士杰出研究奖;2016谷歌博士奖学金获得者如需进公开课交流群,可添加weixin:yq571343974, 视频播放量 2668、弹幕量 3、点赞数 44、投硬币枚数 28、收藏人数 152、转发人数 18, 视频作者 AI研习社, 作者简介 欢迎关注我,AI 人的求职求知社区(ai.yanxishe.com),相关视频:毕设有救了!基于知识图谱构建【医疗问答系统】,从环境搭建到项目实战,看完全跑通!——深度学习/AI,突破注意力机制魔改瓶颈:频域+attention,暴力涨点!,顶会项刊=注意力机制+可变形卷积?竟然提速80%,不得不看的11种前沿创新,【122集付费!】CNN、RNN、GAN、GNN、DQN、Transformer、LSTM等八大深度学习神经网络一口气全部学完!,当人工智能神经网络识别一条狗时,内部是如何工作的?计算机大佬通俗易懂的讲解人工智能神经网络原理!——(人工智能、深度学习、机器学习、AI),神经网络必看!如何从零入门CNN、RNN、GAN、GNN、DQN、Transformer、LSTM等!清华大佬一天就教会了我如何入门神经网络算法,究极通俗易懂,B站强推!【transformer从零入门】不愧是北大大佬王树森主讲!仅用3小时就将transformer原理彻底讲透彻了!真的通俗易懂!建议收藏!(人工智能),最好的pytorch代码入门教程!适合所有代码不好却需要用pytorch的同学!人工智能/深度学习/机器学习,不同神经网络都是做什么的?迪哥精讲五大神经网络(卷积、递归、生成、LSTM与Transformer)一次学懂算法原理与实战!,商汤科技丨如何做模型量化,训练极低比特网络https://www.bilibili.com/video/BV1yZ4y1H7VC/?spm_id_from=333.337.search-card.all.click&vd_source=feb9b626f23d0b3640d7a9b47b280fc2
3 Negative Sampling in KGRL
本节提供了知识图表示学习中使用的负抽样技术的全面和系统的检查。为了帮助更好地理解和比较,我们将这些方法分为五个不同的组,每个组包含其子类型。表2给出了负抽样技术的综合分类。
3.1 Static NS
静态负抽样是知识图表示学习中常用的一种方法,它为训练模型生成负样本来区分真假陈述。在这种方法中,采用了封闭世界假设(CWA),其中任何不存在于知识图中的三元组都被认为是负实例。然而,由于知识图谱固有的不完全性,封闭世界假设提出了实际的挑战。此外,使用这种方法生成的负面实例中大量不正确的事实可能导致过大的大小(O(N2))。
在知识图表示学习中,常用的静态负抽样方法有四种。图3说明了利用这些变体训练KGRL模型所涉及的一般训练步骤。随机负抽样是一种通过随机破坏正实例来生成负实例的流行方法,如图3 (a)所示。然而,概率负抽样方法使用固定分布P来根据各种因素(如训练数据中的实体频率或其他标准)选择负样本,如图3 (b)所示。一些静态负抽样方法依赖于预训练模型来生成一组固定的质量负。如图3 (c)所示。相反,基于辅助数据的负抽样方法使用辅助数据,如知识图的类型信息、语义和预先生成的结构信息来生成负抽样,如图3 (d)所示。
3.1.1 Random
均匀[20]负抽样是KGRL中采用的主要方法。该方法通过使用均匀分布从实体集E中随机选择的实体替换正三元组(h, r, t)的头部实体h或尾部实体t来解决生成负实例的挑战。这个选择过程是在一个(局部)封闭世界(LCWA)的假设下进行的,其中知识图被认为是不完整的。然而,均匀负抽样有其局限性,如产生假阴性样本。例如,将“达芬奇”替换为“米开朗基罗”(DaVinci, Gender, M ale)会得到一个事实正确的否定三重(M ichelangelo, Gender, Male),这被认为是假否定。这是因为统一负抽样没有考虑KG中实体之间的语义关系,因此它不能区分真阴性和假阴性。
随机腐败[55]负抽样是对均匀抽样方法的一种扩展。该方法除了将正三元组的头或尾实体替换为负三元组外,还将正三元组的关系替换为随机关系r∈r,以增强关系信息的表示。 论文用的这一种
Batch NS[56]提出了一种解决资源重新分配问题的新策略。这种方法促进了同一小批量样品的重复使用,作为阴性候选物,有效地扩展了传统的均匀采样技术。通过提倡这种重用,Batch NS提供了一个独特的视角来减轻与负采样相关的挑战。
此外,随机负抽样容易出现梯度消失的问题,这降低了负抽样在训练模型中的有效性。使用随机负抽样生成的负不能解释嵌入空间中的动态更新。例如,三元组(DaV inci, painted, MonaLisa)在通过随机负抽样生成时,可能产生(DaV inci, painted, F france)或(F france, painted, MonaLisa)这样的负数。这样的三元组可能会阻碍KGE模型的收敛,因为它们很容易与基于实体类型的真三元组区分开来。
3.1.2 Probabilistic
在KGRL领域内,假阴性是一个重大挑战。为了解决这个问题,人们提出了各种负抽样方法。其中一种方法是伯努利[21]负采样,它已经证明了其在提高KGRL性能方面的有效性。伯努利负抽样基于关系的映射性质,用不同概率替换正三元组的头或尾实体。替换头部实体的概率是根据与每个头部实体相关联的尾部实体的平均数量(tph)和与每个尾部实体相链接的头部实体的平均数量(hpt)计算的。这个概率,用Ph表示,确定为Ph = tph/(tph + hpt)。同样,替换尾部实体的概率计算为。此外,替换实体和关系的概率是根据知识图中实体和关系的各自计数来确定的。
然而,在涉及约束或不平衡数据的情况下,使用均匀或伯努利负抽样方法可能无法充分捕获目标三元组的缺失成分。引入了概率负抽样[57]来解决这一问题。该方法使用训练偏差(β)调优参数来加速损坏三元组的创建。参数β通过考虑知识库中实体和关系的分布,确定生成的负面实例与先前列出的可能实例互补的概率。
也提出了伯努利负抽样的扩展My-X[58]。该方法将正三元组中的头实体、尾实体或关系替换为由知识图中实体和关系的数量决定的概率。关系替换α的概率定义为。My-X扩展了伯努利实体替换概率,引入替换头部实体的概率为
SparseNSG[59]通过引入与关系r相关的实体数量的额外统计量(表示为扩展了My-X方法。关系替换概率改进为,而替换头部(Ph)和尾部(Pt)实体的概率与My-X保持一致。将该方法应用于结构复杂的广泛且稀疏连接的知识图,可以显著提高知识图嵌入模型的性能。
相反,Domain NS[28]方法引入了一种开创性的方法,该方法考虑了知识图中实体的领域特定特征。在该方法中,引入了一个关系相关的概率Pr,通过从同一域中以概率Pr和从整个实体集E中以概率1−Pr选择实体来破坏正三元组。关系相关的概率(Pr)表示为Pr = min(λ|MH||MT || Nr|, 0.5),其中MH和MT分别表示与关系r相关的头域和尾域。Nr表示与关系r相关的边集。超参数λ在平衡领域特定信息的重要性和实体集的全面覆盖之间起着至关重要的作用。
3.1.3 External Model-Based
外部基于模型的方法是一类采用预训练的KG嵌入来选择负样本以破坏正三元组的头部或尾部实体的方法。两种这样的方法是最近邻[60](NN)采样和近Miss [60] (NMiss)采样。神经网络采样有助于生成与嵌入空间内的正三元组非常接近的负样本。这种接近性允许目标KGE模型通过有效区分积极实例和与之非常相似的消极实例来辨别潜在语义。相比之下,NMiss抽样选择的负面候选人排名高于正面候选人,有利于目标模型更好地学习区分。
LEMON[61]是一种明确强调通过整合与实体相关的互补知识生成信息性负样本的方法。该方法利用预训练的语言模型,根据邻近实体的文本信息创建集群,利用实体之间的距离获得符号实体表示。使用Sentence-BERT[91]获得实体标签的嵌入,并将相似的实体聚类在一起。邻域降维技术,即主成分分析(PCA)[92],被用于调整预训练语言模型嵌入的维数。采用k -means++[93]算法构建邻域聚类。
3.1.4 Auxiliary Data-Based
已经设计了几种方法来改进负样本的选择,以便在正三元组中破坏头部或尾部实体。其中一种方法涉及利用基于模式的kg,它提供实体和关系类型的语义特征的详细描述。type - constraints[15]负抽样方法就是这种方法的一个例子,它利用关系类型的类型约束的先验知识来生成有意义的负实例。这是通过使用定义头和尾实体类的rdfs:domain和rdfs:range属性,利用RDF-Schema提取关系类型上的类型约束来实现的。类型约束LCWA将类型约束与局部闭世界假设(LCWA)相结合,减少了关系类型之间的不一致性。与其他在类级别上考虑域和范围约束的技术不同,Type-Constraints LCWA在实例级别上应用这些约束,甚至可以为缺乏已定义模式的知识图构建关系类型。
RCWC (Range-Constrained with Co-occurrence)[62]将两个尾实体之间的共现度量定义为co_occurrence (t, t '),表示为特定关系子集G (r)中共有的头实体的数量。这里,G (r)表示由关系r连接的实体对的集合,实体是根据特定于关系的约束选择的。当两个尾部实体t和t '表现出显著的共现时,这表明(h, t ')作为假阴性的存在可以从(h, t)∈G(r)的存在中推断出来。为了从正样本中生成负样本,表示为(h, t), RCWC方法排除了共现计数co_occurs (t, t ')超过预定义阈值δrcwc的损坏实体t '。RCWC负抽样过程可以定义为N (r) RCWC (h, t) = {(h, t ') | t '∈range(r),(h, t ')∈G / (r)} \ {(h, t ') | co_occurrence (t, t ') > δrcwc},其中range(r)表示存在h∈E使得(h, t)∈G(r)的实体集合t。
TransXc[63]是专门为保留与关系相关的特定信息而开发的,可在广泛的传统基于翻译的嵌入技术中得到有效利用。为了实现这一目标,该方法利用了一对逻辑回归分类器,其中一个用于捕获关系域的特征,另一个用于捕获关系范围的特征。结合三重信息和关系的域和距离信息,对KGE模型和分类器进行联合训练。在生成负样本时,TransXc替换给定三元组(h, r, t)的头实体或尾实体,以确保被替换实体与关系r的连接形成一个负样本,该负样本在整个知识图中被分类为在关系r的域(或范围)内。
条件约束[64]NS是一种利用原理图域和范围约束,并在OWL约束的基础上引入条件约束来提高负样本质量的负采样方法。它收集数据集中所有实体的类型信息,并通过检索具有rdfs:domain或rdfs:range或owl:onProperty(暗示该关系是owl:Restriction定义的一部分)的所有关系,从本体中提取约束规则。
另一种利用KG结构的技术是结构感知负抽样(SANS)[65],它利用KG的复杂图结构来选择负结构的候选物。具体来说,它通过检查给定节点的k-hop邻域来选择负样本,利用KG中节点之间的丰富连接来生成更多信息丰富的负样本。
3.1.5 Pros and Cons.
在效率方面,随机负抽样(NS)是最快的方法,而概率NS需要额外的步骤来生成负。相反,基于外部模型的神经网络需要对外部模型进行预训练,而基于辅助数据的神经网络需要处理辅助数据,从而增加了计算开销。在有效性方面,静态NS方法产生的是负值,没有考虑负值分布的动态变化,这会阻碍收敛。另一方面,基于外部模型和基于辅助数据的NS通过利用外部知识生成语义上有意义的否定,从而提高性能。然而,这些方法的数据密集程度更高,可能无法普遍适用于所有场景。在稳定性方面,概率NS方法比随机NS方法表现出更大的稳定性。然而,基于外部模型和辅助数据的神经网络不太稳定,因为它们的有效性依赖于提取的数据和知识的质量和可用性。在独立性方面,随机神经网络和概率神经网络对侧信息的依赖性较低。相比之下,基于外部模型的神经网络强烈依赖于底层知识图嵌入(KGE)模型,而基于辅助数据的神经网络依赖于辅助数据的存在或生成事实的质量。相比之下,SANS基于典型的KG事实构建辅助信息,表现出与侧面信息的独立性。最后,在质量方面,随机NS方法可能会出现假阴性,而概率NS方法则不太容易产生假阴性。基于外部模型和基于辅助数据的NS方法生成语义上有意义的否定,但仍然可能引入假否定的问题。
3.2 Dynamic NS
在知识图表示学习领域,静态抽样方法倾向于产生简单的负样本,这可能会用琐碎的样本淹没训练过程,可能导致梯度问题消失。为了避免这种情况,研究人员提出了基于动态分布的抽样方法。这些技术的目的是响应嵌入空间的动态性,并通过考虑负样本空间的动态分布来产生负的高可能性。图4演示了使用各种动态负采样技术训练KGRL模型的常见步骤。基于外部模型的负抽样方法旨在通过维护外部机器学习模型来生成高质量和有效的负样本,该模型会根据目标KGE模型的动态变化不断更新自身,如图4 (a)所示。该方法利用外部模型来生成有效的负样本。自动态负采样技术仅根据目标嵌入空间的变化产生负样本。然而,它们不同于自对抗负抽样方法,因为它们不考虑动态概率分布。相反,它们依赖于嵌入向量的变化来选择负候选,如图4 (b)所示。相反,基于辅助数据的负采样方法通过参考辅助数据,如模式、类型约束和其他相关信息,同时考虑目标嵌入空间的变化,得出有效的负,如图4 (c)所示。
3.2.1 External Model-Based
自适应负抽样(Adaptive negative sampling, ANS)[66]是一种利用Kmeans[94]聚类模型生成负样本的方法。最初,ANS将所有实体划分为K-means聚类中相似实体的组。然后,对于每个正三元组,从头或尾实体所属的聚类中选择一个负实体来替换相应的实体。采用一种延迟更新机制,在知识图嵌入模型训练多次后更新聚类模型,而不是立即更新聚类模型,以考虑知识图嵌入的变化和更新聚类。
实体感知负采样(Entity-aware negative sampling, EANS)[67]是ANS的扩展,可以提高生成负样本的质量。ean在对齐的实体索引空间中采用高斯分布对与正实体相似的负实体进行抽样。EANS利用K-means聚类模型提前对相似实体进行分组,并基于这些聚类对负面实体进行采样。ean维护一个索引映射来跟踪相应的簇以选择负样本,避免了在每一步计算距离的需要。此外,ean用高斯分布取代了用于破坏正三元组的均匀分布。ean还采用延迟更新方法来更新聚类嵌入和映射索引。
3.2.2 Self
与均匀负抽样方法相比,ϵ-Truncated均匀负抽样(ϵ-Truncated UNS)[68]采用了一种更有约束的方法,将抽样范围限制在一组特定的候选对象上。该方法选择嵌入空间中最近的s个邻居作为潜在的负样本,其中s由方程s =≤(1−λ)N≤决定。其中,λ∈[0,1)表示比例,N表示KG中实体的个数,∑·φ表示上限函数。ϵ-Truncated UNS方法利用嵌入之间的余弦相似度来识别相似的邻居,从而形成候选集。
截断负采样(Truncated Negative Sampling, Truncated NS)[69]集成ϵ-Truncated UNS生成负样本,同时扩展相似性度量,以包含实体e的结构嵌入向量ese和属性嵌入向量ece。结构嵌入组件通过编码实体之间的关系来捕获两个知识图的底层结构特征。另一方面,属性嵌入组件侧重于揭示实体对齐上下文中的潜在语义信息。相似度度量定义为,其中SIM(。, .)表示余弦相似度,G1和G2表示实体对齐任务中考虑的两个知识图。
分布式负抽样(DNS)[71]技术利用了知识图(KG)中相同类型的实体经常共享多个关系的观察结果,使它们在分布上相似。这种方法包括用属于同一类型的其他实体替换给定三元组中的实体,从而生成有意义的断言。DNS利用目标知识图嵌入模型学习的实体嵌入来捕获原始KG中实体的分布属性。在生成负样本的过程中,DNS利用这些嵌入之间的余弦相似度作为候选实体之间语义相似度的近似值。
关联依赖负抽样(Affinity Dependent Negative Sampling, ADNS)[70]是另一种基于扩展DNS所涉及的实体的关联来生成负三元组的方法。在ADNS中,计算候选实体(由另一个实体替换的头或尾)与所有其他实体之间的余弦相似度,并将其存储为亲和力向量。然后将亲和向量用作实体列表中每个实体的概率向量,方便选择更可能与候选实体具有更高余弦相似性的实体。ADNS在每个epoch更新亲和向量,以解释KG嵌入的变化。重要
硬负样本-得分函数(HNS-SF)和硬负样本-正确实体相似度(HNSCES)方法最初被引入MixKG中作为硬负抽样的选择策略[72]。MixKG利用混合方法通过在知识图(KGs)中包含不存在的实体来构造负三元组来生成负样本。HNS-SF涉及使用评分函数f计算候选阴性的分数(例如,尾部腐败评分:s(t ' m) = f(h, r, t ' m)),然后按降序对这些分数进行排序。选择硬阴性样本包括选择K个得分最高的阴性三胞胎。在HNS-CES中,通过点积(s(t’m) = t·t’m)计算正实体(如尾巴)与每个候选实体之间的相似度得分,然后选择相似度得分最高的K个候选实体(s(t’m))作为负三组。
简单负抽样(SNS)[73]提出了一种平衡开发和探索的负抽样技术。最初,SNS统一选择阴性候选人,排除已知的阳性候选人。为了缓解利用问题,SNS(抽样负抽样)引入了一种称为最近最少选择(LRS)的数据结构,表示为LRS[q ' h, q ' t],它作为前一步中损坏头部和尾部实体产生的负样本的存储库。更具体地说,当考虑尾部实体的负候选集时,q ' 1 (t)被修改为包含最近最少选择(LRS)的负样本,如下所示:q ' 1 (t):= q ' 1 (t)∪LRS[q ' t]。随后,SNS确定候选集q ' 1 (t)中每个阴性样本的概率,将更高的概率分配给被认为质量更高的阴性样本。分配给每个负样本的概率由其距离分数决定,该距离分数计算为损坏尾部实体t与新实体t ' i之间的欧几里得距离,记为d(t, t ' i) =∥t - t ' i∥。定义每个候选负(h, r, t ' i)∈q ' 1 (t)的抽样概率得分为
3.2.3 Auxiliary Data-Based
ReasonKGE[74]旨在增强知识图嵌入(KGE)模型中的负采样过程。它通过合并本体驱动的方法来实现这一点,该方法确保了公理内预测和交互的一致性。ReasonKGE方法利用符号推理技术有效地识别和捕获由KGE模型产生的不一致预测。这些不一致性随后在再训练过程中被用作负样本。任何可用的负抽样程序最初用于训练KGE模型。随后,ReasonKGE选择由KGE模型做出的预测,将导致不一致的预测添加到KG中,并在下一次训练迭代中将其用作负样本。通过关注模型产生的不一致的预测,ReasonKGE可以针对KGE模型的弱点,并得出可用于改进后续迭代的负样本。ReasonKGE方法依赖于KGE模型做出的不一致的预测,迭代地生成负样本,而不是一次全部生成。
3.2.4 Pros and Cons.
动态负采样方法由于涉及到目标嵌入空间的动态评估,对效率提出了挑战。在这些方法中,自动态负采样比其他动态NS方法具有更高的效率。基于外部模型的负抽样方法需要对外部模型进行额外的训练,而基于辅助数据的方法则需要处理补充信息。动态负抽样方法通过适应负分布的变化,有效地生成负样本。与自动态方法相比,基于外部模型和辅助数据的方法倾向于生成语义上有意义的否定,因为它们提高了候选空间的质量。然而,在稳定性方面,动态负采样方法由于依赖于动态嵌入更新,稳定性较差。相反,自动态负抽样方法不依赖于外部模型或信息。基于辅助数据的动态负抽样依赖于知识图的结构信息,而基于外部模型的方法依赖于底层外部模型。由于这些方法在评估候选相似性和考虑类型信息时的动态性,它们可能会以高概率引入假阴性,而不管候选阴性的语义合理性如何。
3.3 Adversarial NS
随着生成式对抗网络(GANs)的显著表现,对抗负抽样方法最近在不同领域获得了大量关注[95]。GAN训练涉及两个玩家的极大极小游戏,其中一个玩家生成伪造的正实例(即生成器),另一个玩家区分伪造的实例和真正的正实例(即鉴别器)。优化目标可表示为:
其中,G和D分别为生成和鉴别器,Pd为正数据分布,PG为G生成的负数据分布。
在KGRL的负采样中,发生器通常用于采样可以欺骗鉴别器的高质量负样本。这是通过使用交替训练过程的负样本分布的自适应调整来实现的。对抗性负抽样的主要目标是生成硬负样本,图5说明了对抗性负抽样的概化。
3.3.1 Discrete
术语离散表示生成器选择预先存在的样本的离散索引,而不是像传统gan中习惯的那样生成具有连续值的向量。作为将GAN应用于KGRL的开创性努力,KBGAN[75]采用基于策略梯度的离散负采样强化学习来混淆鉴别器。生成器KGE模型近似候选负三元组的分数分布,并以离散形式提供它们。相比之下,鉴别器(即目标KGE模型)评估生成数据的质量。
IGAN[76]是一种对抗性负采样技术,它使用两层全连接神经网络作为生成器,取代了KBGAN中使用的基于概率的对数损失KGE模型生成器。在这种方法中,作为目标的鉴别器仍然是基于边际的排序损失KGE模型。生成器网络由损坏的三元组嵌入向量组成,通过非线性激活函数ReLu,然后是softmax函数,用于计算整个实体集的概率分布。
GraphGAN[77]提出了一种新的生成器实现方法,称为Graph Softmax,它通过考虑图结构和邻近信息来克服传统Softmax函数的局限性。Graph Softmax定义了一种连接分布,它满足规范化、底层图结构感知和计算效率的要求。为了实现这一目标,引入了一种基于随机游动的在线生成策略。给定一个相邻实体的关联概率定义为
KSGAN[78]提出了一种知识选择对抗网络,它在生成器中引入了知识选择的新步骤,扩展了之前的KBGAN。知识选择步骤过滤掉假三元组,为正三元组选择语义负三元组。KSGAN的主要目标是使用生成器产生的负三元组来训练鉴别器,类似于KBGAN。邻域知识选择性对抗网络(即NKSGAN)是KSGAN的扩展,它使用额外的邻域聚合器组件来生成高质量的负样本并增强鉴别器的性能。该方法利用邻域信息聚合技术,通过考虑实体周围的邻域,有效地获取实体的语义知识。邻居聚合器采用图关注机制,使用固定参数的预训练KGE模型提供实体表示。
kggan[80]或知识补全GANs通过增强基于gan的生成链接预测模型的方法,在判别性信念预测模型之上取得了进步。kcgan利用包含生成器和鉴别器的博弈论框架来增强对底层知识库(KB)结构的理解。该框架旨在促进谓词/三元组分类和链接预测的学习,从而提高整体知识表示和完成能力。与KGRL中先前基于gan的方法(生成器构建完整的负样本,鉴别器强化负样本的分布)相比,KCGAN采用了不同的方法。KCGAN中的生成器专注于学习链路预测任务或直接学习链路上的分布。随后,鉴别器通过将阳性样本识别为真实实例来加强这种学习分布。
RUGA(规则和图对抗学习)[81]引入了一种旨在提高知识图完成任务性能的新方法。在初始阶段,知识图嵌入模型的常规训练包括它作为生成器和鉴别器的角色,使用对抗学习技术获取高质量的负样本。随后,生成的阴性样本与预先存在的阳性样本一起构成注入规则模型内的标签三元组。该方法将知识图中的三重信息与扩展到图之外的附加逻辑规则集成在一起,从而将局部和全局特征结合到分析中。通过利用标记三元组、未标记三元组和软规则促进迭代学习,使嵌入模型能够从不同的训练实例中获得知识。在每次迭代中,模型遵循结构化方法,在两个关键阶段之间交替进行:软标签预测阶段和嵌入校正阶段。
GN+DN[82]方法代表了KGRL中基于gan的方法的扩展,旨在生成以前未见但可信的实例。与之前的方法不同,GN+DN中的生成器(即GN)作为KG完成任务的目标KGE模型。该模型将头部实体h和关系r的向量表示作为输入,并采用转换过程来生成潜在有效的尾部实体t ' g的特征表示。鉴别器称为DN,具有生成的三元组(h, r, t ' g)、基本真值三元组(h, r, t)和随机选择的负样本(h, r, t ')。然后计算损失函数,将真正的三元组与其他样本区分开来。
3.3.2 Pros and Cons.
基于对抗的方法提供了对负样本空间的动态分布建模的能力。在基于gan的负采样框架内,生成器模块动态逼近负样本不断变化的分布,以生成高质量的负三元组。同时,目标KGE模型作为鉴别器,负责区分正面和负面实例。然而,使用基于对抗的模型在执行和空间需求方面引入了复杂性,因为它涉及到训练两个以对抗方式相互学习的模型。引入额外的生成器会增加训练参数的数量。此外,这些模型易受不稳定性和退化问题的影响,并且已知在此类方法中常用的强化梯度表现出高方差。这些限制极大地导致了各种评分函数的性能不稳定,需要对抗性负抽样方法的预训练。尽管对抗性消极抽样方法的努力产生语义健全的否定,他们仍然可能遭受假阴性。
3.4 Self Adversarial NS
自对抗负抽样技术是近年来在知识图嵌入模型中生成负三元组的一种新颖有效的方法。这些方法利用目标嵌入模型的当前分布,按照条件概率分布进行抽样:
式中f(x)表示嵌入模型的得分函数,x '表示候选负三元组。图6提供了自对抗负抽样方法的全面概述,大致可分为三种类型:直接自对抗法、基于外部模型的自对抗负抽样方法和基于辅助数据的自对抗负抽样方法。前一类自对抗负抽样方法通过考虑对目标KGE模型的更新产生负三元组,如图6(a)所示。相反,后一类使用外部知识来生成语义上更有意义的负三元组,如图6(b)所示。
3.4.1 Direct
NKRL[83]是对KGRL的重要贡献,它引入了利用目标KGE模型的评分函数来测量生成的负样本置信度的概念。负三元组的质量定义为,其中NQ(h ', r, t ')的值越高表示负三元组的质量越高。每个负三元组的置信度通过使用softmax函数来确定,该函数允许计算一组候选负三元组的概率分布。具体来说,负三元组(h ', r, t ')的置信度定义为
Self-Adv[37]技术是在KGRL中提出的一种方法,它采用目标KGE模型来评估阴性样本的难度。该技术从分布中抽取负的样本
其中α为采样温度,采用随机梯度下降算法进行优化。对于目标KGE模型,具有高梯度的负样本被认为是硬负样本。然而,Self-Adv方法容易出现假阴性,这可能导致在评估阴性样本的梯度时产生性能开销。
NSCaching[84]利用一种缓存机制来存储头尾实体的负样本,并进行异步更新。这种方法可以使更多的负面候选人在培训期间参与进来。在每个epoch中,NSCaching通过整合模型的当前预测分数来更新内存缓存。尽管如此,更新所有样本的概率仍然是一个耗时的过程。
性问题。LAS利用基于候选集损失函数的自适应概率机制来选择未观察到的三元组。为了减少假阴性情况,LAS采用了一种俯就机制,在一组损坏的候选对象中,与最可能的真阴性实例相比,该机制为最可能的假阴性实例分配了更高的优先级。为了限制假阴性情况的候选实体在不相关的域中,LAS将关系的域定义为观察到的关系的头部或尾部域,而不相交域的集合定义为与给定实体的域不重叠的域。具体来说,对于头部损坏的三元组(h ', r, t), LAS仅在h ' /∈∪disDoms(domHead r, Doms)时才将其向上推,其中domHead r表示关系r的观察到的头部域,Doms是所有关系的域的集合,disDoms(domHead r, Doms)表示关于domHead r的不相交域的集合。
自适应自我对抗(ASA)[86]旨在通过考虑中等难度的阴性样本而不是仅仅关注最难的样本来解决假阴性的问题。这意味着所选的负样本的分数可能不会超过它所导出的正关系的分数。假阴性通常归因于得分高于其相应正关系的负样本。此外,ASA引入了一个超参数,边际µ,它控制难度水平,随着µ值的增加,阴性样本更容易。
基于实体相似度的负采样(Entity Similarity-based Negative Sampling, ESNS)[87]方法是一种基于实体间语义相似度的负样本生成技术。它通过使用基于位移的逻辑损失函数来实现,引入实体上下文的概念,表示为Ch(e)和Ct(e),其中Ch(e) = {(r, t) | (e, r, t)∈F}, Ct(e) = {(r, h) | (h, r, e)∈F}。该机制捕获知识图(KG)中实体的结构和语义上下文。实体相似度,特别是头部相似度(Sh(ei, ej) =| Ch(ei)∩Ch(ej) |)和尾部相似度(St(ei, ej) =| Ct(ei)∩Ct(ej) |),通过检查两个实体共享的结构和语义上下文来量化它们之间的上下文相似度。ESNS包含一个实体倒排索引,表示为EIIh/t,它作为头/尾实体相似性的存储库。该索引取代了使用单独的头部和尾部缓存来存储表现出高分的负面候选人的传统方法。此外,通过引入基于移位的逐点逻辑损失函数,ESNS增强了RotatE中使用的损失函数[37]。这种修改保证了高质量的负样本与所有正样本相比具有较低的分数。因此,它有效地减轻了假阴性样本的存在。
3.4.2 External Model-Based
外部模型与自对抗(Self-Adv)方法的集成已被证明可以显着改善训练图嵌入模型的负样本。Self-Adv。SANS[65]是最近的一种方法,它建立在Self-Adv的基础上,结合随机游走技术来识别负面信息。然而,这种方法忽略了一个事实,即非语义相似的邻居可能无法提供高质量的负样本。另一种方法,Self-Adv EANS[67],将EANS动态负抽样与自对抗负抽样相结合。
MCNS[54]使用自对比近似近似正分布,并通过Metropolis-Hastings加速负采样。该方法采用深度优先搜索算法遍历图,获取从最后一个节点开始的马尔可夫链,从而生成负样本。随后通过最小化铰链损失来更新嵌入向量,其中正样本和生成的负样本被输入到框架的编码器组件中。
mdnaching[88]在负样本生成中采用Self-Adv方法时,采用基于矩阵分解的预训练潜关系模型来消除假阴性。mdnaching采用NSCaching引入的缓存系统来保存高质量的负样本,随后使用延迟更新机制对负样本进行更新。
TuckerDNCaching[19]扩展了mdnaching方法,并使用Tucker分解技术来构建潜在关系,增强了潜在关系模型的语义健全性。
聚类缓存采样(CCS)[89]采用聚类缓存来生成基于实体相似性的负三元组。首先,簇缓存抽样采用k - means算法将实体集划分为k个簇,分别表示为E1, E2,…嗯……埃克。随后,从包含被替换的头部实体(或尾部实体)的簇Ei中,提取一个由N个实体组成的子集EN∈Ei,并将其存储在头部缓存H(或尾部缓存T)中。随后,使用自对抗方法计算缓存中所有三元组的概率,然后从缓存中选择排名最高的候选对象。
3.4.3 Auxiliary Data-Based
Local-cognitive负抽样方法[90]将Type-Constraints NS[15]与Self-Adv[37]结合,引入先验知识,产生更强的干扰物。Type-Constraints NS方法通过选择只包含具有特定关系约束的实体的尾破坏候选集来破坏三元组。具体来说,对于三元组(h, r, t),尾部损坏的候选集定义为
3.4.4 Pros and Cons.
为了解决对抗方法带来的挑战,自对抗方法利用目标知识图嵌入模型,通过自评分函数对负样本的动态分布进行建模。与对抗方法相比,自我对抗方法已经显示出有效性;然而,在评估自我评分时,它们也引入了执行瓶颈。为了克服这个限制,某些方法采用了延迟更新机制。自对抗方法旨在通过对动态分布进行有效建模来生成更有语义意义的负样本。虽然基于外部模型的自对抗方法和基于辅助数据的自对抗方法分别表现出对外部模型和辅助信息的依赖,但直接自对抗方法表现出更大的稳定性。假阴性代表了自我对抗方法的一个重大缺点,促使有意策略的发展来解决这个问题,并产生语义正确和有效的阴性样本。
3.5 Mixing NS
Mixup[96]是一种数据增强技术,它采用样本对的凸组合来生成新数据,旨在促进训练样本之间的线性行为。它通常应用于两个领域:监督学习的混合和负样本的混合。Mixup通过线性插值在监督学习域中生成人工训练样本及其相应的标签。相反,在负样本域中,利用基于虚拟样本线性插值的混合操作来生成具有挑战性的负样本。MixKG[72]率先应用mix技术在KGRL中生成负样品。使用混合负采样技术训练KGRL模型的一般过程如图7所示。
3.5.1 Direct
MixKG[72]提出了一种在KGRL中进行负采样的新方法,该方法结合了混合技术,使用知识图中不存在的实体构建负三元组。MixKG的第一步涉及通过两个选择标准识别硬阴性三联体:基于分数函数的选择器(HNS-SF)和正确实体相似性选择器(HNS-CES)。具体来说,MixKG通过将得分较高的候选样本作为硬阴性样本,从每个HNS-SF中选择k阴性三胞胎,而HNS-CES则侧重于与阳性实体具有更大相似性的阴性实体。随后,MixKG将混合操作应用于这些硬底片,产生更具挑战性的负样品。例如,在遇到两个负三元组(h, r, t ' i),(h, r, t ' j)的情况下,由此产生的更具挑战性的负三元组的尾部实体计算如下:
3.5.2 Pros and Cons.
知识图嵌入中的混合方法引入了一个额外的步骤,即选择候选否定,然后通过混合这些候选否定来生成否定。选择高质量的底片进行混合,可以产生有效的底片,从而提高目标KGE模型的性能。然而,知识图中不存在的实体的存在带来了挑战,因为它可能导致生成语义上无意义的否定,这可能会欺骗KGE模型。尽管有这样的缺点,但与其他方法相比,混合方法显示出更高的独立性和稳定性。尽管如此,假阴性的存在和生成语义无意义的阴性对生成的阴性的质量产生不利影响,影响了该方法的整体有效性。
4 Conclusion and Open Research Directions
本文全面综述了知识图表示学习中采用的负抽样方法。这些方法的总结见表2。为了便于分析和比较,我们将现有的负抽样技术分为五种不同的类别,并讨论了每种方法的优势和局限性。考虑到已确定的挑战和在负抽样方面取得的进展,我们概述了几个有前途的研究方向,可以进一步推进这一研究领域。
4.1 Mitigating False Negatives
如第3节所述,假阴性是将来可能变为阳性的阴性样本,这在设计稳健的阴性抽样技术时提出了重大障碍。由于负抽样方法的目的是产生语义上有意义的否定,如果没有通过抽样方法充分解决,产生假阴性的概率也会增加。虽然完全消除假阴性是不可行的,但有一些方法可以用来减轻实验场景之外的这一挑战。在这方面,Entity Aware NS[67]引入了一种新的评分函数,用于评估三重可能性,从而能够区分真阴性和假阴性。损失自适应采样[85]采用俯卧撑机制来解决过度训练假阴性实例的问题。该采样策略旨在通过选择性地对具有不同概率的损坏三元组进行采样来减轻假阴性对模型的影响。Adaptive Self Adversarial[86]方法侧重于中等难度的负样本,而不是仅仅专注于最具挑战性的样本。mdnaching[88]和TuckerDNCaching[19]通过引入预训练的潜在关系模型来预测和消除潜在的假阴性实例,从而解决假阴性问题。制定一种通用的方法来有效地减轻假阴性仍然是一个有待进一步研究的开放性问题.
4.2 Mixing Negatives
混合技术是利用不存在的实体来构造知识图中的负三元组。该技术涉及通过线性插值创建虚拟样本,并在一些研究中用于更难的负挖掘。MixKG[72]是最近提出的一种在KGRL中生成较硬负样品的方法,采用混合操作。提出的模型包括两个主要阶段:首先,从一组取样的负三胞胎中识别出高质量的负三胞胎,然后,将这些选择的高质量负三胞胎混合在一起,产生新的更具挑战性的负三胞胎。有必要进一步研究混合负样本在不同领域的潜力,以增强模型的优化。
4.3 Nonnegative Sampling in KGRL
解决与负抽样相关的未解决的权衡问题,由于抽样过程中固有的不确定性,可能导致模型性能不稳定,另一个方向是通过采用有效的非抽样策略或完全消除负抽样来规避对负抽样的要求。在知识图表示学习领域,研究无负样本的KGRL模型的努力有限,旨在缓解负样本质量带来的挑战。
BKENE (bootstrap Knowledge graph Embedding based Neighbor Expansion)[97]提出了一种不使用负样本获取知识图表示的创新框架。它通过使用不同的编码器创建两个语义相似的知识图视图来实现这一点,其中一个编码器聚合来自直接连接的节点和关系的信息,另一个编码器合并来自扩展邻居的信息,包括多跳邻居。这种方法捕获各种关系信息,同时避免了传统增强技术造成的潜在语义更改。Stay Positive (SP)[98]提出了一种新的训练方法,通过在损失函数中引入正则化项来消除对负采样的需要。正则化项鼓励模型将高分分配给真三元组,同时保持所有可能三元组的得分总和接近一个常数值。NS-KGE[99]不依赖负抽样进行训练。它以动态权值考虑知识图中的所有负实例,时间复杂度可控。该模型的目标是训练一个评分函数,该函数通过知识图(KG)中的给定关系来区分连接头部实体和尾部实体的适当性。这是通过最小化真实值和预测值之间的差异来实现的,利用一个包含相关三元组重要性的损失函数。
因此,一个有趣的和吉祥的研究途径包括研究有效的方法来消除对知识图表示学习中显式负抽样的需要。