上期我们介绍了2020年知识图谱最新权威综述论文《A Survey on Knowledge Graphs: Representation, Acquisition and Applications》的知识表示学习部分,本期我们将一起学习这篇论文的知识图谱补全部分。
论文地址:
https://arxiv.org/pdf/2002.00388.pdfarxiv.org
由于知识图谱的不完整性,知识图谱补全可以用来向知识图谱中添加新的三元组。典型的知识图谱补全子任务包括链接预测,实体预测和关系预测。
对知识图谱补全的主要研究集中于学习用于三元组预测的低维嵌入。但是,其中大多数未能捕捉多步关系。因此,最近的工作转向探索多步关系路径并结合逻辑规则,分别称为关系路径推断和基于规则的推理。在本节中,还将对三元组分类作为知识图谱补全的一项相关任务进行评估,该任务可评估事实三元组的正确性。
1. 基于嵌入的模型
以实体预测为例,如下图所示的基于嵌入的排序方法,首先基于现有三元组学习嵌入向量,然后用每个实体替换尾实体或头实体,以计算所有候选实体的得分,并对前k个实体进行排名。上一期提到的知识图谱表示学习的方法(例如TransE,TransH,TransR,HolE和R-GCN等)和带有文本信息的联合学习方法(例如DKRL )可用于知识图谱补全。
与在统一嵌入空间中表示输入和候选项不同,ProjE [65]提出了通过对输入三元组的已知部分(即(h; r;?)或(?; r; t))进行空间投影的组合嵌入。包含神经组合层和输出投影层的嵌入投影函数定义为:
其中,
是输入实体-关系对的组合算子。以前的嵌入方法无法区分实体和关系预测,这里的ProjE不支持关系预测。现有方法在很大程度上依赖于知识图谱中的现有连接,而无法捕捉具有少量连接的事实知识或实体的演变。ConMask可以选择给定关系的相关摘要,以及基于CNN的目标融合,以完成带有非观测实体的知识图谱补全。仅当在文本描述中明确表示查询关系和实体时,它才能进行预测。这些方法都属于判别式模型,其依赖于预先准备的实体对或文本语料库。针对医学领域,REMEDY提出了一种生成式模型,称为条件关系变分自动编码器,用于从潜在空间中发现实体对。
2. 关系路径推理
实体和关系的嵌入学习在某些基准测试中取得了显着的性能提升,但是它无法为复杂的关系路径建模。关系路径推理转向在图结构上利用路径信息。随机游走推理已被广泛研究,例如,路径排序算法(PRA)在路径约束的组合下选择关系路径,并进行最大似然分类。Neelakantan等人开发了一个RNN模型,通过RNN来组合关系路径的语义信息。Chain-of-Reasoning是一种支持多种推理的神经注意力机制,它代表所有关系,实体和文本的逻辑组成。最近,DIVA提出了一个统一的变分推理框架,该框架将多跳推理作为路径查找和路径推理的两个子步骤。
3. 基于强化学习的路径发现
通过将实体对之间的路径搜索公式化表示为序列决策,特别是马尔可夫决策过程(MDP),引入了深度强化学习(RL)用于多跳推理。基于策略的强化学习的agent通过知识图谱环境之间的交互来学习找到关系的步骤,以扩展推理路径,其中,策略梯度用于训练agent。DeepPath首先将强化学习应用于关系路径学习中,并开发了一种新颖的奖励功能来提高准确性,路径多样性和路径效率。它通过翻译嵌入方法对连续空间中的状态进行编码,并将关系空间作为其动作空间。类似地,MINERVA通过最大化期望的奖励,将走到正确答案实体的路径作为一个顺序优化问题。它排除了目标答案实体,并提供了更强大的推理能力。代替使用二进制奖励函数,Multi-Hop提出了一种软奖励机制。为了实现更有效的路径探索,在训练过程中还采用了动作缺失来遮盖某些向外的边缘。M-Walk应用RNN控制器捕捉历史轨迹,并使用蒙特卡罗树搜索(MCTS)生成有效路径。通过利用文本语料库和当前实体的句子袋,CPL提出了协同策略学习,用于从文本中查找路径和提取事实。这些方法的MDP环境和策略网络汇总在下表中,其中MINERVA,M-Walk和CPL使用二进制奖励。对于策略网络,DeepPath使用全连接网络,CPL的提取器使用CNN,其余的使用循环网络。
4. 基于规则的推理
为了更好地利用知识的符号特性,知识图谱补全的另一个研究方向是逻辑规则学习。规则由规则头和规则体的形式定义。规则头是一个原子,即具有可变的主题和/或对象的事实,而规则体可以是一组原子。例如,给定关系sonOf,hasChild和sex以及实体X和Y,存在逻辑编程相反形式的规则,如:(Y; sonOf; X)<=(X; hasChild; Y)^(Y;性别;男)。可以通过例如AMIE的规则挖掘工具来提取逻辑规则。最近的RLvLR提出了一种可扩展的规则挖掘方法,并将提取的规则用于链接预测。
越来越多的研究注意力集中在将逻辑规则注入到知识图谱嵌入中以提高推理能力,同时应用联合学习或迭代训练来合并一阶逻辑规则。例如,KALE提出了一个统一的联合模型,其中定义了用于兼容三元组和逻辑规则嵌入的模模糊逻辑连接词。具体来说,定义了逻辑合取,析取和取反的三个组成部分,以构成复数公式的真值。下图给出了一个简单的一阶Horn子句推断。 RUGE提出了一种迭代模型,其中将软规则用于从未标记的三元组和已标记的三元组进行软标签预测,以进行嵌入校正。IterE提出了一种迭代训练策略,其中包括嵌入学习,公理归纳和公理注入三部分。
神经模型和符号模型的结合也越来越引起人们的注意,以端到端的方式进行基于规则的推理。神经定理证明(NTP)学习用于多跳推理的逻辑规则,该规则利用径向基函数核对向量空间进行微分计算。NeuralLP使基于梯度的优化可应用于归纳逻辑编程中,其中通过集成注意力机制和辅助存储器来提出神经控制器系统。pLogicNet提出了概率逻辑神经网络,以利用一阶逻辑并通过结合马尔可夫逻辑网和知识图谱表示学习方法的优势来学习有效的嵌入,同时处理逻辑规则的不确定性。ExpressGNN通过调整图网络和嵌入来概括pLogicNet,并取得更有效的逻辑推理。
5. 元关系推理
知识图谱的关系中存在长尾现象,同时,现实世界中的知识场景是动态的,通常会存在一些不可观测的三元组。新的一种情况是元关系学习或小样本学习,它要求模型仅用很少的样本来预测新的关系事实。GMatching开发了一种基于度量的带有实体嵌入和局部图结构的小样本学习方法。它使用R-GCN对单跳邻居进行编码以捕获结构信息,然后在长短期记忆(LSTM)网络的引导下,将结构实体嵌入进行多步匹配,以计算相似性得分。Meta-KGR是一种基于优化的元学习方法,采用元学习进行快速自适应,并采用强化学习进行实体搜索和路径推理。受基于模型和基于优化的元学习的启发,MetaR将特定于关系的元信息从支持集传输到查询集,并通过高阶关系表示的loss梯度实现快速适应。
6. 三元组分类
三元组分类是为了确定测试数据中的事实是否正确,这个任务通常被视为二分类问题。前述的嵌入方法可以应用于三元组分类,包括基于翻译距离的方法(例如TransH和TransR)以及基于语义匹配的方法(例如NTN,HolE和ANALOGY)。
后期,我们还会对这篇综述的其它部分进行解读。
往期精选:
对知识图谱的告白:斯坦福大学CS520课程介绍
知识图谱最新权威综述论文解读:知识表示学习部分
手把手教你搭建一个中式菜谱知识图谱可视化系统
如果对文章感兴趣欢迎关注知乎专栏“人工智能遇上知识图谱“,也欢迎关注同名微信公众号“人工智能遇上知识图谱”,让我们一起学习并交流讨论人工智能与知识图谱技术。