摘要

实体对齐是在不同知识图之间集成异构知识的一种可行方法。该领域的最新发展通常采用基于嵌入的方法来对KGs的结构信息建模，从而可以在嵌入空间中进行实体对齐。然而，大多数现有工作并没有明确利用有用的关系表示来辅助实体对齐，正如我们将在文中展示的那样，这是改进实体对齐的一种简单而有效的方法。

本文提出了一种新的实体对齐联合学习框架。我们方法的核心是一个基于图卷积网络（GCN）的框架，用于学习实体表示和关系表示。而不是依赖于 预先对齐的关系种子 来学习关系表示。我们首先使用 GCN引导的实体嵌入 来近似它们。然后，我们将关系映射合并到实体中，以迭代地学习两者更好的表示。

预先对齐的关系种子
指的是在知识图谱对齐任务中提前确定的一组已知的关系对。这些关系对被认为是在不同的知识图谱或数据集中表示相同语义关系的示例。预先对齐的关系种子通常是由领域专家或人工标注的数据生成的。这些种子关系对可以基于先验知识、词汇相似性、语义相似性或其他相似性指标进行选择和匹配。
假设我们有两个知识图谱，一个是关于电影的知识图谱A，另一个是关于演员的知识图谱B。我们的目标是将这两个知识图谱进行对齐，以建立电影和演员之间的关联。为了辅助对齐过程，我们可以使用一些预先对齐的关系种子。
首先，我们可以手动选择一些已知的电影-演员对，这些对在两个知识图谱中表示相同的关系。例如，我们知道知识图谱A中的电影"Avengers: Endgame"与知识图谱B中的演员"Robert Downey Jr."有关联。
这个电影-演员对可以作为一个预先对齐的关系种子，我们将它们作为已匹配的关系对输入到知识图谱对齐算法中。算法可以通过学习这个种子关系对中的模式、属性和语义特征，来识别和匹配其他相似的电影-演员关系对。
接下来，知识图谱对齐算法可以利用各种匹配和相似性度量方法，如实体名称相似度、关系语义相似度、属性匹配等，来寻找其他电影-演员关系对。通过与预先对齐的关系种子进行比较，算法可以确定哪些关系对是相似的，并将它们加入到已对齐的关系集合中。

GCN引导的实体嵌入
是指使用图卷积网络（Graph Convolutional Network，GCN）来生成实体的向量表示或嵌入。
GCN模型的核心思想是通过聚合相邻节点的信息来更新每个节点的表示。在每一层GCN中，节点的表示是通过将其自身特征与其邻居节点的特征进行聚合得到的。这样，每个节点可以获得来自其邻居节点的信息，并且这些信息会在多层GCN模型中进行迭代和传播。
在实体嵌入任务中，GCN模型可以将实体的局部邻域信息和全局图结构信息结合在一起，生成具有丰富语义的实体向量表示。
假设我们有一个电影知识图谱，其中包含电影实体和它们之间的关系。
首先，我们将电影作为图的节点，并根据电影之间的关系构建图结构。例如，我们可以使用电影之间的导演、演员、类型等关系作为图的边。
接下来，我们使用GCN模型来学习电影的嵌入向量。在GCN的每一层，节点的表示是通过聚合其邻居节点的表示来更新的。例如，对于一个电影节点，它的邻居节点可以是与之有共同演员或共同导演的其他电影。
通过多层GCN的迭代，电影节点的表示会逐渐融合来自不同邻居节点的信息，从而生成具有丰富语义的电影嵌入向量。这些嵌入向量可以捕捉到电影之间的关联、类型、演员等特征，从而提供了电影的语义表示。
学习得到的电影嵌入向量可以用于各种任务。例如，我们可以使用这些向量来计算电影之间的相似度，从而实现电影推荐系统。或者，我们可以将这些向量作为输入特征，用于电影分类或预测电影的票房收入等任务。

在三个真实世界的跨语言数据集上进行的实验表明，我们的方法实质上执行了最先进的实体对齐方法。

介绍

知识图谱（KGs）将非结构化知识转换为简单明了的三元组<头部实体，关系，尾部实体>，用于快速响应和推理知识。它们是支持各种支持 NLP-enabled 的任务的有效方式。比如机器阅读（Yang和Mitchell，2017）、信息提取（Wang et al.，2018a）和问答（Zhang et al.，2018 b）。

“NLP-enabled” 是指某个系统、工具或应用程序具备自然语言处理（Natural Language Processing，NLP）功能或能力。
当一个系统或应用程序被称为 “NLP-enabled”，意味着它具备了一定程度的自然语言处理能力，可以处理和分析文本数据，从中提取信息，进行文本理解和生成，或者与用户进行自然语言交互。

尽管许多KGs来自同一资源(例如维基百科)，但它们通常是独立创建的。因此，不同的KGs经常使用不同的表达和表面形式来表示等价的实体和关系，更不用说来自不同资源或语言的那些了。这种常见的异构问题使得在不同的KGs之间整合知识变得困难。解决这个问题的一种强大技术是实体对齐，是将来自不同KGs的具有相同真实世界身份的实体连接起来的任务。

实体对齐的经典方法通常涉及劳动密集且耗时的特征构建过程或依赖于他人构建的外部信息。最近，人们致力于所谓的基于嵌入的方法，代表作包括JE、MTransE、JAPE、IP TransE，和BootEA。还有使用图卷积网络（GCN）来联合嵌入多个KGs。

最近的大多数工作（如JE、MTransE、JAPE、IPTransE和BootEA）都依赖于 基于翻译的模型 ，如TransE，这些模型使这些方法能够对KGs的实体和关系进行编码。这些方法通常更强调实体嵌入，但没有明确地利用关系嵌入来帮助实体对齐。这种方法的另一个缺点是，它们通常依赖于 预先对齐的关系 （JAPE和IPTransE）或三元组（MTransE）。这限制了模型可以有效地每次形成的规模，因为 为大型KG构建种子排列 的开销也大。不幸的是，基于GCN的模型等替代方法无法直接获得关系表示，留下了很大的改进空间。

基于翻译的模型（Translation-based models）
是指一类在自然语言处理中用于处理语义关系和语义表示的模型。这类模型通过将语义关系转化为翻译任务，将语义表示转化为翻译模型的中间表示来进行处理。
基于翻译的模型的基本思想是将语义关系建模为源语言到目标语言的翻译过程。通常，模型将实体之间的关系或实体属性等信息表示为源语言句子，然后使用翻译模型将源语言句子翻译成目标语言句子，最后利用目标语言句子的表示来进行后续的任务处理。

“预先对齐的关系”（Pre-aligned relationship）是指在进行知识图谱对齐任务之前，已经进行过部分实体对齐或关系对齐的关系。

“为大型KG构建种子排列”（Building seed alignment for large-scale KG）
是指为两个或多个大型知识图谱之间的实体进行初始对齐，以建立种子（seed）实体对的对应关系。在知识图谱对齐任务中，种子对是已知或预先对齐的实体对，其对应关系是已知的或可以被假设为正确的。构建种子排列的目的是通过这些已知对应关系来指导和启动大规模知识图谱对齐的过程。

最近的研究表明，在单个框架中对实体和关系进行联合建模 可以改进信息提取等任务。我们认为，实体对齐也将是这种情况，也就是说，丰富的关系信息可能有助于提高实体的一致性，并且它们的关系通常是密切相关的。我们的实验表明，这甚至是一个保守的目标：通过联合学习实体和关系表示，我们可以促进实体和关系对齐的结果。

"在单个框架中对实体和关系进行联合建模"是指将实体和关系作为一个整体进行建模和表示的方法。传统的知识图谱表示方法通常独立地对实体和关系进行建模，而在联合建模中，实体和关系被同时考虑并嵌入到一个统一的表示空间中。
在TransE模型中，实体和关系都被嵌入到一个共享的向量空间中。每个实体和关系都被表示为一个固定维度的向量。模型的目标是通过学习这些向量，使得在知识图谱中的事实（三元组）得到最好的表示和预测。
具体地，TransE模型假设实体和关系之间存在着平移关系。对于给定的三元组（头实体，关系，尾实体），模型会计算头实体向量与关系向量之和，然后与尾实体向量进行比较。模型的目标是通过学习向量表示，使得正确的三元组满足头实体向量加上关系向量的结果接近尾实体向量。
举个例子来说明，假设有一个知识图谱中有以下三元组：
（“猫”, “是宠物”, “动物”）
（“狗”, “是宠物”, “动物”）
（“猫”, “是哺乳动物”, “动物”）
对于上述三元组，TransE模型会学习到将实体和关系嵌入到向量空间中，例如将实体"猫"表示为向量v1，关系"是宠物"表示为向量v2，实体"动物"表示为向量v3。模型的目标是使得v1 + v2 接近 v3。
当给定头实体"猫"和关系"是宠物"时，模型会通过计算v1 + v2的结果，并与尾实体"动物"的向量v3进行比较。如果v1 + v2与v3的距离较小，即它们在向量空间中较接近，那么模型将预测这个三元组为真实的事实。

我们的目标是建立一个学习框架，共同学习实体和关系表示，以实现实体对齐，我们希望只通过一小部分预先对齐的实体而不是关系来实现这一点。这样做将允许我们利用关系信息来改进实体比对，而无需为构建种子关系比对支付额外成本。

GCN最近的成果使我们的工作成为可能，它不从图结构中提取有用的表示。但是由于原始GCN是对无向图和无标记图进行运算的，所以像基于GCN的模型会忽略KGs形成中的有用关系。虽然关系图卷积网络（R-GCN）可以对多关系图进行建模，但现有的R-GCN对每个关系使用权重矩阵。这意味着R-GCN将需要一组过多的参数来对典型的真实世界KG中的数千个关系进行建模，这使得在大型KG上学习有效的模型变得困难。

我们的联合学习框架的一个关键挑战是如何在没有种子关系比对的情况下生成有用的关系表示，并确保框架能够扩展到大量类型的关系。我们通过首先使用通过少量种子实体比对学习的实体嵌入来近似关系表示来实现这一点。进一步构造了一个新的联合实体表示，该表示由实体的关系信息和相邻结构信息组成。联合表示使我们能够迭代地提高模型生成更好的实体和关系表示的能力，这不仅会导致更好的实体对齐，而且会导致更准确关系对齐（作为副产品）。

我们通过将其应用于三个真实世界的数据集来评估我们的方法。效果显著。本文的主要贡献是一种新的实体和关系对齐的联合学习模型。该方法减少了人类在构建种子比对中的参与和相关成本，但比以前的工作产生了更好的性能。