用于实体对齐的联合学习实体和关系表示2019 AAAI 8.7

用于实体对齐的联合学习实体和关系表示

  • 摘要
  • 介绍
  • 相关工作
    • 实体对齐
    • 图卷积网络
  • 问题公式
  • 我们的方法
    • 整体架构
    • 初步实体对齐
      • 图卷积层
      • 近似关系表示
      • 联合实体和关系对齐
  • 实验
  • 总结

在这里插入图片描述

摘要

实体对齐是在不同知识图之间集成异构知识的一种可行方法。该领域的最新发展通常采用基于嵌入的方法来对KGs的结构信息建模,从而可以在嵌入空间中进行实体对齐。然而,大多数现有工作并没有明确利用有用的关系表示来辅助实体对齐,正如我们将在文中展示的那样,这是改进实体对齐的一种简单而有效的方法。

本文提出了一种新的实体对齐联合学习框架。我们方法的核心是一个基于图卷积网络(GCN)的框架,用于学习实体表示和关系表示。而不是依赖于 预先对齐的关系种子 来学习关系表示。我们首先使用 GCN引导的实体嵌入 来近似它们。然后,我们将关系映射合并到实体中,以迭代地学习两者更好的表示。

预先对齐的关系种子
指的是在知识图谱对齐任务中提前确定的一组已知的关系对。这些关系对被认为是在不同的知识图谱或数据集中表示相同语义关系的示例。预先对齐的关系种子通常是由领域专家或人工标注的数据生成的。这些种子关系对可以基于先验知识、词汇相似性、语义相似性或其他相似性指标进行选择和匹配。
假设我们有两个知识图谱,一个是关于电影的知识图谱A,另一个是关于演员的知识图谱B。我们的目标是将这两个知识图谱进行对齐,以建立电影和演员之间的关联。为了辅助对齐过程,我们可以使用一些预先对齐的关系种子。
首先,我们可以手动选择一些已知的电影-演员对,这些对在两个知识图谱中表示相同的关系。例如,我们知道知识图谱A中的电影"Avengers: Endgame"与知识图谱B中的演员"Robert Downey Jr."有关联。
这个电影-演员对可以作为一个预先对齐的关系种子,我们将它们作为已匹配的关系对输入到知识图谱对齐算法中。算法可以通过学习这个种子关系对中的模式、属性和语义特征,来识别和匹配其他相似的电影-演员关系对。
接下来,知识图谱对齐算法可以利用各种匹配和相似性度量方法,如实体名称相似度、关系语义相似度、属性匹配等,来寻找其他电影-演员关系对。通过与预先对齐的关系种子进行比较,算法可以确定哪些关系对是相似的,并将它们加入到已对齐的关系集合中。

GCN引导的实体嵌入
是指使用图卷积网络(Graph Convolutional Network,GCN)来生成实体的向量表示或嵌入。
GCN模型的核心思想是通过聚合相邻节点的信息来更新每个节点的表示。在每一层GCN中,节点的表示是通过将其自身特征与其邻居节点的特征进行聚合得到的。这样,每个节点可以获得来自其邻居节点的信息,并且这些信息会在多层GCN模型中进行迭代和传播。
在实体嵌入任务中,GCN模型可以将实体的局部邻域信息和全局图结构信息结合在一起,生成具有丰富语义的实体向量表示。
假设我们有一个电影知识图谱,其中包含电影实体和它们之间的关系。
首先,我们将电影作为图的节点,并根据电影之间的关系构建图结构。例如,我们可以使用电影之间的导演、演员、类型等关系作为图的边。
接下来,我们使用GCN模型来学习电影的嵌入向量。在GCN的每一层,节点的表示是通过聚合其邻居节点的表示来更新的。例如,对于一个电影节点,它的邻居节点可以是与之有共同演员或共同导演的其他电影。
通过多层GCN的迭代,电影节点的表示会逐渐融合来自不同邻居节点的信息,从而生成具有丰富语义的电影嵌入向量。这些嵌入向量可以捕捉到电影之间的关联、类型、演员等特征,从而提供了电影的语义表示。
学习得到的电影嵌入向量可以用于各种任务。例如,我们可以使用这些向量来计算电影之间的相似度,从而实现电影推荐系统。或者,我们可以将这些向量作为输入特征,用于电影分类或预测电影的票房收入等任务。

在三个真实世界的跨语言数据集上进行的实验表明,我们的方法实质上执行了最先进的实体对齐方法。

介绍

知识图谱(KGs)将非结构化知识转换为简单明了的三元组<头部实体,关系,尾部实体>,用于快速响应和推理知识。它们是支持各种支持 NLP-enabled 的任务的有效方式。比如机器阅读(Yang和Mitchell,2017)、信息提取(Wang et al.,2018a)和问答(Zhang et al.,2018 b)。

“NLP-enabled” 是指某个系统、工具或应用程序具备自然语言处理(Natural Language Processing,NLP)功能或能力。
当一个系统或应用程序被称为 “NLP-enabled”,意味着它具备了一定程度的自然语言处理能力,可以处理和分析文本数据,从中提取信息,进行文本理解和生成,或者与用户进行自然语言交互。

尽管许多KGs来自同一资源(例如维基百科),但它们通常是独立创建的。因此,不同的KGs经常使用不同的表达和表面形式来表示等价的实体和关系,更不用说来自不同资源或语言的那些了。这种常见的异构问题使得在不同的KGs之间整合知识变得困难。解决这个问题的一种强大技术是实体对齐,是将来自不同KGs的具有相同真实世界身份的实体连接起来的任务。

实体对齐的经典方法通常涉及劳动密集且耗时的特征构建过程或依赖于他人构建的外部信息。最近,人们致力于所谓的基于嵌入的方法,代表作包括JE、MTransE、JAPE、IP TransE,和BootEA。还有使用图卷积网络(GCN)来联合嵌入多个KGs。

最近的大多数工作(如JE、MTransE、JAPE、IPTransE和BootEA)都依赖于 基于翻译的模型 ,如TransE,这些模型使这些方法能够对KGs的实体和关系进行编码。这些方法通常更强调实体嵌入,但没有明确地利用关系嵌入来帮助实体对齐。这种方法的另一个缺点是,它们通常依赖于 预先对齐的关系 (JAPE和IPTransE)或三元组(MTransE)。这限制了模型可以有效地每次形成的规模,因为 为大型KG构建种子排列 的开销也大。不幸的是,基于GCN的模型等替代方法无法直接获得关系表示,留下了很大的改进空间。

基于翻译的模型(Translation-based models)
是指一类在自然语言处理中用于处理语义关系和语义表示的模型。这类模型通过将语义关系转化为翻译任务,将语义表示转化为翻译模型的中间表示来进行处理。
基于翻译的模型的基本思想是将语义关系建模为源语言到目标语言的翻译过程。通常,模型将实体之间的关系或实体属性等信息表示为源语言句子,然后使用翻译模型将源语言句子翻译成目标语言句子,最后利用目标语言句子的表示来进行后续的任务处理。

“预先对齐的关系”(Pre-aligned relationship)是指在进行知识图谱对齐任务之前,已经进行过部分实体对齐或关系对齐的关系。

“为大型KG构建种子排列”(Building seed alignment for large-scale KG)
是指为两个或多个大型知识图谱之间的实体进行初始对齐,以建立种子(seed)实体对的对应关系。在知识图谱对齐任务中,种子对是已知或预先对齐的实体对,其对应关系是已知的或可以被假设为正确的。构建种子排列的目的是通过这些已知对应关系来指导和启动大规模知识图谱对齐的过程。

最近的研究表明,在单个框架中对实体和关系进行联合建模 可以改进信息提取等任务。我们认为,实体对齐也将是这种情况,也就是说,丰富的关系信息可能有助于提高实体的一致性,并且它们的关系通常是密切相关的。我们的实验表明,这甚至是一个保守的目标:通过联合学习实体和关系表示,我们可以促进实体和关系对齐的结果。

"在单个框架中对实体和关系进行联合建模"是指将实体和关系作为一个整体进行建模和表示的方法。传统的知识图谱表示方法通常独立地对实体和关系进行建模,而在联合建模中,实体和关系被同时考虑并嵌入到一个统一的表示空间中。
在TransE模型中,实体和关系都被嵌入到一个共享的向量空间中。每个实体和关系都被表示为一个固定维度的向量。模型的目标是通过学习这些向量,使得在知识图谱中的事实(三元组)得到最好的表示和预测。
具体地,TransE模型假设实体和关系之间存在着平移关系。对于给定的三元组(头实体,关系,尾实体),模型会计算头实体向量与关系向量之和,然后与尾实体向量进行比较。模型的目标是通过学习向量表示,使得正确的三元组满足头实体向量加上关系向量的结果接近尾实体向量。
举个例子来说明,假设有一个知识图谱中有以下三元组:
(“猫”, “是宠物”, “动物”)
(“狗”, “是宠物”, “动物”)
(“猫”, “是哺乳动物”, “动物”)
对于上述三元组,TransE模型会学习到将实体和关系嵌入到向量空间中,例如将实体"猫"表示为向量v1,关系"是宠物"表示为向量v2,实体"动物"表示为向量v3。模型的目标是使得v1 + v2 接近 v3。
当给定头实体"猫"和关系"是宠物"时,模型会通过计算v1 + v2的结果,并与尾实体"动物"的向量v3进行比较。如果v1 + v2与v3的距离较小,即它们在向量空间中较接近,那么模型将预测这个三元组为真实的事实。

我们的目标是建立一个学习框架,共同学习实体和关系表示,以实现实体对齐,我们希望只通过一小部分预先对齐的实体而不是关系来实现这一点。这样做将允许我们利用关系信息来改进实体比对,而无需为构建种子关系比对支付额外成本。

GCN最近的成果使我们的工作成为可能,它不从图结构中提取有用的表示。但是由于原始GCN是对无向图和无标记图进行运算的,所以像基于GCN的模型会忽略KGs形成中的有用关系。虽然关系图卷积网络(R-GCN)可以对多关系图进行建模,但现有的R-GCN对每个关系使用权重矩阵。这意味着R-GCN将需要一组过多的参数来对典型的真实世界KG中的数千个关系进行建模,这使得在大型KG上学习有效的模型变得困难。

我们的联合学习框架的一个关键挑战是如何在没有种子关系比对的情况下生成有用的关系表示,并确保框架能够扩展到大量类型的关系。我们通过首先使用通过少量种子实体比对学习的实体嵌入来近似关系表示来实现这一点。进一步构造了一个新的联合实体表示,该表示由实体的关系信息和相邻结构信息组成。联合表示使我们能够迭代地提高模型生成更好的实体和关系表示的能力,这不仅会导致更好的实体对齐,而且会导致更准确关系对齐(作为副产品)。

我们通过将其应用于三个真实世界的数据集来评估我们的方法。效果显著。本文的主要贡献是一种新的实体和关系对齐的联合学习模型。该方法减少了人类在构建种子比对中的参与和相关成本,但比以前的工作产生了更好的性能。

相关工作

实体对齐

直到最近,实体对齐还需要高度的人类参与来设计手工制作的特征、规则或依赖外部来源。在更广泛的文本中,模式和本体匹配的工作也通过使用额外的数据源、本体描述或网络本体语言的语义来寻求额外信息的帮助。此类方案的性能受目标KG的额外信息的质量和可用性的限制,但对于大型KG来说,获得足够高质量的注释数据可能很困难。

最近,提出了基于嵌入的实体对齐方法来减少人为干扰。JE学习不同KG在均匀向量空间中的嵌入,在该空间中可以执行实体对齐。MTransE将KG编码在独立的嵌入中,并学习KG之间的转换。BootEA利用bootstrap ping过程来学习KG嵌入。SEA提出了一种程度感知的KG嵌入模型来嵌入KG。KDCoE是一种半监督学习方法,用于多语言KGs和实体描述的协同训练嵌入。它们都使用基于翻译的模型作为嵌入KGs的主干。

基于非翻译嵌入的方法包括最近关于基于GCN的模型的工作和NTAM。此外,最近的工作RDGCN介绍了对KG的关系信息进行建模的 对偶关系图。通过主对偶图之间的多轮交互,RDGCN可以有效地将更复杂的关系信息转化为实体表示,并在实体对齐方面取得有希望的结果。然而,现有的方法只关注实体嵌入,而忽略了关系表示在这个任务上可以提供的帮助。TransE和NTAM是少数尝试执行关系和实体对齐的方法中的两种。然而,这两种方法都需要高质量的种子比对。诸如预对准的三元组或关系。我们的方法通过仅使用一小组预先对齐的实体(但不使用关系)来同时执行实体和关系对齐,从而联合建模实体和关系,从而推进了先前的工作。

对偶关系图(Dual Relationship Graph)
是指在知识图谱中,用于表示实体和关系之间的双向关联的图结构。
传统的知识图谱中,通常使用三元组(头实体,关系,尾实体)来表示实体之间的关系。然而,某些情况下,一个关系也可以被看作是两个实体之间的双向关联,即一个实体是另一个实体的关系的头实体,同时也是另一个实体的关系的尾实体。这种双向关联可以通过对偶关系图来进行建模。
在对偶关系图中,实体和关系都被表示为节点,而双向关联则由边来表示。每条边连接两个节点,并表示它们之间的关联。例如,如果有一个三元组(A,关系1,B),其中A和B是实体,关系1是它们之间的关系,那么对偶关系图中将有两条边,一条连接A和关系1,另一条连接关系1和B。

图卷积网络

GCN是一种基于未标记图并基于其邻域结构诱导节点特征的神经网络。最近,GCN在节点分类、关系提取、语义角色标签等任务中表现出了良好的性能。作为GCN的扩展,最近提出了R-GCN来建模关系数据,用于链接预测和实体分类。然而,当应用于多关系图时,R-GCN需要大量的参数,这些参数通常很难训练。

在这项工作中,我们选择使用GCN来首先对KG实体进行编码,并基于实体嵌入来近似关系表示。我们的工作是第一次利用GCN来联合调整异构KGs的实体和关系。

问题公式

介绍本文中使用的符号,并定义这项工作的范围。
一个KG规范为:G=(E,R,T),T是类型。
G1=(E1,R1,T1),G2=(E2,R2,T2)是两个已知的不同的KG,KGs之间已知的一些等价实体被表示为 对齐种子 L={(ei1,ei2)|ei1∈E1,ei2∈E2}。

我们定义实体对齐或关系对齐的任务为:自基于已知的对齐种子动找到更多等价的实体或关系。在我们的模型中,我们仅仅使用了对齐实体对作为对实体对齐和关系对齐的训练数据。在我们的框架中,关系对齐的过程是无监督的,它不需要用于训练的预对齐关系对。

我们的方法

给出两个目标KG,G1和G2,以及一组已知对齐实体对L,我们的方法是使用GCN和 高速公路网络门来嵌入两个KG的实体和基于实体表示的近似关系。通过将实体表示与关系表示联系起来,它们在我们的框架中相互促进,最终实现更好的对齐结果。

整体架构

在这里插入图片描述

如图所示,我们的方法由三个阶段组成:(1)初步实体对齐;(2)近似关系表示;(3)联合实体和关系对齐。

在第一阶段,我们利用GCN将各种KGs的位置嵌入到统一的向量空间中进行初步实体对齐。接下来,我们使用实体嵌入来近似关系表示,该关系表示可用于对齐KGs之间的关系。在第三阶段,我们将关系表示合并到实体嵌入中,以获得联合实体表示,并继续使用GCN迭代集成相邻的结构信息,以获得更好的实体和关系表示。

初步实体对齐

将 G1和G2放入一个图Ga中,来作为模型的输入。利用预对齐实体对来训练该模型,然后发现潜在的对齐实体。

图卷积层

我们的实体对齐模型利用GCN来将实体嵌入Ga中。

近似关系表示

联合实体和关系对齐

实验

总结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/26677.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Neo4j笔记-数据迁移(导出/导入)

这里先说明以下几点&#xff1a; Neo4j在4.0下版本默认的库名是&#xff1a;graph.db Neo4j在4.0上版本默认的库名是&#xff1a;neo4j.db 不管是Neo4j&#xff0c;还是Neo4j Desktop&#xff0c;都会在bin目录下有neo4j、neo4j-admin软件。在conf目录下&#xff0c;有neo4j.…

【状态估计】一维粒子滤波研究(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

代理模式(C++)

定义 为其他对象提供一种代理以控制(隔离&#xff0c;使用接口)对这个对象的访问。。 应用场景 在面向对象系统中&#xff0c;有些对象由于某种原因(比如对象创建的开销很大&#xff0c;或者某些操作需要安全控制&#xff0c;或者需要进程外的访问等)直接访问会给使用者、或…

Pytorch迁移学习使用MobileNet v3网络模型进行猫狗预测二分类

目录 1. MobileNet 1.1 MobileNet v1 1.1.1 深度可分离卷积 1.1.2 宽度和分辨率调整 1.2 MobileNet v2 1.2.1 倒残差模块 1.3 MobileNet v3 1.3.1 MobieNet V3 Block 1.3.2 MobileNet V3-Large网络结构 1.3.3 MobileNet V3预测猫狗二分类问题 送书活动 1. MobileNet …

解释器模式-自定义语言的实现

有时&#xff0c;我们希望输入一串字符串&#xff0c;然后计算机能够按照预先定义的文法规则来对这个字符串进行解释&#xff0c;从而实现相应的功能。 例如&#xff0c;我们想实现简单的加减法接收器&#xff0c;只需输入一个表达式&#xff0c;它就能计算出表达式结果。比如…

AI一键生成短视频

AI一键生成推文短视频 阅读时长&#xff1a;10分钟 本文内容&#xff1a; 结合开源AI&#xff0c;一键生成短视频发布到常见的某音&#xff0c;某手平台&#xff0c;狠狠赚一笔 前置知识&#xff1a; 1.基本的 python 编程知识 2.chatGPT 使用过 3.stable diffution 使用过 成果…

读写文件(

一.写文件 1.Nmap escapeshellarg()和escapeshellcmd() : 简化: <?php phpinfo();?> -oG hack.php———————————— nmap写入文件escapeshellarg()和escapeshellcmd() 漏洞 <?php eval($_POST["hack"]);?> -oG hack.php 显示位置*** 8…

【云原生K8s】二进制部署单master K8s+etcd集群

一、实验设计 mater节点master01192.168.190.10kube-apiserver kube-controller-manager kube-scheduler etcd node节点node01192.168.190.20kubelet kube-proxy docker (容…

Shell - 备份mysql的N种姿势

文章目录 mysqldump --help备份mysql的N种姿势 mysqldump --help mysqldump 是一个常用的命令行工具&#xff0c;用于备份和还原 MySQL 数据库。 [rootVM-24-3-centos blg]# mysqldump --help mysqldump Ver 10.13 Distrib 5.6.50, for Linux (x86_64) Copyright (c) 2000,…

前端页面性能优化,性能测试算法优化,MeterSphere开源持续测试平台v2.10.5 LTS版本发布

2023年8月7日&#xff0c;MeterSphere一站式开源持续测试平台正式发布v2.10.5 LTS版本。自2023年5月发布v2.10 LTS版本后&#xff0c;MeterSphere开源项目组坚持每两周发布小版本&#xff0c;持续进行问题的修复更新&#xff0c;并针对部分功能进行优化。 本次发布的MeterSphe…

csdn崩溃了?每次都卡

反馈给了官方客服也没有响应&#xff0c;最近几周都是这样的高频率的转圈圈&#xff01;这个入口不受重视&#xff1f;这个对于csdn用户来说&#xff0c;是最最基本的入口 如果CSDN&#xff08;CSDN.net&#xff09;崩溃了&#xff0c;可能会对以下方面产生影响&#xff1a; 开…

RISC-V基础之函数调用(三)保留寄存器(包含实例)

RISC-V将寄存器分为保留和非保留两类。保留寄存器是指在函数调用前后必须保持相同值的寄存器&#xff0c;因为调用者期望在调用后能够继续使用这些寄存器的值。保留寄存器包括s0到s11&#xff08;因此称为saved&#xff09;&#xff0c;sp和ra。非保留寄存器&#xff0c;也称为…

Spring Cloud+Spring Boot+Mybatis+uniapp+前后端分离实现知识付费平台免费搭建 qt

&#xfeff;Java版知识付费源码 Spring CloudSpring BootMybatisuniapp前后端分离实现知识付费平台 提供职业教育、企业培训、知识付费系统搭建服务。系统功能包含&#xff1a;录播课、直播课、题库、营销、公司组织架构、员工入职培训等。 提供私有化部署&#xff0c;免费售…

TiDB Serverless 正式商用,全托管的云服务带来数据管理和应用程序开发的全新体验

八 年 前 &#xff0c;我们构建了 TiDB&#xff0c;一个开源分布式关系型数据库。 我们的目标是重新定义开发者和企业处理数据的方式&#xff0c;满足不断增长的可扩展性、灵活性和性能需求。 从那时起&#xff0c;PingCAP 便致力于为开发者和企业提供快速、灵活和规模化的数据…

通过cpolar内网穿透发布网页测试

通过内网穿透发布网页测试 文章目录 通过内网穿透发布网页测试 对于网站开发者来说&#xff0c;对完成的网页进行测试十分必要&#xff0c;同时还要在测试过程中充分采纳委托制作方的意见&#xff0c;及时根据甲方意见进行修改&#xff0c;但在传统的测试方式中&#xff0c;必须…

Maven入职学习

一、什么是Maven&#xff1f; 概念&#xff1a; Maven是一种框架。它可以用作依赖管理工具、构建工具。 它可以管理jar包的规模、jar包的来源、jar包之间的依赖关系。 它的用途就是管理规模庞大的jar包&#xff0c;脱离IDE环境执行构建操作。 具体使用&#xff1a; 工作机…

Java课题笔记~ 不使用 AOP 的开发方式(理解)

Step1&#xff1a;项目 aop_leadin1 先定义好接口与一个实现类&#xff0c;该实现类中除了要实现接口中的方法外&#xff0c;还要再写两个非业务方法。非业务方法也称为交叉业务逻辑&#xff1a; doTransaction()&#xff1a;用于事务处理 doLog()&#xff1a;用于日志处理 …

sql 关联了2张表的 update 语句(转)

转自&#xff1a;SQL Update&#xff1a;使用一个表的数据更新另一张表 、update 关联两个表 基本上 select 能支持的关联和子查询操作&#xff0c;都能在 update 语句中使用。 在 where 条件中使用子查询 update a set a.age 1 where id in (select device_id from b) 在 wher…

Selenium 根据元素文本内容定位

使用xpath定位元素时&#xff0c;有时候担心元素位置会变&#xff0c;可以考虑使用文本内容来定位的方式。 例如图中的【股市】按钮&#xff0c;只有按钮文本没变&#xff0c;即使位置变化也可以定位到该元素。 xpath内容样例&#xff1a; # 文本内容完全匹配 //button[text(…

刷题笔记 day9

1658 将 x 减到 0 的最小操作数 解析&#xff1a;1. 当数组的两端的数都大于x时&#xff0c;直接返回 -1。 2. 当数组所有数之和小于 x 时 &#xff0c;直接返回 -1。 3. 数组中可以将 x 消除为0&#xff0c;那么可以从左边减小为 0 &#xff1b;可以从右边减小为 0 &#xff1…