论文浅尝 | 基于属性嵌入的知识图谱实体对齐

论文笔记整理:王中昊,天津大学硕士,方向:自然语言处理。


来源:AAAI2019

论文链接: https://doi.org/10.1609/aaai.v33i01.3301297

 

概述

知识图谱之间的实体对齐的任务目标是去找到那些在两个不同的知识图谱上表示现实世界相同的实体。最近,人们提出了基于嵌入的模型应用于实体对齐任务。这种模型建立在知识图谱嵌入模型的基础上,该模型学习实体嵌入以捕获同一知识图谱中实体之间的语义相似性。而作者提议出一种能够学习嵌入进而捕捉不同知识图谱中实体间相似性的模型。这种模型有助于将不同知识图谱中的实体对齐,从而实现多个知识图谱的集成。模型利用知识图谱中存在的大量属性三元组,来生成attribute character embeddings。attribute character embeddings基于它们的属性,将两个知识图谱上的实体嵌入通过计算实体之间的相似度进而转移到同一空间。与此同时,模型也使用传递性规则来进一步丰富实体的属性数目,以增强attribute character embeddings。

 

 

模型和方法

 

模型综述

该模型框架使用基于嵌入的模型,如上图所示。该框架由谓词对齐、嵌入学习和实体对齐三部分模块组成。由于基于嵌入的实体对齐要求两个知识图谱的嵌入(关系和实体嵌入)落在同一向量空间中。为了使关系嵌入有一个统一的向量空间,我们基于谓词相似度(即谓词对齐)合并了两个知识图谱。

谓词对齐模块(后文将详细介绍)将查找部分相似的谓词,例如dbp:bornIn与yago:wasBornIn,并使用统一的命名方案(例如:bornIn)来重命名它们。基于这个统一的命名方案,我们将G1和G2(见上图)合并成为G1_2中。然后,将合并后的图G1_2分为一组关系三元组Tr和一组属性三元组Ta,用于后续的嵌入学习。

嵌入学习模块(后文将详细介绍)利用结构嵌入和属性嵌入共同学习两个知识图谱的实体嵌入。使用上文中生成的关系三元组Tr来进行结构嵌入的学习,而使用属性三元组Ta来进行属性嵌入的学习。最初,来自G1和G2的实体的结构嵌入,由于两个知识图谱中的实体使用不同的命名方案表示,因此落入不同的向量空间。相反的,从属性三元组Ta中学习到的属性嵌入可以落在同一向量空间中。这是通过从属性字符串中学习字符嵌入来实现的,即使属性来自不同的知识图谱(我们称之为attribute character embeddings),也可以是相似的。然后,利用得到的attribute character embeddings将实体的结构嵌入到同一向量空间中,使得实体嵌入能够从两个知识图谱中获取实体间的相似性。例如,假设我们有三元组<lgd:240111203,:country,lgd:51477>和<lgd:51477,:label, "Germany">来自G1,以及<dbp:kromdorf,:country,dbp:Germany>和<dbp:Germany,:label, "Germany">来自G2。attribute character embeddings允许两个实体lgd:51477和dbp:Germany具有相似的向量表示,因为这两个实体具有相似的属性值“Germany”。然后,实体lgd:240111203和dbp:kromdorf的结构嵌入也将相似,因为这两个实体共享相同的谓词,并且有两个具有相似的向量表示的尾部实体lgd:51477和dbp:Germany,。

一旦我们获得了G1和G2中所有实体的嵌入,实体对齐模块(后文将详细介绍)就会发现每一对<h1,h2>,其中h1∈G1和h2∈G2的相似性得分都高于阈值β。为了进一步提高模型的性能,作者所建立的模型使用关系传递性规则来丰富G1和G2中所有实体的属性,进而帮助构建更健壮的属性嵌入以计算实体之间的相似性。

 

1.1 谓词对齐模块

 

谓词对齐模块通过使用统一的命名方案来重命名两个知识图谱中的谓词,从而合并两个KG,以便为关系嵌入提供统一的向量空间。事实上,谓词有命名约定,例如rdfs:label、geo:wgs84pos#lat和geo:wgs84 pos#long。除了命名c约定之外,还有部分匹配的谓词,例如dbp:diedIn vs.yago:diedIn和dbp:bornInvs.yago:wasBornIn。谓词对齐模块找到这些谓词,并使用统一的命名方案(例如:diedIn和:bornIn)重命名它们。为了找到部分匹配的谓词,作者通过计算谓词URI最后一部分的编辑距离(例如bornIn与wasBornIn),并将0.95设为相似度阈值。

 

1.2嵌入学习模块

 

结构嵌入

 

作者将嵌入学习更多地集中在对齐的三元组(即具有对齐谓词的三元组)上,将TransE学习用于知识图谱之间实体对齐的结构嵌入。并且通过添加权重α来控制三元组上的嵌入学习。为了学习结构嵌入,在作者的模型中,最小化了以下目标函数JSE

其中Tr是有效关系三元组的集合,T′r是损坏关系三元组的集合,γ是一个边距超参数,count(r)是关系r的出现次数,|T |是KG合并后,G1_2中三元组的总数。通常,对齐谓词的出现次数高于不对齐谓词,因为对齐谓词同时出现在两个知识图谱中,因此允许模型从对齐的三元组中学习更多内容。

 

属性嵌入

 

就像TransE一样,对于属性字符嵌入,我们将谓词r解释为从头实体h到属性a的翻译。但是,同一个属性a可能以不同的形式出现在两个知识图谱中,例如,50.9989 vs.50.998888889作为实体的纬度;“Barack Obama”vs.“Barack Hussein Obama”作为人名,等等,我们使用复合函数来编码属性值,并将属性三元组中每个元素的关系定义为h+r≈fa(a)。这里,fa(a)是一个复合函数,a是属性值a={c1,c2,c3,…,ct}的字符序列。合成函数将属性值编码为单个向量,并将类似的属性值映射到类似的向量表示。我们定义了三个组合函数如下:

Sum compositional function (SUM)。第一个复合函数定义为属性值的所有字符嵌入的总和:

其中c1、c2、…、ct是属性值的字符嵌入。

 

LSTM-based compositional function (LSTM)。为了解决SUM问题,作者提出了一种基于LSTM的组合函数。此函数使用LSTM网络将字符序列编码为单个矢量。并且使用LSTM网络的最终隐藏状态作为属性值的向量表示:

其中,flstm是由Kimetal定义的LSTM网络(2016年)。

 

N-gram-based compositional function (N-gram)。作者进一步提出了一个基于N-gram的组合函数作为解决SUM问题的替代方法。这里,作者使用属性值的n-gram组合求和。   

其中N表示n-gram组合中使用的n的最大值(在作者的实验中n=10),t是属性值的长度。

 

为了学习属性字符嵌入,作者将以下目标函数JCE最小化:

其中Ta是来自训练数据集的有效属性三元组,而T′a是损坏属性三元组的集合(a是G中的属性集合)。通过将头实体替换为随机实体或将属性替换为随机属性值,将损坏的三元组用作负样本。要注意的是,这里的f(ta)是基于头部实体h的嵌入、关系r的嵌入和使用合成函数fa(a)计算的属性值的向量表示的似然性得分。

下面要进行结构嵌入与属性字符嵌入的联合学习,作者使用attribute character embedding(hce) ,通过最小化以下目标函数JSIM,将结构嵌入(hse)转移到同一向量空间中:

这里cos(hse,hce)是向量hse和hce的余弦相似性。结构嵌入将基于实体关系捕获两个知识图谱之间实体的相似性,而属性字符嵌入将基于属性值捕获实体的相似性。结构嵌入和属性字符嵌入联合学习的总体目标函数是:

              

 

1.3实体对齐模块

 

由于结构嵌入和属性字符嵌入的联合学习,使得G1和G2的相似实体具有相似的嵌入。因此,生成的嵌入可用于实体对齐。我们计算下列实体对齐方程:

给定一个实体h1∈G1,我们计算h1与所有实体h2∈G2之间的相似性。<h1,hmap>是预期的对齐实体对。我们使用相似性阈值β来过滤太不相似而无法对齐的成对实体。

 

 

1.4通过传递性规则丰富三元组

 

尽管嵌入的结构隐式地学习了关系传递信息,但是显式地包含这些信息会增加每个实体的属性和相关实体的数量,这有助于识别实体之间的相似性。例如,给定三元组<dbp:EmporiumTower,:locatedIn,dbp:London>和<dbp:London,:country,dbp:England>,我们可以推断dbp:EmporiumTower与dbp:England有关系(即“:locatedInCountry”)。实际上,这些信息可以用来丰富相关实体dbp:Emporium Tower。作者将一跳传递关系处理如下,给定传递三元组<h1,r1,t>和<t,r2,t2>,我们将r1.r2解释为从头实体h1到尾实体t2的关系。因此,这些传递三元组之间的关系被定义为h1+(r1.r2)≈t2。通过用r1.r2代替关系向量r,也增强了上文提到的嵌入模型的最小化目标函数。

实验

作者在四个真实的KG上评估了他们的模型,包括DBpedia(DBP)(Lehmann等人。2015年),LinkedGeoData(LGD)(Stadler等人。2012年),Geonames(GEO)2和YAGO(Hoffart等人。2013年)。作者使用提出的模型,将DBP的实体分别与LGD、GEO和YAGO的实体对齐。将模型发现的对齐实体与三个地面真值数据集(DBP-LGD、DBP-GEO和DBP-YAGO)中的对齐实体进行比较,这三个数据集分别包含了DBP和LGD、GEO和YAGO之间的对齐实体。

作者使用hits@k(k=1,10)(即正确对齐的实体在前k个预测中所占的比例)和正确(即匹配)实体的排名的平均值来评估模型的性能。较高的hits@k和较低的MR表明该模型的性能更好。对于来自DBP的每个实体,作者使用公式计算与来自另一个KG(LGD/GEO/YAGO)的实体的相似性得分。如表1所示,作者提出的模型始终优于基线模型,基于MR的t检验,p<0.01。同时,MTransE和JAPE依赖于种子排列的数量(作者使用黄金标准的30%作为原始文件中建议的种子排列)。

表1

 

在作者的attribute character embedding模型中,使用N-gram复合函数比使用LSTM或和复合函数获得了更好的性能,因为N-gram复合函数在将属性字符串映射到其向量表示时比其他函数更好地保持字符串的相似性。同时由于传递性规则丰富了实体的属性,进而更好地提高了模型的性能。为了评估属性字符嵌入在捕获实体间相似性方面的能力,作者进一步创建了基于规则的实体对齐模型,其中只使用实体标签字符串之间的编辑距离以对齐实体。对于DBP-LGD和DBP-GEO数据集,作者添加坐标相似性作为额外的度量,因为这两个数据集只包含位置实体。从表2可以看出,作者的模型的嵌入结果可以作为一个附加特性添加,以增强基于规则的模型的性能。

表2

 

总结

针对知识图之间的实体对齐问题,作者提出了一种实体结构嵌入与属性字符嵌入相结合的嵌入模型。模型使用属性字符嵌入将实体嵌入从不同的知识图谱转移到相同的向量空间。此外,作者采用传递性规则来丰富实体的属性数目,以帮助识别基于属性嵌入的实体之间的相似性。作者提出的模型在三对真实世界知识图谱之间的实体对齐方面的hits@1始终超过基准50%。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479331.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基本功 | Litho的使用及原理剖析

1. 什么是Litho&#xff1f; Litho是Facebook推出的一套高效构建Android UI的声明式框架&#xff0c;主要目的是提升RecyclerView复杂列表的滑动性能和降低内存占用。下面是Litho官网的介绍&#xff1a; Litho is a declarative framework for building efficient user interfa…

论文浅尝 | 基于深度强化学习将图注意力机制融入知识图谱推理

论文笔记整理&#xff1a;陈名杨&#xff0c;浙江大学直博生。Introduction知识图谱&#xff08;KGs&#xff09;在很多NLP的下游应用中起着越来越重要的作用。但是知识图谱常常是不完整的&#xff0c;所以解决知识图谱补全的任务也非常重要。主要有三种方法来完成知识图谱补全…

聊聊如何提升推荐系统的结果多样性

文 | 洪九(李戈)源 | 知乎个性化推荐系统的出现为处理信息过载问题提供了一个有效的工具&#xff0c;已经成为互联网各大平台(电商、信息流等)的标配&#xff0c;并在技术(个性化召回、个性化排序等)上取得了长足的发展&#xff0c;逐渐从传统模型过度到深度学习时代。但是&…

论文浅尝 | GNN with Generated Parameters for Relation Extraction

论文笔记整理&#xff1a;申时荣&#xff0c;东南大学博士生。地址&#xff1a;https://arxiv.org/pdf/1902.00756.pdf来源&#xff1a;ACL2019在许多自然语言处理任务&#xff08;例如关系提取&#xff09;中&#xff0c;多跳关系推理是必不可少的&#xff0c;而图神经网络&am…

大众点评信息流基于文本生成的创意优化实践

1. 引言 信息流是目前大众点评除搜索之外的第二大用户获取信息的入口&#xff0c;以优质内容来辅助用户消费决策并引导发现品质生活。整个大众点评信息流&#xff08;下文简称点评信息流&#xff09;围绕个性化推荐去连接用户和信息&#xff0c;把更好的内容推荐给需要的用户。…

LeetCode 701. 二叉搜索树中的插入操作(二叉查找树/插入)

1. 题目 给定二叉搜索树&#xff08;BST&#xff09;的根节点和要插入树中的值&#xff0c;将值插入二叉搜索树。 返回插入后二叉搜索树的根节点。 保证原始二叉搜索树中不存在新值。 注意&#xff0c;可能存在多种有效的插入方式&#xff0c;只要树在插入后仍保持为二叉搜索…

docker的简单操作和端口映射

docker的简单操作和端口映射&#xff1a;https://www.cnblogs.com/lixaingyang/p/11976827.html docker的简单操作和端口映射 一&#xff1a;简介 Docker镜像 在Docker中容器是基于镜像启动的 镜像是启动容器的核心 镜像采用分层设计&#xff0c;最顶层为读写层 使用快照COW技…

Android官方开发文档Training系列课程中文版:管理Activity的生命周期之启动一个Activity

原文地址 : http://android.xsoftlab.net/training/basics/activity-lifecycle/index.html 导言 用户通过导航退出或者返回应用的时候&#xff0c;应用中Activity的生命周期会在不同的状态之间变换。举个例子&#xff0c;当Activity初次启动的时候&#xff0c;它会来到系统的…

论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings

论文笔记整理&#xff1a;谭亦鸣&#xff0c;东南大学博士生&#xff0c;研究方向为知识图谱问答。来源&#xff1a;Knowledge Based System链接&#xff1a;https://www.sciencedirect.com/science/article/abs/pii/S0950705118301412?via%3Dihub双语word embedding将两种语言…

实践中学到的最重要的机器学习经验!

文 | 微调源 | 知乎问答今天我们讨论一个很有实际意义的问题&#xff1a;你在实践中学到的最重要的机器学习经验是什么&#xff1f;以下回答来自知乎优秀答主微调。1.永远保持怀疑机器学习是最容易得到错误结论的一种解决方案。和编程、做表格、或者纯粹的数学建模不同&#xf…

Android官方开发文档Training系列课程中文版:管理Activity的生命周期之暂停和恢复Activity

原文地址 : http://android.xsoftlab.net/training/basics/activity-lifecycle/pausing.html 在APP的正常使用过程中&#xff0c;在前台工作的Activity有时可能会被其他的可视化组件挡住&#xff0c;而引起Activity进入Paused状态。举个例子&#xff0c;当一个半透明的Activit…

Leaf:美团分布式ID生成服务开源

Leaf是美团基础研发平台推出的一个分布式ID生成服务&#xff0c;名字取自德国哲学家、数学家莱布尼茨的一句话&#xff1a;“There are no two identical leaves in the world.”Leaf具备高可靠、低延迟、全局唯一等特点。目前已经广泛应用于美团金融、美团外卖、美团酒旅等多个…

LeetCode 658. 找到 K 个最接近的元素(二分查找)

1. 题目 给定一个排序好的数组&#xff0c;两个整数 k 和 x&#xff0c;从数组中找到最靠近 x&#xff08;两数之差最小&#xff09;的 k 个数。返回的结果必须要是按升序排好的。如果有两个数与 x 的差值一样&#xff0c;优先选择数值较小的那个数。 示例 1:输入: [1,2,3,4,…

负数的开方到底等于多少?

文&#xff1a;杨树森知乎编&#xff1a;小鹿鹿lulu负数的开方到底等于多少?举个栗子拿出小本本, 一通变换,得到:Really? 且看下面详解乘方来源于乘法&#xff0c;我们可以归纳地定义&#xff0c;设 是一个域&#xff0c;, 则上述的域 可以是有理数域 , 实数域, 或复数域 前两…

综述 | 知识图谱实体链接:一份“由浅入深”的综述

本文转载自公众号&#xff1a;PaperWeekly。 作者丨Nicolas单位丨追一科技 AI Lab 研究员研究方向丨信息抽取、机器阅读理解本文介绍实体链接&#xff08;Entity Linking&#xff09;这一技术方向&#xff0…

Android官方开发文档Training系列课程中文版:管理Activity的生命周期之停止和重启Activity

原文地址 : http://android.xsoftlab.net/training/basics/activity-lifecycle/stopping.html#Start 在activity的生命周期内&#xff0c;适当的停止和重新启动activity是一个非常重要的过程&#xff0c;它可以确保用户能感觉到APP一直是存活状态&#xff0c;并且不会丢失他们…

selenium.common.exceptions.WebDriverException: Message: ‘chromedriver’解决

selenium.common.exceptions.WebDriverException: Message: chromedriver’解决&#xff1a; https://blog.csdn.net/weixin_44318830/article/details/103339273 今天在做selenium测试的时候,可能是很久没用了,直接报了这个异常! 相信很多第一次学习selenium的同学们也对这个异…

活动 Web 页面人机识别验证的探索与实践

在电商行业&#xff0c;线上的营销活动特别多。在移动互联网时代&#xff0c;一般为了活动的快速上线和内容的即时更新&#xff0c;大部分的业务场景仍然通过 Web 页面来承载。但由于 Web 页面天生“环境透明”&#xff0c;相较于移动客户端页面在安全性上存在更大的挑战。本文…

利用python提取网站曲线图数据

文章目录数据1数据2数据1 数据目标&#xff1a;曲线图 F12&#xff0c;如图位置输入JSON.stringify(dataSeries.dataPoints) copy&#xff0c;粘贴到data.txt 数据是一个列表&#xff0c;里面是多个字典 编写程序如下&#xff1a; import json as js datafile data1.txt…

论文浅尝 | HEAD-QA: 一个面向复杂推理的医疗保健数据集

论文笔记整理&#xff1a;谭亦鸣&#xff0c;东南大学博士生&#xff0c;研究方向为知识库问答。来源&#xff1a;ACL2019本文构建了一个面向复杂推理任务的多选问答数据集 HEAD-QA&#xff0c;该数据集中的问题来自一个西班牙的医疗保健专业测试&#xff0c;对于具备该方向专业…