论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法

笔记整理:张清恒,南京大学计算机科学与技术系,硕士研究生。


640?wx_fmt=png

论文链接:https://people.eng.unimelb.edu.au/jianzhongq/papers/AAAI2019_EntityAlignment.pdf

发表会议:AAAI 2019

摘要

近来,针对跨知识图谱(KGs)的实体对齐任务,研究者提出并改进了多种基于embedding的模型。这些模型充分利用实体与实体之间的关系以得到实体之间的语义相似度,换言之,这些模型更关注于关系三元组(relationship triple)。本文发现KG中存在着大量的属性三元组(attribute triple),本文提出的模型利用属性三元组生成 attributecharacter embeddings,使其帮助不同KG中的实体映射到同一空间中。与此同时,模型还使用传递规则进一步丰富三元组。实验结果表明,相比于现有方法,本文提出的模型在实体对齐任务上取得了较大的提升。

模型介绍

1.     概览

如图1所示,该模型由三个核心部分组成,分别是谓词对齐(predicate alignment)、嵌入学习(embedding learning)和实体对齐(entity alignment)。

640?wx_fmt=png2. Predicate Alignment

该模块通过重命名潜在对齐的谓词将两个KG合并成一个KG。通过计算谓词的名称(URI的最后一部分)相似度,发现潜在对齐的谓词对,然后使用统一的命名格式将其重命名。例如,将对其的谓词对,“dbp:bornIn”和“yago:wasBornIn”重命名成“:bornIn”。

3.     Embedding Learning

3.1   Structure Embedding

Structureembedding模块采用TransE实现,与TransE不同的是,模型希望更关注

已对齐的三元组,也就是包含对齐谓词的三元组。模型通过添加权重来实现这一目的。Structure embedding的目标函数如下:

640?wx_fmt=png

其中,count(r) 是包含的三元组的数量,表示合并之后的三元组集合。

3.2 Attribute Character Embedding

structure embedding 一样,attribute character embedding 也借鉴了 TransE 的思想,把谓词作为头实体与属性值之间的转换媒介。但与 structure embedding 不同的是,对于相同含义的属性值,在不同的KG中表现形式存在差别。因此,本文提出了三种属性值组合函数。在组合函数编码属性值之后,模型希望属性三元组满足 h+r≈f_a(a),其中 f_a(a) 是组合函数,表示属性值的字符串 a={c_1,c_2,c_3,…,c_t}。三种组合函数如下:

1. Sum compositional functionSUM

640?wx_fmt=png

2. LSTM-based compositional functionLSTM

640?wx_fmt=png


3. N-gram-based compositional functionN-gram

640?wx_fmt=png

Attribute character embedding 模块的目标函数如下:

640?wx_fmt=png

3.3   Joint Learning of Structure Embedding and Attribute Character Embedding

本文提出的模型旨在使用attribute character embedding h_ce 帮助structure embedding h_se 在同一向量空间中完成训练,联合训练的目标函数如下:

640?wx_fmt=png

本文提出的模型的整体目标函数如下:

640?wx_fmt=png

4.     Entity Alignment

在经过上述训练过程之后,来自不同KG的相似的实体将会有相似的向量表示,因此可通过640?wx_fmt=png获得潜在的实体对齐对640?wx_fmt=png。此外,模型设定相似度阈值来过滤潜在实体对齐对,得到最终的对齐结果。

5.     Triple Enrichment via Transitivity Rule

本文发现利用传递关系可以丰富三元组,从而提升实体对齐效果。给定三元组 〈h_1,r_1,t〉 和三元组 〈t,r_2,t_2,可将640?wx_fmt=png 作为头实体 h_1 h_2 尾实体的关系,使其满足640?wx_fmt=png


实验分析

1.     数据集

本文从 DBpedia (DBP)、LinkedGeoData (LGD)、Geonames (GEO) 和 YAGO 四个 KG 中抽取构建了三个数据集,分别是DBP-LGDDBP-GEODBP-YAGO。具体的数据统计如下:

640?wx_fmt=png

2.     实体对齐结果

本文对比了三个相关的模型,分别是 TransEMTransEJAPE。试验结果表明,本文提出的模型在实体对齐任务上取得了全面的较大的提升,在三种组合函数中,N-gram函数的优势较为明显。此外,基于传递规则的三元组丰富模型对结果也有一定的提升。具体结果如下:

640?wx_fmt=png

3.     基于规则的实体对齐结果

为了进一步衡量 attribute character embedding 捕获实体间相似信息的能力,本文设计了基于规则的实体对齐模型。本实验对比了三种不同的模型:以label的字符串相似度作为基础模型;针对数据集特点,在基础模型的基础之上增加了坐标属性,以此作为第二个模型;第三个模型是把本文提出的模型作为附加模型,与基础模型相结合。具体结果如下:

640?wx_fmt=png

4.     KG补全结果

本文还在KG补全任务上验证了模型的有效性。模型主要测试了链接预测和三元组分类两个标准任务,在这两个任务中,模型也取得了不错的效果。具体结果如下:

640?wx_fmt=png




OpenKG


开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480029.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一篇文章了解架构师能力模型

每一个技术人都有着一个架构师的梦,希望自己有朝一日能登上技术之巅,以下结合我自己13年的从业经验,分别从架构师进阶之路、架构师能力模型(这里是亮点)、架构师技能树、架构师业务技能树谈起,完整的剖析一…

首篇严肃的“BERT学”研究,40+论文对比,解读 BERT 工作原理

BERT解读(论文 TensorFlow源码):https://blog.csdn.net/Magical_Bubble/article/details/89514057?depth_1- 解读ALBERT: https://blog.csdn.net/weixin_37947156/article/details/101529943 一文揭开ALBERT的神秘面纱&#…

图Graph--最短路径算法(Shortest Path Algorithm)

文章目录1. 算法解析BFS,DFS 这两种算法主要是针对无权图的搜索算法。针对有权图,图中的每条边都有权重,如何计算两点之间的最短路径(经过的边的权重和最小)呢?像Google地图、百度地图、高德地图这样的地图软件&#x…

BAT架构师进阶:大型网站架构书籍推荐

“ 书籍推荐分为如下: 大型网站架构系列 分布式系统系列 BAT技术系列 架构设计系列 一:大型网站架构系列 第一本:《大型网站技术架构:核心原理与案例分析》 这本书主要从大型网站架构的特点,架构目标&#xff08…

FLAT:中文NER屠榜之作

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

Tensorflow实现LSTM详解

关于什么是 LSTM 我就不详细阐述了,吴恩达老师视频课里面讲的很好,我大概记录了课上的内容在吴恩达《序列模型》笔记一,网上也有很多写的好的解释,比如:LSTM入门、理解LSTM网络 然而,理解挺简单&#xff0…

论文浅尝 | 一个模型解决所有问题:实体和事件的神经联合模型

笔记整理:康矫健,浙江大学计算机科学与技术系,硕士研究生。论文链接:https://arxiv.org/pdf/1812.00195.pdf发表会议:AAAI 2019摘要 近来,针对事件抽取的工作大都集中在预测事件的triggers和arguments r…

AutoPep8-----Pycharm自动排版工具

查找pycharm中的external tool的步骤: https://jingyan.baidu.com/article/84b4f565bd39a060f6da3211.html 今天从 PyCharm 入手,写一些可以明显改善开发效率的使用技巧,一旦学会,受用一生。以下代码演示是在 Mac 环境下&#xf…

阿里P8架构师谈:java架构师面试技能24全点

1,JAVA基础扎实,理解io、多线程、集合等基础框架,对JVM原理有一定的了解,熟悉常见类库,常见java api不仅会用更能知其所以然; 2,对Spring,MyBatis/Hibernate,Struts2,SpringMVC等开源框架熟悉并且了解到它的基本原理和…

百度自然语言处理部招人啦!正式、实习都要!研究、落地都有!

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术2010年,百度自然语言处理部正式成立。十年来,百度NLP聚集了一大批兼具扎实技术实力和实践经验的AI人才,获得数十项国内外权威奖项,申请专利上千件,发…

我与导师的聊天记录

虽然导师远在马来西亚,但是每次都是很耐心的回答我的问题,真的是非常感激啦! 我就想记录下来,自己提出的问题,老师给我的解答,算是我研究生生涯的很大一部分生活了吧! 噢~ 还有就是,…

论文浅尝 | 面向知识图谱补全的共享嵌入神经网络模型

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答。来源:CIKM’2018链接:http://delivery.acm.org/10.1145/3280000/3271704/p247-guan.pdf?ip121.249.15.96&id3271704&accACTIVE%20SERVICE…

PyTorch常用代码段合集

文 | Jack Stark知乎编 | 极市平台来源 | https://zhuanlan.zhihu.com/p/104019160导读本文是PyTorch常用代码段合集,涵盖基本配置、张量处理、模型定义与操作、数据处理、模型训练与测试等5个方面,还给出了多个值得注意的Tips,内容非常全面。…

想成长为一名实战型架构师?7大实战技能经验分享

很多同学想成为一名架构师,但是对于其中的技能掌握程度,以及编程功底的要求?设计能力的要求有哪些? 我简要从以下7点经验来谈,从技能的角度抛砖引玉。 编程基本功:数据结构和算法 1.数据结构相关的哈希表、链表、二叉…

LeetCode 70. 爬楼梯(动态规划)

题目链接:https://leetcode-cn.com/problems/climbing-stairs/ 之前在递归中讲过这个问题,现在用动态规划求解。 假设你正在爬楼梯。需要 n 阶你才能到达楼顶。 每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢? 注意&…

技术动态 | 藏经阁计划发布一年,阿里知识引擎有哪些技术突破?

本文转载自公众号:阿里技术。导读:2018年4月阿里巴巴业务平台事业部——知识图谱团队联合清华大学、浙江大学、中科院自动化所、中科院软件所、苏州大学等五家机构,联合发布藏经阁(知识引擎)研究计划。藏经阁计划依赖阿…

python中模块、函数与各个模块之间的调用

1 针对一个模块的函数调用 a : import 模块名 模块名.函数名 b: from 模块名 import 函数名 (as 别名) python调用另一个.py文件中的类和函数 同一文件夹下的调用 1.调用函数 A.py文件如下: def add(x,y): print(‘和…

模拟退火算法求解TSP问题

前言:模拟退火(simulated annealing)技术,在每一步都以一定的概率接受比当前结果更差的结果,从而有助于“跳出”局部极小。在每次迭代过程中,接受“次优解”的概率要随着时间的推移而逐渐降低,从…

一篇文章彻底搞懂“分布式事务”

在如今的分布式盛行的时代,分布式事务永远都是绕不开的一个话题,今天就谈谈分布式事务相关的一致性与实战解决方案。 01 为什么需要分布式事务 由于近十年互联网的发展非常迅速,很多网站的访问越来越大,集中式环境已经不能满足业…

C++很难学?这个ACM金牌大佬可不这么认为!

C作为一门底层可操作性很强的语言,广泛应用于游戏开发、工业和追求性能、速度的应用。比如腾讯,无论游戏,还是微信,整个鹅厂后台几乎都是 C 开发,对 C 开发者的需求非常大。但问题是C入门和精通都比较困难,…