论文浅尝 | 基于属性embeddings的跨图谱实体对齐

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识库问答。


640?wx_fmt=png来源:AAAI 2019

链接:https://aaai.org/ojs/index.php/AAAI/article/view/3798

 

     跨图谱实体对齐任务的目标是从两个不同知识图谱中找出同一 real-world 实体,对于这一任务,目前主流的方法多是利用已有的小规模实体对齐作为桥梁,通过 KG embedding 捕获图谱中与之相近的实体,构建新的对齐。作者发现不同知识图谱的谓词(或者说关系)设定往往具有一定规律性,和表达的相似性,利用这一点,可以初步构建不同图谱之间的谓词对齐。知识图谱中的三元组可以分为“关系三元组(实体-谓词-实体)”和“属性三元组(实体-谓词-属性)”,而不同图谱中对于同一属性的表达往往差异较小。以此为基础,便可以将不同图谱embedding至同一空间,实现同一空间中的实体相似性匹配(对齐)。

 

贡献

作者认为本文的主要贡献包括以下几点:

  1. 提出了一种跨图谱实体对齐框架,有谓词对齐,embedding学习,实体对齐三个模块组成;

  2. 提出一种新的embedding方法,利用实体embedding和属性embedding之间的关联,将两个不同知识图谱学习到同一的embedding空间中;

  3. 在真实的数据集上评估了本方法的性能为目前最优,在对齐任务上达到了50% 的hits@1(在top1的对齐结果中,命中了50%的正确实体)

 

方法

640?wx_fmt=png

            图1是本文方法的框架概述,包含以下几个过程:

1.    谓词对齐(predicate alignment):目标是将两个图谱的谓词对应,并改写为统一命名,作者发现对于不同的图谱,其谓词的命名存在惯例,比如rdfs:label, geo:wgs84pos#lat, and geo:wgs84 pos#long等等。除此之外,还有一些谓词的描述是局部匹配的,例如:dbp:diedIn vs.yago:diedIn, and dbp:bornIn vs. yago:wasBornIn。因此,作者将这些描述统一(即去除其不相同的部分,比如dbp/yago…),从而构建起图谱之间的谓词对齐。

2.    Embedding学习:通过谓词对齐,两个知识图谱的三元组便共享了统一的谓词空间,因此可以联合学习两者的结构embedding和属性字符embedding,从而生成一个统一的实体向量空间。

结构embedding

这里使用TransE学习知识图谱的结构embedding,其目标函数形式如下:

640?wx_fmt=png

其中,640?wx_fmt=png,t’表示负样本,α为控制embedding学习的权值,由以下公式得到:

640?wx_fmt=png

其中,|T| 为总三元组样本数,r 为当前谓词,count(r) 为当前谓词的出现次数,这一做法增强了“已对齐谓词”的样本权值。

属性 embedding

在TransE模型中,属性可以看作头实体(head entity)向量与谓词向量转换得到。对于不同知识图谱的同一属性,其描述存在一些差异,但大体相同,例如:50.9989 vs.50.9988888889;"BarackObama" vs. "Barack Hussein Obama"。为了使同一属性的不同描述归一化,作者提出将属性识别为字符串,而后投影到同一个空间中,具有相似字符描述的属性将具有更短的向量距离(这一步作者分别使用SUM/LSTM/N-gram等方法实现,这里不过多赘述,简写为fa(t))。

因此属性embedding的损失函数中,640?wx_fmt=png 属性embedding损失函数为:

640?wx_fmt=png

Joint learning

在获取上述两个embedding后,作者联合两者的实体向量,构建目标函数将两者实体投影到同一个空间中:

640?wx_fmt=png

并整合上述三个目标函数构成embedding整体目标函数为:

640?wx_fmt=png

3.    实体对齐

在完成上述embedding学习后,实体对齐的目标就是获取向量距离较小的实体对,即:

640?wx_fmt=png

实验

数据集

  本文在四个 KG 上测试了框架的性能,包括:DBpedia,LinkedGeoData,Geonames 以及 YAGO;图谱对齐实验的匹配组合为(DBpedia- LinkedGeoData),(DBpedia-Geonames),(DBpedia-YAGO),详细统计信息如下表:

640?wx_fmt=png

实验结果

     模型性能实验结果如下表所示,

640?wx_fmt=png

     值得注意的是,当属性 embedding 采用 N-gram 策略时,性能尤其突出。

 


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479542.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 771. 宝石与石头(哈希)

文章目录1. 题目信息2. 解题1. 题目信息 给定字符串J 代表石头中宝石的类型,和字符串 S代表你拥有的石头。 S 中每个字符代表了一种你拥有的石头的类型,你想知道你拥有的石头中有多少是宝石。 J 中的字母不重复,J 和 S中的所有字符都是字母…

开启NLP新时代的BERT模型,真的好上手吗?

都说BERT模型开启了NLP的新时代,更有“BERT在手,天下我有”的传说,它解决了很多NLP的难题:1、BERT让低成本地训练超大规模语料成为可能;2、BERT能够联合神经网络所有层中的上下文来进行训练,实现更精准的文…

YOLO系列:YOLOv1,YOLOv2,YOLOv3,YOLOv4,YOLOv5简介

原文链接: https://zhuanlan.zhihu.com/p/136382095 YOLO系列:YOLOv1,YOLOv2,YOLOv3,YOLOv4,YOLOv5简介YOLO系列是基于深度学习的回归方法。RCNN, Fast-RCNN,Faster-RCNN是基于深度学习的分类方法。YOLO官网:https://g…

一站式机器学习平台建设实践

本文根据美团配送资深技术专家郑艳伟在2019 SACC(中国系统架构师大会)上的演讲内容整理而成,主要介绍了美团配送技术团队在建设一站式机器学习平台过程中的经验总结和探索,希望对从事此领域的同学有所帮助。 0. 写在前面 AI是目前…

LeetCode 535. TinyURL 的加密与解密(哈希)

文章目录1. 题目信息2. 哈希解题1. 题目信息 TinyURL是一种URL简化服务, 比如:当你输入一个URL https://leetcode.com/problems/design-tinyurl 时,它将返回一个简化的URL http://tinyurl.com/4e9iAk. 要求:设计一个 TinyURL 的…

论文浅尝 | Doc2EDAG:一种针对中文金融事件抽取的端到端文档级框架

论文笔记整理:叶宏彬,浙江大学博士生,研究方向为知识图谱、自然语言处理。链接:https://arxiv.org/pdf/1904.07535.pdf背景大多数现有的事件提取(EE)方法仅提取句子范围内的事件参数。但是,此类…

NeurIPS'20 | 通过文本压缩,让BERT支持长文本

作者 | wangThr来源 | 知乎这是今年清华大学及阿里巴巴发表在NIPS 2020上的一篇论文《CogLTX: Applying BERT to Long Texts》,介绍了如何优雅地使用bert处理长文本。作者同时开源了不同NLP任务下使用COGLTX的代码:论文题目:CogLTX: Applying…

福利!Android官方网站出现中文版本!

这两天在Android开发者网站上查东西的时候发现有中文的搜索结果,点开结果全是中文的,以后可以畅通无阻的看文档了,快来围观。

自然场景人脸检测技术实践

一、 背景 人脸检测技术是通过人工智能分析的方法自动返回图片中的人脸坐标位置和尺寸大小,是人脸智能分析应用的核心组成部分,具有广泛的学术研究价值和业务应用价值,比如人脸识别、人脸属性分析(年龄估计、性别识别、颜值打分和…

LeetCode 257. 二叉树的所有路径(DFS)

文章目录1. 题目2. DFS解题1. 题目 给定一个二叉树,返回所有从根节点到叶子节点的路径。 说明: 叶子节点是指没有子节点的节点。 示例:输入:1/ \ 2 3\5输出: ["1->2->5", "1->3"]解释: 所有根节点到叶子节点的路径为: 1->…

JAVA BIO

JAVA BIO深入剖析1. Java BIO 基本介绍2. Java BIO 工作机制3. 传统BIO编程4. BIO模式下的多发和多收消息5. BIO模式下接收多个客户端6. 伪异步I/O编程7. 基于BIO的文件上传8. Java BIO模式下的端口转发9. 基于BIO模式下的即时通信功能清单简单说明项目启动与演示1. Java BIO 基…

速览EMNLP 2020上录取的知识图谱相关论文

文 | 泽宇源 | 知乎前不久,自然语言处理领域三大顶会之一的 EMNLP 2020 发布了论文录取的结果。在EMNLP 2020论文正式出版之前,泽宇搜集了目前Arxiv上已经发布出来的录取在EMNLP 2020上所有和知识图谱相关的论文,下面我们就一起来一睹为快。1…

技术动态 | 数据库研究者视角下的知识图谱研究

本文转载自公众号:图谱学苑 。本次讲解的是数据库领域的三大会(SIGMOD、VLDB、ICDE)近两年关于图数据的研究进展,特别是知识图谱的最新研究。知识图谱是2012年Google为改进其搜索引擎而提出的概念,其本质是一个描述事物…

MultiDex

原文转自:http://coolpers.github.io/multidex/2015/04/13/multidex.html 1.MultiDex的产生背景 当Android系统安装一个应用的时候,有一步是对Dex进行优化,这个过程有一个专门的工具来处理,叫DexOpt。DexOpt的执行过程是在第一次加…

PYTHON得到pdf页数、遍历当前文件夹

#第一步安装PyPDF2 pip install PyPDF2#第二步导入相应的模块 from PyPDF2 import PdfFileReader#第三步:定义相对应的函数 def get_num_pages(file_path):"""获取文件总页码:param file_path: 文件路径:return:"""reader PdfFileRe…

LeetCode 814. 二叉树剪枝(递归)

文章目录1. 题目2. 递归解题1. 题目 给定二叉树根结点 root ,此外树的每个结点的值要么是 0,要么是 1。 返回移除了所有不包含 1 的子树的原二叉树。 把只包含0的子树删除(断开) 来源:力扣(LeetCode&…

怎样缓解灾难性遗忘?持续学习最新综述三篇

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

美团点评技术年货:900+页电子书,覆盖前端、后台、大数据、算法……

新年将至,年味渐浓。 美团点评技术年货如期而至。 从2013年12月4日发布第一篇文章,一直到今天,美团技术团队官方博客已经走过了6个春秋。 截止目前,我们共发布376篇技术文章,微信公众号(meituantech&#x…

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

本文转载自公众号:图谱学苑。今天介绍的工作是An Interactive Mechanism to Improve Question Answering Systems via Feedback,作者:张欣勃,邹磊,胡森,被CIKM2019接收。本文是一篇与知识库自然语言问答系统…

Android控件默认风格解析之SeekBar

在我们开发的时候常常需要更改原生控件的默认效果,有时候某些控件改起来挺费劲的,比如SeekBar的背景与其ProgressBar的进度粗细或者thumb居中现实与否如果弄错,都是个大麻烦,我曾经就为thumb的居中显示问题浪费了很多很多的时间&a…