论文浅尝 - ACL2020 | 用于链接预测的开放知识图谱嵌入

本文转载自公众号:PaperWeekly。            

作者:舒意恒,南京大学硕士,研究方向:知识图谱。


当前大量的知识图谱都是通过文本直接构建的。由于当前的知识图谱构建方法的局限性,其中难免包含对同一实体或关系的多种表述。

知识图谱嵌入模型的发展,长期关注于如何设计更好的评分函数、如何反映知识图谱的内在结构,但非常少的研究关注于知识图谱的实体和关系本身具有多种描述形式。本文提出的嵌入方法和基准测试,针对当前知识图谱构建的特点,提供了值得关注的见解。


论文来源:ACL 2020

论文链接:https://www.aclweb.org/anthology/2020.acl-main.209/

1 介绍

知识图谱是三元组的集合,其中,主语或宾语以结点表示,关系以带标签的边表示。当前知识图谱的构建通常需要丰富的文本链接和信息框,但它们并不是在每个领域都可用。因此,作者想要探索通过原始文本而没有中间步骤构建起来的知识图谱上,是否能够做链接预测,例如药物发现等领域。

开放信息提取系统自动地从非结构化数据中提取三元组,例如文本是一种非结构化数据。作者将这样提取出的数据称为开放知识图谱。作者尝试探索在没有规范和监督的情况下,如何在开放知识图谱上推理出潜在的事实知识。

链接预测是知识图谱上需要推理的一个常见任务。它的目标是预测知识图谱上缺失的事实。而当前知识图谱嵌入模型已成功用于预测知识图谱中的缺失事实。

2 开放知识图谱

开放知识图谱可以完全自动地被构建。它们不需要实体和关系的词典,因此他们能够捕捉更多信息。例如,不同的实体描述在不同的时间段指的是不同的实体版本。类似地,关系的描述也可能是多变的。

相比于一般的知识图谱,开放知识图谱包含丰富的概念知识。开放知识图谱可能包含更多的噪声,并且事实知识可能更加不确定。

如图,一般的知识图谱(curated KGs)对比开放知识图谱(open KGs)。

3 开放链接预测

在开放链接预测中,模型对一个有序的陈述进行预测。但是问题可能有多个等价的正确答案,即多个答案可能指代的是同一个实体,但有不同的表述。作者将其评估准则称为指代排序准则(mention-ranking protocol)。

作者的评估准则基于正确答案描述的最高排名。在过滤的设置上,除了被评价的实体外,已知答案实体的多种表述都将从排名中被过滤。该准则使用评价三元组实体的不同表述的知识来获得合适的排名,消除一个实体多种表述对排序的影响。

因此,该准则需要(1)待评价三元组的头实体和尾实体的注解,以及(2)这些实体的全面的表述集合。

4 构建开放链接预测的基准测试

4.1 数据源

作者将其提出的基准测试,称为 OLPBENCH,它基于 OPIEC [1] 构建,后者是一个最近发布的数据集,它从英文维基百科的文本构建得到。

4.2 评估数据

数据质量 从数据集中,作者构建了满足以下要求的验证集和测试集。评估数据中的噪声应该尽量的被限制,作者选择了一种简单有效的准则。在采样评估数据中的候选项中,不考虑 token 数量小于 3 的非常短的关系。作者给出了三个理由:

  • 短关系通常归属于长关系。

  • 长关系更少地被简单的应用于知识图谱构建方法的模式所捕捉。

  • 自动提取的实体注解,对于短关系来说略显嘈杂。

数据构建中的人为干预 为了保证数据的质量,作者认为,对于规模较小的验证数据,人类经验的干预是必要的。因此,作者将验证数据分为三类。

  • VALID-ALL:没有人类的工作

  • VALID-MENTION:其中有部分人类的工作。

  • VALID-LINKED:大多数是人类的工作。

如图是 OLPBENCH 中链接数据与非链接数据的样例。

4.3 训练数据

为了评估知识图谱上的链接预测模型,评估事实通常通过对知识图谱的三元组进行采样生成。最简单的避免训练数据泄露到测试数据中的方法是直接删除评估三元组的训练数据。

但这种简单的方法可能并不能完全避免泄露,训练三元组仍然可能直接被推断到。例如,评估三元组 (a, siblingOf, b) 可以轻松地被训练三元组 (b, siblingOf, a) 回答到。

在开放知识图谱中,关系的转述导致了另外一种泄漏。例如,关系 “is in” 和 “located in” 可能包含许多相同的实体对。

作者使用了三个级别的泄漏移除方法,称为 SIMPLE、BASIC 和 THOROUGH,即简单的、基本的和彻底的泄漏移除。例如,训练数据中存在三元组 (i, k, j) 的情况:

  • 简单移除:只有三元组 (i, k, j) 被移除,i 和 j 的其他表述不被移除。

  • 基本移除:三元组 (i, k, j) 和 (j, k, i) 都被移除,i 和 j 的其他表述也都被移除。

  • 彻底移除:在基本移除的基础上,按以下模式移除评估数据中的三元组:

    • (i, *, j) 和 (j, * i),即删掉两实体间任何方向的任何形式的关系,例如,三元组 (“J. Smith”, “is player of”, “Liverpool”).

    • (i, k + j,∗) 和 (∗, k + i, j),例如,三元组,(“J. Smith”, “is Liverpool’s defender on”, “Saturday”).

    • (i + k + j, ∗, ∗) 和 (∗, ∗, i + k + j),例如,三元组 (“Liverpool defender J. Smith”, “kicked”, “the ball”).

这三种移除方式将生成三个不同的训练集。

5 开放知识图谱嵌入

知识图谱嵌入模型已经成功地应用于知识图谱的链接预测,而作者将它扩展到开放知识图谱的链接预测当中。

知识图谱嵌入模型 知识图谱嵌入模型将每个实体和关系与一个嵌入关联起来,嵌入是以链接预测为目标学习到的稠密向量表示。这些模型为三元组计算分数,它的目标是为正确的三元组学习到高分数,为错误到三元组学习到低分数。

组合得到的知识图谱嵌入模型 作者考虑用组合函数从表面形式的标记中创建实体和关系表征。只要在训练过程中观察到标记,一个读取表述和开放关系标记的模型原则上可以处理任何表述和开放关系。

作者使用一个通用的模型架构,它组合了关系模型和组合函数。关系模型用于对三元组的评分,组合函数用于对一个实体或关系的多个 token 的组合。

使用组合的知识图谱嵌入模型。三元组的 token 首先被分别的嵌入,然后组合为一个表述或关系嵌入。最后,一个知识图谱嵌入模型被用于计算三元组的分数。

6 实验

作者使用 ComplEx [2] 作为关系模型,它是一个高效的双线性模型(bilinear model)。对于组合函数,作者使用一层 LSTM,hidden size 等于 token embedding 大小。作者将其称为 ComplEx-LSTM 模型。

对比模型 为了测试出有多少问题不需要通过整个问题的信息直接回答,作者提出两个对比模型。给定一个问题 (i, k, ?),PREDICT-WITH-REL 通过 (r, ?) 进行评分。例如问题,(“Jamie Carragher”, “is defender of”, ?),我们询问 (“is defender of”, ?). 而类似地,PREDICT-WITH-ENT 忽略关系而只计算实体对的分数。

如图是测试集上的结果,同时利用实体和关系的 ComplEx-LSTM 超越了作为对比的 PRED-WITH-ENT / PRED-WITH-REL。同时,泄露移除的程度越大,链接预测的效果越差,一定程度说明现有方法不能很好地处理开放知识图谱。人类对数据集的干预同时对模型表现的提升有影响。

如图是验证集上的结果。效果略高于测试集。

7 结论

作者提出了开放链接预测任务,以及一种构建开放链接预测基准测试的方法,并构建了一个基准测试 OLPBENCH。作者研究了评估事实的泄露、非关系信息和实体知识对链接预测任务的影响,并通过实验证明其方法预测出的事实基本是新的事实,而不是知识图谱中原有的。

参考文献

[1] Kiril Gashteovski, Sebastian Wanner, Sven Hertling, Samuel Broscheit, and Rainer Gemulla. 2019. OPIEC: an open information extraction corpus. CoRR, abs/1904.12324.


[2] The ́o Trouillon, Johannes Welbl, Sebastian Riedel, Eric Gaussier, and Guillaume Bouchard. 2016. Complex embeddings for simple link prediction. In Proceedings of the 33nd International Conference on Machine Learning, ICML 2016, New York City, NY, USA, June 19-24, 2016, pages 2071–2080.

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478990.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文审稿人可以下岗了?CMU都做出论文审稿机器人了!

文 | Sheryc_王苏机器学习真是越来越火了,这从各大会议逐年增加的投稿量上就可见一斑:AAAI21收到了9034篇投稿,NeurIPS20收到了9467篇投稿,一篇投稿至少要经过3位审稿人同行评议,耗费的人力可想而知。那么问题来了&…

Android官方开发文档Training系列课程中文版:多样屏幕之支持不同的屏幕尺寸

原文地址:http://android.xsoftlab.net/training/multiscreen/index.html 引言 Android运行于数以百计不同尺寸的设备上。范围小到手持移动电话,大到电视设备。因此,在设计APP时应当兼顾到尽可能多的屏幕尺寸。这样才能照顾到较多的潜在用户…

阿里云开源EasyTransfer:业界首个面向NLP场景深度迁移学习框架

阿里云开源EasyTransfer:业界首个面向NLP场景深度迁移学习框架 原文链接:https://zhuanlan.zhihu.com/p/267392773 阿里云正式开源了深度迁移学习框架 EasyTransfer,本文详细介绍了 EasyTransfer 框架的核心功能。机器之心发布,机…

LeetCode 559. N叉树的最大深度

文章目录1. 题目2. 解题2.1 递归2.2 按层queue遍历1. 题目 给定一个 N 叉树,找到其最大深度。 最大深度是指从根节点到最远叶子节点的最长路径上的节点总数。 2. 解题 2.1 递归 class Solution { public:int maxDepth(Node* root) {if(root NULL)return 0;int …

全链路压测平台(Quake)在美团中的实践

背景 在美团的价值观中,“以客户为中心”被放在一个非常重要的位置,所以我们对服务出现故障越来越不能容忍。特别是目前公司业务正在高速增长阶段,每一次故障对公司来说都是一笔非常不小的损失。而整个IT基础设施非常复杂,包括网络…

陈华钧等 | OpenKG区块链:构建可信开放的联邦知识图谱平台

文章导读本文介绍了OpenKG在区块链方向的一些实践和尝试。经过一年努力,OpenKG初步完成了底层区块链平台测试,以及OpenKG数据集、工具集和Openbase细粒度知识众包的上链测试工作。在这个测试平台中,已包含1033位确权的知识贡献者。上链测试两…

ICLR'21 | 一个二值化词向量模型,是怎么跟果蝇搭上关系的?

文|苏剑林(追一科技) 编 | 小轶可能有些读者最近会留意到ICLR 2021的论文Can a Fruit Fly Learn Word Embeddings?,文中写到它是基于仿生思想(仿果蝇的嗅觉回路)做出来的一个二值化词向量模型。其实论文的…

如何解决NLP分类任务的11个关键问题:类别不平衡低耗时计算小样本鲁棒性测试检验长文本分类 JayLou娄杰

原文链接:https://zhuanlan.zhihu.com/p/183852900 欢迎关注《高能AI》公众号~声明:文中观点谨代表笔者个人立场,盲目搬运有风险~在2020这个时间节点,对于NLP分类任务,我们的关注重点早已不再是…

LeetCode 908. 最小差值 I

1. 题目 给定一个整数数组 A&#xff0c;对于每个整数 A[i]&#xff0c;我们可以选择任意 x 满足 -K < x < K&#xff0c;并将 x 加到 A[i] 中。 在此过程之后&#xff0c;我们得到一些数组 B。 返回 B 的最大值和 B 的最小值之间可能存在的最小差值。 示例 1&#x…

论文浅尝 - AAAI2020 | 基于知识图谱进行对话目标规划的开放域对话生成技术

论文笔记整理&#xff1a;张傲&#xff0c;天津大学硕士。Knowledge Graph Grounded Goal Planning for Open-Domain Conversation Generation来源&#xff1a;哈工大SCIR动机让机器生成有内容并且主题连贯的多轮开放域对话&#xff0c;是人工智能公认的关键任务之一。针对这一…

一个程序员的“无聊”故事

文 | Cat Chen知乎本文已获作者授权&#xff0c;禁止二次转载不同时期的生活方式是非常不一样的。我觉得最重要的是意识到这一点&#xff0c;不要以为某一种生活方式会一直延续下去。这个世界上不会存在特定的程序员生活方式&#xff0c;你在不同的公司工作就会遇到不一样的公司…

LeetCode 349. 两个数组的交集(哈希)

1. 题目 给定两个数组&#xff0c;编写一个函数来计算它们的交集。 示例 1:输入: nums1 [1,2,2,1], nums2 [2,2] 输出: [2] 示例 2:输入: nums1 [4,9,5], nums2 [9,4,9,8,4] 输出: [9,4] 说明:输出结果中的每个元素一定是唯一的。 我们可以不考虑输出结果的顺序。来源&am…

论文浅尝 | Iterative Cross-Lingual Entity Alignment Based on TransC

论文笔记整理&#xff1a;谭亦鸣&#xff0c;东南大学博士。来源&#xff1a;IEICE TRANSACTIONS on Information and Systems, 2020, 103(5): 1002-1005.链接&#xff1a;https://www.jstage.jst.go.jp/article/transinf/E103.D/5/E103.D_2019DAL0001/_pdf介绍这篇论文关注的任…

ARKit:增强现实技术在美团到餐业务的实践

前言 增强现实&#xff08;Augmented Reality&#xff09;是一种在视觉上呈现虚拟物体与现实场景结合的技术。Apple 公司在 2017 年 6 月正式推出了 ARKit&#xff0c;iOS 开发者可以在这个平台上使用简单便捷的 API 来开发 AR 应用程序。 本文将结合美团到餐业务场景&#xff…

腾讯天衍实验室新算法入选国际万维网大会 新冠疫苗AI问答上线

新冠疫苗的效用和安全性如何&#xff1f;怎么预约接种新冠疫苗&#xff1f;哪些人可以接种新冠疫苗&#xff1f;接种新冠疫苗是否收费&#xff1f;进入年底&#xff0c;随着全国新冠疫苗接种工作规范有序开展&#xff0c;各地接种人数在不断增加&#xff0c;但在逐步面向全民推…

LeetCode 965. 单值二叉树

文章目录1. 题目2. 解题2.1 递归2.2 循环1. 题目 如果二叉树每个节点都具有相同的值&#xff0c;那么该二叉树就是单值二叉树。 只有给定的树是单值二叉树时&#xff0c;才返回 true&#xff1b;否则返回 false。 2. 解题 2.1 递归 class Solution { public:bool isUnivalT…

论文浅尝 - SIAM ICDM 2020 | 基于图时空网络的知识引导的诊断预测

论文笔记整理&#xff1a;吴锐&#xff0c;东南大学硕士。来源&#xff1a;SIAM ICDM 2020论文下载地址&#xff1a;https://epubs.siam.org/doi/abs/10.1137/1.9781611976236.3 动机基于电子病历&#xff08;EHR&#xff0c;Electronic Health Records&#xff09;对患者未来的…

Oceanus:美团HTTP流量定制化路由的实践

背景 Oceanus是美团基础架构部研发的统一HTTP服务治理框架&#xff0c;基于Nginx和ngx_lua扩展&#xff0c;主要提供服务注册与发现、动态负载均衡、可视化管理、定制化路由、安全反扒、session ID复用、熔断降级、一键截流和性能统计等功能。本文主要讲述Oceanus如何通过策略抽…

文本对抗攻击入坑宝典

文 | 阿毅编 | 小轶如果是咱家公众号的忠实粉丝就一定还记得之前咱家一篇关于NLP Privacy的文章&#xff0c;不出意外的话&#xff0c;你们是不是现在依然还担心自己的隐私被输入法窃取而瑟瑟发抖。所以&#xff0c;我们又来了&#xff01;今天给大家讨论的是NLP Privacy中一个…

LeetCode 350. 两个数组的交集 II(哈希)

文章目录1. 题目2. 解题2.1 hash2.2 数组已排序1. 题目 给定两个数组&#xff0c;编写一个函数来计算它们的交集。 示例 1:输入: nums1 [1,2,2,1], nums2 [2,2] 输出: [2,2] 示例 2:输入: nums1 [4,9,5], nums2 [9,4,9,8,4] 输出: [4,9] 说明&#xff1a;输出结果中每个元…