论文浅尝 | 基于超平面的时间感知知识图谱嵌入

640?wx_fmt=png

链接:http://talukdar.net/papers/emnlp2018_HyTE.pdf

 

本文主要关注 KG embedding 中三元组成立的时间有效性问题,比如三元组(Cristiano Ronaldo, playsFor, Manchester United),其成立的有效时间段是2003年到2009年,这个使三元组有效成立的时间段被称为 temporal scopes,这些temporalscopes随着时间的推移对许多数据集会产生影响(比如YAGOWikidata),现有的 KG embedding方法很少考虑到时间这一维度,因为它们假设所有的三元组总是永远正确的,可是现实中很多情况下不是这样。本文提出了 HyTE 模型,HyTE 不仅能够利用时间导向进行知识图谱图推理,还能够为那些缺失时间注释的事实预测temporal scopes 。实验结果表明该模型与传统模型或者同类模型相比都有着突出的表现。

Background

知识图谱嵌入(Knowledge graph embedding)方法是将知识图谱中的实体和关系表示成连续稠密低维实值向量,从而可以通过向量来高效计算实体与关系的语义联系。从2013TransE的提出,到后来一系列的衍生模型,比如 TransHTransDTransRDKRL, TKRL, RESCAL, HOLE 等等,都是对 TransE 模型的扩展。这些模型都没有考虑时间维度,一直将知识图谱当做静态来处理,这显然不符合事实,数据的暴涨与更新表明知识图谱本来就是动态的,所以后来有工作将时间信息考虑进去,但只是将时间序列作为KG embedding过程中的约束,没有明显地体现时间的特性,为此,本文提出的HyTE模型直接在学习的过程中结合时间信息。

 

Model

本文认为不仅是知识图谱中的实体可能会随着时间改变,实体间的关系也是如此,由于TransE模型不能处理多关系的情形,而 TransH 模型能够使实体在不同的关系下拥有不同的表示,所以本文受TransH的启发提出了一个基于超平面的时间感知知识图谱嵌入模型。

 

考虑一个四元组 (h,r,t,[τs, τe]),这里的τsτe分别定义了三元组成立时间段的起始与截止。TransE模型将实体和关系考虑到相同的语义空间,但是在不同的时间段,实体与关系组成的(hr)可能会对应到不同的尾实体t,所以在本文的模型中,希望实体能够随不同的时间点有着不同的表示。为了达到这一目的,文中将时间表示成超平面(hyperplane),模型示意图如下:

640?wx_fmt=png

eheter分别表示三元组中头实体,尾实体以及关系所对应的向量表示,τ1τ2分别表示此三元组有效成立时间段的起始时间与截止时间。eh(τ1), er(τ1) 以及表示各向量在时间超平面τ1上的投影,最终,模型通过最小化翻译距离来完成结合时间的实体与关系embedding学习过程。


Experiment

实验数据包含两部分:YAGO11kWikidata12k,这两个数据集抽取了YAGO 以及Wikidata中带有时间注释(time annotations)的部分。通过 Link prediction 以及 Temporal scoping 两个实验任务与其它模型比较,实验结果如下:

实体预测结果:

640?wx_fmt=png

关系预测结果:

640?wx_fmt=png

temporal Scoping预测结果(越小越好):

640?wx_fmt=png

实验结果表明,HyTE模型在相关任务上与其它模型相比有较为显著的提升。

 

论文笔记整理:张良,东南大学博士,研究方向为知识图谱,自然语言处理。



OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480341.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java面试进阶:Dubbo、Zookeeper面试题锦集

Dubbo面试题锦集 1、默认也推荐使用netty框架,还有mina。 2、默认是阻塞的,可以异步调用,没有返回值的可以这么做。 3、推荐使用zookeeper注册中心,还有redis等不推荐。 4、默认使用Hessian序列化,还有Duddo、FastJ…

POJ 1064 分割线缆(二分查找)

题目链接:http://poj.org/problem?id1064 题目大意:多根电缆切成指定段数(每段相同长度),求每段线缆的最大长度(精确到0.01) 这题精度控制是难点,方法很简单,二分查找…

Learning to rank基本算法小结

原文链接:https://zhuanlan.zhihu.com/p/26539920 Learning to rank基本算法小结最近工作中需要调研一下搜索排序相关的方法,这里写一篇水文,总结一下几天下来的调研成果。包括Learning to rank 基本方法Learning to rank 指标介绍LambdaMART…

命名实体识别难在哪?

亚里士多德在《形而上学》中认为,对于存在,最重要的问题,就是给世间万物的存在基于语言来分层和分类。从神说要有光起,到基友给你取了个外号叫狗蛋。你会发现,创造与命名,在历史中往往等同。名字是自我概念…

论文浅尝 | 面向简单知识库问答的模式修正强化策略

链接:http://aclweb.org/anthology/C18-1277知识库问答研究旨在利用结构化事实回答自然语言问题,在网络中,简单问题占据了相当大的比例。本文提出在完成模式抽取和实体链接后,构建一个模式修正机制,从而缓解错误积累问…

最全BAT数据库面试89题:mysql、大数据、redis

数据库 mysql面试题目: MySQL InnoDB、Mysaim的特点? 乐观锁和悲观锁的区别?? 行锁和表锁的区别? 数据库隔离级别是什么?有什么作用? MySQL主备同步的基本原理。 如何优化数据库性能&#…

POJ 3481 Double Queue

题目链接:http://poj.org/problem?id3481 题目大意: 给你0-3四个指令: 0 退出 1 添加优先级为P 的 K值,进入队列 2 最高优先级出队 3 最低优先级出队 思路: 利用map数据对key默认升序排列。 AC代码如下&#xff…

理解 Word Embedding,全面拥抱 ELMO

原文链接:https://www.infoq.cn/article/B8-BMA1BUfuh5MxQ687T 理解 Word Embedding,全面拥抱 ELMO DataFun社区 阅读数:4238 2019 年 6 月 15 日提到 Word Embedding ,如果你的脑海里面冒出来的是 Word2Vec ,Glove &…

肝了1W字!文本生成评价指标的进化与推翻

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者:林镇坤(中山大学研一,对文本生成和猫感兴趣)前言文本生成目前的一大瓶颈是如何客观,准确的评价机器生成文本的质量。一个好的评价指标(或者设置合理的损失函数…

美团大脑 | 知识图谱的建模方法及其应用

本文转载自公众号: 美团技术团队.作为人工智能时代最重要的知识表示方式之一,知识图谱能够打破不同场景下的数据隔离,为搜索、推荐、问答、解释与决策等应用提供基础支撑。美团大脑围绕吃喝玩乐等多种场景,构建了生活娱乐领域超大规模的知识图…

最全Java面试208题,涵盖大厂必考范围!强烈建议收藏~

这些题目是去百度、小米、乐视、美团、58、猎豹、360、新浪、搜狐等一线互联网公司面试被问到的题目,熟悉本文中列出的知识点会大大增加通过前两轮技术面试的几率。 一.java基础面试知识点 java中和equals和hashCode的区别 int、char、long各占多少字节数 int与integer的区别…

大规模事理常识知识系统“学迹”的定位、应用与不足

我们于3月16正式对外发布了一个面向事理的实时学习和搜索系统Demo,取名叫“学迹”,取自“学事理,知行迹”(https://xueji.zhiwenben.com)。“学迹”的发布,进一步拓宽了现有知识库的门类,为进一步获取特定事件的概念解…

数据结构--散列表 Hash Table

文章目录1.线性探测 哈希表代码2.拉链法 哈希表代码1. 散列表用的是数组支持按照下标随机访问数据的特性,所以散列表其实就是数组的一种扩展,由数组演化而来。可以说,如果没有数组,就没有散列表。 2. 散列函数,设计的基…

论文浅尝 | 面向自动分类归纳的端到端强化学习

动机术语层次在许多自然语言处理任务中扮演着重要角色。然而,大部分现有的术语层次是人工构建的,其覆盖范围有限,或者某些领域上不可用。因此,最近的工作集中在自动化的术语层次归纳(automatictaxonomy induction)上。之前的研究工…

最新天猫Java面试题(含总结):线程池+并发编程+分布式设计+中间件

一面: HashMap实现原理,ConcurrentHashMap实现原理 红黑树,为什么允许局部不平衡 TCP,UDP区别,为什么可靠和不可靠 一次HTTP请求的全过程,包括域名解析、定位主机等 TCP三次握手 MySQL事务是什么&…

重磅!吴恩达家的NLP课程发布啦!

关注小夕并星标,解锁自然语言处理搜索、推荐与算法岗求职秘籍文 | 灵魂写手rumor酱美 | 人美心细小谨思密达斯坦福计算机系副教授、人工智能实验室主任、Coursera平台联合创始人、前百度首席科学家、机器学习入门必备网课CS229的主讲人——吴恩达Andrew Ng老师再放大…

情报领域因果推理智能项目概览:以DAPAR为例

美国国防高级研究计划局(Defense Advanced Research Projects Agency),简称DARPA,提出了旨在从推进人工智能常识推理能力发展、深化机器学习理论研究和推进国防部复杂问题中应用人工智能、深化美军对人工智能的研究和应用的“的下…

论文浅尝 | 基于模式的时间表达式识别

本文转载自公众号:南大Websoft. 时间表达式识别是自然语言理解中一个重要而基础的任务。在以前的研究工作中,研究人员已经发现时间词的类型信息可以给识别提供明显的帮助。本文中我们以词类型序列作为表达式模式,提出了基于模式的时间表达式识别方法&…

大数据项目(四)————用户画像

原文地址:https://blog.csdn.net/Jorocco/article/details/81428996 1、用户画像概述 用来勾画用户(用户背景、特征、性格标签、行为场景等)和联系用户需求与产品设计的,旨在通过从海量用户行为数据中炼银挖金,尽可能…

最强阿里面试126题:数据结构+并发编程+Redis+设计模式+微服务

BAT技术面试范围 数据结构与算法:最常见的各种排序,最好能手写 Java高级:JVM内存结构、垃圾回收器、回收算法、GC、并发编程相关(多线程、线程池等)、NIO/BIO、各种集合类的比较优劣势(底层数据结构也要…