论文浅尝 | 基于时序知识图谱的问答

d79973cb9aa77ad499d4179ff5467a50.png

笔记整理:姚云志,浙江大学在读博士,研究方向为自然语言处理。

链接:https://arxiv.org/pdf/2106.01515.pdf

时序知识图谱是一种多关系的知识图谱,相较于常规的知识图谱,时序知识图谱中的关系中会与时间段相关联,譬如在常规的知识图谱中存在着(Barack Obama, held position, President of USA)这样的三元组关系,而在时序知识图谱中,则会同时包含这段关系存在的时间,(Barack Obama, held position, President of USA, 2008, 2016)。

知识图谱问答任务(KGQA)的任务是使用KG作为知识库回答自然语言问题,问题的答案通常是KG中的一个实体(节点),回答问题所需的推理是基于单个事实、多跳或基于连接/比较的推理。基于时序图谱的问答任务(Temporal KGQA)则具备了以下更多的特点:

1.知识库是一个时序知识图谱。2.答案是实体或持续的时间。3.需要复杂的时间推理。

然而,目前关于时序知识图谱问答任务的数据集的研究非常少,从图1中,我们可以看到大部分的KGQA数据集中,知识图谱都不包含时序的关系,数据集中的问题也很少关注时间,TempQuestions数据集关注时序问答的问题,但数据量很少,仅仅用于对模型的测试。

49a86b66836f24eab86a5d1f507e0614.png

图1

为此,作者在这篇工作中提出了一个新的Temporal KGQA的数据集----CRONQUESTIONS。在构建数据集时,作者遵循了以下三个原则,1.相关KG必须提供时间标注。2.问题必须涉及时间因素推理。3.标记实例的数量必须很大,足以用于训练模型。基于此,作者最终推出了包含125k个实体和328k个事实的时序知识图谱和410k个需要进行时间推理的自然语言问题。作者验证了语言模型T5,BERT,KnowBERT以及LM+KG的模型Entities-as-Experts 和 EmbedKGQA的实验结果,在数据集上的表现并不令人满意。作者提出了CRONKGQA模型,在任务中取得了不错的结果。

1.数据集的构建

CRONQUESTIONS包含两个部分:包含时间标注的知识图谱和需要时间推理的问答集。在构建知识图谱时,作者首先从WikiData中选取了包含时间标注的关系,并剔除了占比超过50%的关系的部分数据用以平衡数据分布。与此同时,为了避免图谱丢失一些重要的事件信息,作者从WikiData中抽取了重要的包含起始时间的实体,并将这些实体信息添加到了知识图谱中,例如World War II, 作者添加了以下格式(WWII, significant event, occurred, 1939, 1945)的事实。在构建问答数据集时,作者基于出现次数最多的关系构建了一系列的问题模板(图2)。基于这些模板,在人工改写的问题基础上,同时使用了模型去生成更多的问题,最终构建了410k的数据。

17d3c8f2f7b8ac1e6da7eacd11de81a5.png

图2. 部分问题模板的样例

7bc11086060d071ba3942d1cf9a1786e.png

图3. 人工和机器改写的问题

e207e48f8b723153f26c309de2cf06da.png

图4. 数据统计

2. CRONKGQA

作者提出了CRONKGQA用来解决时间预测问题,作者首先使用EmbedKGQA作为开始的模型实现,由于EmbedKGQA使用ComplEx作为知识图谱嵌入的方法,并不能够处理包含时间的信息,于是作者在这里采用了TComplEx来获取实体和时间戳的embedding。从图4中,我们可以看到,CRONKGQA使用了两个预测函数获得了问题的实体嵌入和时间嵌入   ,   。而后分别计算在实体级别和时间级别的得分:

39fa60be4b833ede25868cf5ae064fd0.png

13a36d865369cb448bf7d8851624d381.png

最后通过softmax来预测最终的答案。

5c2860ab2278ed1d7d86481c6d4bc668.png

3.实验结果

作者比较了CRONKGQA和其他主流模型在任务上的表现,可以看到,CRONEKGQA在任务上取得了非常好的结果,超过了EaE等LM+KG的模型。

89e9414971bed7ee7d83e637d493bb05.png

作者同时也比较了训练数据集大小对模型结果的影响。我们可以看到除了CRONKGQA在简单的推理数据上的表现,随着训练集的增大,模型的效果会更好,这验证了作者之前的假设:拥有一个大的(即使是合成的)数据集对于训练时态推理模型非常有用。

c01c63a7aff3d5a47e907b76a109aafd.png

欢迎有兴趣的同学阅读原文。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

48d22e5962204d2ac72c88ead4867067.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477957.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Logistic Regression 模型简介

逻辑回归(Logistic Regression)是机器学习中的一种分类模型,由于算法的简单和高效,在实际中应用非常广泛。本文作为美团机器学习InAction系列中的一篇,主要关注逻辑回归算法的数学模型和参数求解方法,最后也…

开源开放 | 中国近代历史人物知识图谱

OpenKG地址:http://openkg.cn/dataset/zgjdlsrw项目地址:http://www.zjuwtx.work/project/kg开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:浙江大学(王天笑)1、引言中国近代历史…

LeetCode 1071. 字符串的最大公因子(字符串的最大公约数)

1. 题目 对于字符串 S 和 T,只有在 S T … T(T 与自身连接 1 次或多次)时,我们才认定 “T 能除尽 S”。 返回字符串 X,要求满足 X 能除尽 str1 且 X 能除尽 str2。 示例 1: 输入:str1 &q…

大模型炼丹无从下手?谷歌、OpenAI烧了几百万刀,总结出这些方法论…

文 | Yimin_饭煲都1202年了,不会真有深度学习炼丹侠还没有训练/推理过大模型吧“没吃过猪肉,还没见过猪跑吗?”在深度学习算力高度增长的今天,不论是学术界还是工业界的从业者,即使尚未达到从头预训练一个百亿级别参数…

Linux资源管理之cgroups简介

引子 cgroups 是Linux内核提供的一种可以限制单个进程或者多个进程所使用资源的机制,可以对 cpu,内存等资源实现精细化的控制,目前越来越火的轻量级容器 Docker 就使用了 cgroups 提供的资源限制能力来完成cpu,内存等部分的资源控…

会议交流 | IJCKG 2021:Keynotes released!欢迎注册参会

IJCKG 2021: The 10th International Joint Conference on Knowledge GraphsDecember 6-8, 2021 Online国际知识图谱联合会议之前是国际语义技术联合会议(the Joint International Semantic Technology Conference (JIST)),JIST 会议的历史要…

LeetCode 1010. 总持续时间可被 60 整除的歌曲(哈希)

1. 题目 在歌曲列表中&#xff0c;第 i 首歌曲的持续时间为 time[i] 秒。 返回其总持续时间&#xff08;以秒为单位&#xff09;可被 60 整除的歌曲对的数量。形式上&#xff0c;我们希望索引的数字 i < j 且有 (time[i] time[j]) % 60 0。 示例 1&#xff1a; 输入&am…

深入理解Objective-C:Category

摘要 无论一个类设计的多么完美&#xff0c;在未来的需求演进中&#xff0c;都有可能会碰到一些无法预测的情况。那怎么扩展已有的类呢&#xff1f;一般而言&#xff0c;继承和组合是不错的选择。但是在Objective-C 2.0中&#xff0c;又提供了category这个语言特性&#xff0c;…

工作6年,谈谈我对“算法岗”的理解

文 | Severus编 | 小轶写在前面&#xff1a;本文完全基于我个人的工作经验&#xff0c;没有经过任何形式的行业调研&#xff0c;所以我的理解也有相当浓厚的个人印记&#xff0c;可以认作一家之言。如果能对读者朋友们起到任何帮助&#xff0c;都是我的荣幸。如果不赞同我的看法…

会议交流 | IJCKG 2021 日程表(北京时间)

IJCKG 2021 Program(All times Beijing Time)December 6thOpening (19:00–19:15)Chair: Oscar CorchoKeynote I (19:15–20:15)Chair: Oscar CorchoKnowledge Graphs: Theory, Applications and ChallengesIan Horrocks, Professor, University of OxfordBreak (20:15–20:30)…

LeetCode 1128. 等价多米诺骨牌对的数量(哈希)

1. 题目 给你一个由一些多米诺骨牌组成的列表 dominoes。 如果其中某一张多米诺骨牌可以通过旋转 0 度或 180 度得到另一张多米诺骨牌&#xff0c;我们就认为这两张牌是等价的。 形式上&#xff0c;dominoes[i] [a, b] 和 dominoes[j] [c, d] 等价的前提是 ac 且 bd&#…

纵观对话预训练技术演变史:化繁为简的背后,什么在消亡?

文 &#xff5c; 橙橙子最近&#xff0c;百度发布了对话生成预训练模型PLATO-XL&#xff0c;110亿的参数规模&#xff0c;也让它成为了对话领域目前最大的预训练模型。不到两年的时间&#xff0c;PLATO系列已走过三代。作为国内对话预训练技术的头部玩家&#xff0c;它的每一次…

会议交流 | CNCC2021中国计算机大会 —— 知识图谱赋能数字化转型论坛

OpenKGOpenKG&#xff08;中文开放知识图谱&#xff09;旨在推动以中文为核心的知识图谱数据的开放、互联及众包&#xff0c;并促进知识图谱算法、工具及平台的开源开放。点击阅读原文&#xff0c;进入 OpenKG 网站。

LeetCode 687. 最长同值路径(二叉树,递归)

1. 题目 给定一个二叉树&#xff0c;找到最长的路径&#xff0c;这个路径中的每个节点具有相同值。 这条路径可以经过也可以不经过根节点。 注意&#xff1a;两个节点之间的路径长度由它们之间的边数表示。 示例 1: 输入:5/ \4 5/ \ \1 1 5 输出: 2示例 2: 输入:1/ …

机器学习中的数据清洗与特征处理综述

随着美团交易规模的逐步增大&#xff0c;积累下来的业务数据和交易数据越来越多&#xff0c;这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘&#xff0c;不仅能给美团业务发展方向提供决策支持&#xff0c;也为业务的迭代指明了方向。目前在美团的团…

论文浅尝 | 面向视觉常识推理的层次语义增强方向图网络

论文笔记整理&#xff1a;刘克欣&#xff0c;天津大学硕士链接&#xff1a;https://dl.acm.org/doi/abs/10.1145/3475731.3484957动机视觉常识推理(VCR)任务旨在促进认知水平相关推理的研究。现有的方法仅考虑了区域-词的相似性来实现视觉和语言域之间的语义对齐&#xff0c;忽…

分类问题后处理技巧CAN,近乎零成本获取效果提升

文 | 苏剑林编 | 智商掉了一地单位 | 追一科技思想朴素却不平凡的分类问题后处理技巧&#xff0c;浅显易懂的讲解&#xff0c;拿来吧你&#xff01;顾名思义&#xff0c;本文将会介绍一种用于分类问题的后处理技巧——CAN&#xff08;Classification with Alternating Normaliz…

LeetCode 840. 矩阵中的幻方(数学)

1. 题目 3 x 3 的幻方是一个填充有从 1 到 9 的不同数字的 3 x 3 矩阵&#xff0c;其中每行&#xff0c;每列以及两条对角线上的各数之和都相等。 给定一个由整数组成的 grid&#xff0c;其中有多少个 3 3 的 “幻方” 子矩阵&#xff1f;&#xff08;每个子矩阵都是连续的&…

Docker系列之一:入门介绍

Docker简介 Docker是DotCloud开源的、可以将任何应用包装在Linux container中运行的工具。2013年3月发布首个版本&#xff0c;当前最新版本为1.3。Docker基于Go语言开发&#xff0c;代码托管在Github上&#xff0c;目前超过10000次commit。基于Docker的沙箱环境可以实现轻型隔离…

论文浅尝 | 动态知识图谱对齐

论文笔记整理&#xff1a;谭亦鸣&#xff0c;东南大学博士生来源&#xff1a;AAAI‘21链接&#xff1a;https://ojs.aaai.org/index.php/AAAI/article/view/16585概述本文提出了一种动态图谱(KG)对齐方法&#xff0c;在“动态”&#xff08;即图谱可能随时间更新&#xff09;的…