论文浅尝 - ACL2022 | 子图检索增强的知识图谱问答方法

转载公众号 | 学术头条

作者:张静(中国人民大学),张晓康(中国人民大学),于济凡(清华大学),唐建(魁北克人工智能研究所),唐杰(清华大学),李翠平(中国人民大学),陈红(中国人民大学)

论文代码与 pdf: https://github.com/RUCKBReasoning/SubgraphRetrievalKBQA

知识图谱问答致力于基于百科知识图谱数据回答客观事实问题。目前的两种主流方法包括语义解析法和表示学习法。前一种着眼于将自然语言问题解析为诸如 SPARQL 之类的逻辑表达式,其优点在于能够解决多样的复杂问题,但是会过度依赖于标注的逻辑表达式。为了克服这个缺陷,表示学习法直接对图中的实体进行表示和排序。在这类方法中,从全图中先抽取问题相关的子图,再在子图上推理答案的表示学习方法表现出显著的优势。实验表明,子图的质量极大地影响整体问答的效果。子图太小极其容易漏掉答案,太大又会引入过多的噪音。已有工作例如 PullNet 提出对子图检索模块进行训练,以提升检索到子图的质量。但是其检索与推理模块是交织在一起进行的。具体来说,在每一步中,检索器选择与问题相关的知识图谱关系,同时推理器推理决定该关系的哪个尾实体需要被扩展到子图中。检索与推理的交织导致推理器的训练和推理过程都需要在中间不完整的子图上进行。由于中间子图的监督信号通常是缺失的,不完整子图上的推理会增加偏差,影响到最终推理的效果。

本文提出一种子图增强的知识图谱方法,其核心思想是子图检索模块与推理模块是解耦的。具体地,子图检索器被设计为一个高效的双编码器,通过自动扩展路径的方法来归纳子图。当检索得到子图后,任何面向子图的知识图谱问答模型都可以应用到该子图上进行答案推理。解耦合的设计使得推理仅在完整的子图上进行,并且提供了一个可插拔的框架来支持任何面向子图的推理器。图 1 展示了整个子图检索的过程。

6f5674724a1607270650bd5c500b85ce.png

图 1: 子图检索过程。给定问题和主题实体,从主题实体开始扩展路径,由路径归纳树,最后将扩展自不同主题实体的树合并为图。

为了有效训练提出的检索器,采用弱监督训练,无监督训练以及与端到端训练的方式。弱监督采用主题实体与答案之间的最短路径作为近似监督信号。无监督采用关系抽取的数据集来构建问答伪标签。端到端的核心思想是利用推理器的反馈指导路径的扩展。尽管两个模块是联合训练的,但推理始终在整个子图上进行。图 2 展示了整个训练的过程。

9a63869cfae3096352f04c9ca70a910d.png

图 2:子图检索器的训练过程。给定问题,子图检索器抽取 nK 条路径。首先基于每条路径的先验概率预训练子图检索器,然后基于路径融合产生子图的似然概率训练推理器。最后进行端到端训练时,检索器基于每条路径的后验进行微调,其中后验概率包含先验概率和私然概率。

我们在 2 个公开数据集 WebQSP 和 CWQ 上进行了实验,结果表明:

1.将提出的子图检索器结合经典的图推理器模型 NSM,在知识图谱问答上取得新的最佳效果;2.为得到相同的答案覆盖率,提出的子图检索器能够产生更小的子图并得到更优的问答效果;3.无监督预训练搭配 20% 的弱监督信号能够媲美全部弱监督训练;4.端到端微调能够同时提升检索器与推理器的效果。

75baf13d0e5b075ecacc66d302659ba7.png


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

dbf672af19590f04219fddcf78e6d515.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477715.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Cloud Alibaba基础教程:Nacos配置的多文件加载与共享配置

前情回顾: 《Spring Cloud Alibaba基础教程:使用Nacos实现服务注册与发现》《Spring Cloud Alibaba基础教程:支持的几种服务消费方式》《Spring Cloud Alibaba基础教程:使用Nacos作为配置中心》《Spring Cloud Alibaba基础教程&a…

2202年了,“小样本”还值得卷吗?

文 | Severus从一个应用实验引发的思考。大家好,我是Severus,一个在某厂做中文自然语言理解的老程序员。这个主题,源自于我之前在公司内做的一次技术分享。承接上一篇文章(格局打开,带你解锁 prompt 的花式用法&#x…

LeetCode 1023. 驼峰式匹配(暴力匹配)

1. 题目 如果我们可以将小写字母插入模式串 pattern 得到待查询项 query,那么待查询项与给定模式串匹配。(我们可以在任何位置插入每个字符,也可以插入 0 个字符。) 给定待查询列表 queries,和模式串 pattern&#x…

图谱实战 | 谈元鹏:电力领域知识图谱技术进展与应用实践

转载公众号 | DataFunTalk 分享嘉宾:谈元鹏 中国电力科学研究院编辑整理:monk 国家管网出品平台:DataFunTalk导读:知识图谱相关技术在开发和应用过程中,通常需要跟行业或者业务领域进行高度融合。但是在行业知识图谱构…

Spring Cloud Alibaba基础教程:Nacos配置的多环境管理

前情回顾: 《Spring Cloud Alibaba基础教程:使用Nacos实现服务注册与发现》《Spring Cloud Alibaba基础教程:支持的几种服务消费方式》《Spring Cloud Alibaba基础教程:使用Nacos作为配置中心》《Spring Cloud Alibaba基础教程&a…

LeetCode 423. 从英文中重建数字(找规律)

1. 题目 给定一个非空字符串,其中包含字母顺序打乱的英文单词表示的数字0-9。按升序输出原始的数字。 注意: 输入只包含小写英文字母。 输入保证合法并可以转换为原始的数字,这意味着像 “abc” 或 “zerone” 的输入是不允许的。 输入字符串的长度小于…

朱松纯:AI 需由“心”驱动,实现“心”与“理”的动态平衡

朱松纯北京通用人工智能研究院院长北京大学讲席教授清华大学基础科学讲席教授引言1.1 人生轨道:跃迁与升华人生一世所追求的,用世俗的语言来讲,无非三个层次:第一就是活着, 这对应于马斯洛七层需求理论(hi…

Spring Cloud Alibaba基础教程:Nacos配置的加载规则详解

前情回顾: 《Spring Cloud Alibaba基础教程:使用Nacos实现服务注册与发现》《Spring Cloud Alibaba基础教程:支持的几种服务消费方式(RestTemplate、WebClient、Feign)》《Spring Cloud Alibaba基础教程:使…

LeetCode 881. 救生艇(贪心,双指针)

1. 题目 第 i 个人的体重为 people[i],每艘船可以承载的最大重量为 limit。 每艘船最多可同时载两人,但条件是这些人的重量之和最多为 limit。 返回载到每一个人所需的最小船数。(保证每个人都能被船载)。 示例 1: 输入:peopl…

【报名开启】CCKS 2022教科书示意图问答任务

赛题背景示意图是一种高度抽象的知识表达载体,常由矩形、圆形等几何形状和箭头、折线等逻辑符号组成,广泛被应用于教科书、百科、知识博客等教育场景。在上述场景中,学习者常通过视觉问答的形式来判断对知识点的掌握情况,即&#…

以4%参数量比肩GPT-3!Deepmind 发布检索型 LM,或将成为 LM 发展新趋势!?

文 | ZenMoore编 | 小轶GPT3 一声枪响,给 NLP 带来了大模型风潮。这么长时间过来,无论是中文还是英文,模型越做越大。当然,这确实是符合逻辑的,因为如果以人脑为向导的话,那么多神经元,不得不需…

Spring Cloud Alibaba基础教程:使用Nacos作为配置中心

通过本教程的前两篇: 《Spring Cloud Alibaba基础教程:使用Nacos实现服务注册与发现》《Spring Cloud Alibaba基础教程:支持的几种服务消费方式(RestTemplate、WebClient、Feign)》 我们已经学会了,如何利…

LeetCode 1020. 飞地的数量(图的BFS/DFS)

文章目录1. 题目2. 解题2.1 BFS2.2 DFS1. 题目 给出一个二维数组 A,每个单元格为 0(代表海)或 1(代表陆地)。 移动是指在陆地上从一个地方走到另一个地方(朝四个方向之一)或离开网格的边界。 …

论文浅尝 | ISEEQ: 利用动态元信息检索和知识图谱的资讯搜索式问题生成器

笔记整理:侯哲衡,东南大学硕士,研究方向为知识图谱问答、自然语言生成。动机对话资讯搜索是在智能问答中一个新兴研究领域。对话资讯搜索旨在根据通过用户查询自动询问资讯搜索式问题(information-seeking questions,I…

浅谈点击信号对搜索的影响

文 | bytecoder源 | 知乎背景过去一周,我们探讨了搜索系统最核心的指标以及如何通过实验的方式来判断策略的好坏。但是影响一个实验的好坏除去策略本身的影响之外,还会受到一些反直觉的因素的影响;之前在做搜索,尤其是搜索系统成熟…

Spring Cloud Alibaba基础教程:支持的几种服务消费方式(RestTemplate、WebClient、Feign)

通过《Spring Cloud Alibaba基础教程:使用Nacos实现服务注册与发现》一文的学习,我们已经学会如何使用Nacos来实现服务的注册与发现,同时也介绍如何通过LoadBalancerClient接口来获取某个服务的具体实例,并根据实例信息来发起服务…

CCKS 2022 | 如何通过“说一句话”精准获取数据?恒生发布金融NL2SQL评测任务

某投资者登录券商理财APP,想要查找最近两年上市的公司,并按照最新的市值进行排序。然而他很难直接找到结果,需要经过层层筛选才能大致找到相关结果。有没有更简便的方式来查找数据?如果说一句话或者打一小段文字后,就能…

AI从业几年还不具备提出新模型的技术能力?看这个就够了!

AI是一门入门简单,但想深入却很难的学科,这也是为什么AI高端人才一直非常紧缺的重要原因。在AI领域技术领域,我们可以说机器学习功底决定了一个人的上限也不为过。为什么?机器学习就像物理学中的数学,如果你对数学没有…

Spring Cloud Alibaba基础教程:Nacos 生产级版本 0.8.0

昨晚Nacos社区发布了第一个生产级版本:0.8.0。由于该版本除了Bug修复之外,还提供了几个生产管理非常重要的特性,所以觉得还是有必要写一篇讲讲这次升级,在后续的文章中也都将以0.8.0版本为基础。 升级的理由 如Nacos官方的发布文…

LeetCode 1016. 子串能表示从 1 到 N 数字的二进制串(bitset)

1. 题目 给定一个二进制字符串 S(一个仅由若干 ‘0’ 和 ‘1’ 构成的字符串)和一个正整数 N,如果对于从 1 到 N 的每个整数 X,其二进制表示都是 S 的子串,就返回 true,否则返回 false。 示例 1&#xff…