论文浅尝 | 通过学习中间步骤的监督信号改进多跳知识库问答

1af7bc40e0fc239c700280810787f47c.png

笔记整理:陈永锐,东南大学博士

论文链接:https://arxiv.org/pdf/2101.03737.pdf

概述

该论文处理多跳知识库问答(KBQA)任务,主要关注训练过程在中间步骤缺乏监督信号的挑战。由于这一挑战,多跳 KBQA 算法只能接收来自最终答案的反馈,这使得学习不稳定或无效。

为了应对这一挑战,该论文提出了一种师生网络方法。方法主要由两个网络组成,分别是教师网络和学生网络。其中,学生网络旨在找到查询的正确答案,而教师网络则试图学习中间监督信号以提高学生网络的推理能力。主要的新颖之处在于教师网络的设计,利用前向和后向推理来增强对中间实体分布的学习。通过考虑双向推理,教师网络可以产生更可靠的中间监督信号,从而缓解虚假推理问题。

动机

3e35637cf472d2450ce9ee9d06a5a9e2.png

在某些情况下,推理即使正确找到答案,关系路径也可能是虚假的。以上图为例,问题是“what types are the films starred by actors in the nine lives of fritz the cat?”。除了正确的路径(红色箭头)外,包含第一步中的实体的两条虚假路径(蓝色箭头)也可以得到正确答案。主要是由于中间推理步骤缺少监督信号(称之为中间监督信号)。如果将这些虚假路径作为监督信号进行训练,会使模型朝向错误的方向优化。

该论文受到双向搜索算法,(例如BFS)的启发,通过双向探索可以更有效地识别连接源和目的地的理想路径。事实上,对于 KBQA,前向推理找到从主题实体(即查询中的实体)开始到答案实体的路径,以及从答案实体返回到答案实体的反向推理主题实体。然而大多数现有方法只考虑前向推理。该论文对两个推理过程进行联合建模,以便在中间步骤中加入额外的自我监督信号。

在上图中,第二步正向推理得到的实体分布应该与第一步反向推理得到的实体分布相似。不相关的实体“Devil's Doorway”和“Coffin Rock”很可能在正向推理的第二步推理中到达,但在反向推理的第一步中无法到达。为了保持两个过程之间的对应关系,应该避免在前向推理的第一步中包含导演“Robert Taylor”。这种潜在的对应关系有助于在中间步骤中改进每个单独推理过程的学习。这就是该论文如何学习可靠的中间监督信号的关键。

NSM模型

本文的基本模型主要基于Neural State Machine(NSM)

bfe4e19dd3e07952114263ca485c62db.png

上图展示了两步的推理过程。模型主要包括两个组件,指令组件(蓝色虚线框)和推理组件(黄色虚线框)。在推理过程的每一步:

•指令组件在推理过程的每一步会关注问句的不同部分,而得到指令向量  。•推理组件先利用  的信息并结合的周围实体的信息更新每个实体的embedding,得到新实体embedding   ,最后再更新实体分布  。

师生网络

•学生网络即使用NSM模型•教师网络采用两个NSM分别进行正向和反向的推理,并借此优化每一步的实体分布  。论文提出了以下两种模式:

1.平行推理(parallel reasoning):

2cad8601218b0ddb7124e55eff9bd24e.png

两个 NSM 网络相对隔离,不共享任何参数。只考虑在它们之间的中间实体分布上加入对应约束。

2.层级推理(hybrid reasoning)

69f81ffe30053c817d0d904cc05bbfcc.png

共享相同的指令组件,将两个推理过程安排在一个循环的流水线中。除了对应约束之外,两个进程接收相同的指令向量。此外,前向推理最后一步的派生信息作为初始值输入后向推理。形式上,在这种情况下,以下等式成立:

训练过程

训练教师网络,考虑两种loss:

•推理损失:

368f2b0b9b021c5616b58f33cf8eb40c.png

这里  表示KL散度。

•通信损失:

7a7364db48fa19c676074b1e7ad9705f.png

这里,  表示JS散度。

对于教师网络,结合上述两种损失:

12cbbcb16869890f60de33da20aedf3c.png

•等教师网络收敛后,利用其得到的中间分布   训练学生网络,考虑以下两种loss:

be8236d8ebf56e70e202d1013ca49821.png

实验结果

论文使用了CWQ, MetaQA,WebQSP三个数据集进行了实验。

373126eb3bf7f9384105d3ddb0db129c.png

可见,NSM+h在多跳问答的数据集上均取得了最优的结果。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

5f80c3e409ea33d1b7d23e97cef0b498.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478047.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

打破情感分类准确率 80 分天花板!更加充分的知识图谱结合范式

文 | SeverusNLP的研究者们一直都在尝试,怎么样让模型像人类一样,学会“知识”。而最直观的想法莫过于将人类已经总结出来供机器解读的“知识体系”,及其嵌入表示作为额外的特征添加到NLP模型之中。至少,从直觉上看,将…

分布式块存储系统Ursa的设计与实现

引言 云硬盘对IaaS云计算平台有至关重要的作用,几乎已成为必备组件,如亚马逊的EBS(Elastic Block Store)、阿里云的盘古、OpenStack中的Cinder等。云硬盘可为云计算平台带来许多优良特性,如更高的数据可靠性和可用性、灵活的数据快照功能、更…

LeetCode 919. 完全二叉树插入器(层序遍历队列)

1. 题目 完全二叉树是每一层(除最后一层外)都是完全填充(即,结点数达到最大)的,并且所有的结点都尽可能地集中在左侧。 设计一个用完全二叉树初始化的数据结构 CBTInserter,它支持以下几种操作…

开源开放 | 中文相对复杂词汇识别数据集RCWI-Dataset(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/rcwi-dataset开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:北京语言大学(阙孟溪、张宇飞、于东)1. 摘要中文领域的词汇复杂度评估资源较为匮乏&#x…

提升 NLP 实战技能的一点建议

作为最典型的 AI 领域之一,NLP 这些年也是越来越热门,基本上是各大厂必备了。随着 OpenAI 等技术的诞生、迁移学习等技术的成功应用,使得 NLP 技术在搜索、推荐、信息流、互联网金融、社交网络等领域不断发展壮大。与此同时,NLP 工…

深入FFM原理与实践

FM和FFM模型是最近几年提出的模型,凭借其在数据量比较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性,屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团技术团队在搭建DSP的过程中,探索并使用了FM和FFM模型进…

LeetCode 993. 二叉树的堂兄弟节点(层序遍历)

文章目录1. 题目2. 解题2.1 层序遍历2.2 递归查找1. 题目 在二叉树中,根节点位于深度 0 处,每个深度为 k 的节点的子节点位于深度 k1 处。 如果二叉树的两个节点深度相同,但父节点不同,则它们是一对堂兄弟节点。 我们给出了具有…

论文浅尝 | IRW:基于知识图谱和关系推理的视觉叙事框架

笔记整理:孙悦,天津大学 链接:https://www.aaai.org/AAAI21Papers/AAAI-3382.XuC.pdf动机视觉叙事是生成一个短篇故事来描述有序图像流的任务。与视觉字幕不同,故事不仅包含事实描述,还包含未出现在图像中的想象概念。…

薅羊毛 Colab使用外部数据的7种方法!

文 | Coggle源 | Coggle数据科学Colab作为非常强大且优惠的计算平台,一直广受大家喜爱。可以随时随地使用,还有免费的GPU可以薅羊毛。那么如何在Colab中使用外部数据集,来完成竞赛呢,本文将给出几种常见的方法。方法1:…

高可用性系统在大众点评的实践与经验

背景 所谓高可用性指的是系统如何保证比较高的服务可用率,在出现故障时如何应对,包括及时发现、故障转移、尽快从故障中恢复等等。本文主要以点评的交易系统的演进为主来描述如何做到高可用,并结合了一些自己的经验。需要强调的是&#xff0c…

图灵奖大佬+谷歌团队,为通用人工智能背书!CV 任务也能用 LM 建模!

文 | ZenMoore编 | 小轶图灵奖大佬 Geoffrey Hinton 的团队和 Google Brain 团队近日发布新工作 Pix2seq,将 CV 经典任务 目标检测 转换为了语言模型的下游任务。这就很有意思了朋友们!因为这是一个很一般化的范式!也就是说,不光是…

论文浅尝 | 异构图 Transformer

笔记整理:许泽众,浙江大学博士在读论文链接:https://arxiv.org/abs/2003.01332本文主要提出一种处理异构图的方法,所谓异构图(Heterogeneous graph)是指在一个图中会出现不同类型的边和节点的图。早期对于图…

LeetCode 1145. 二叉树着色游戏(计算节点个数)

1. 题目 有两位极客玩家参与了一场「二叉树着色」的游戏。游戏中,给出二叉树的根节点 root,树上总共有 n 个节点,且 n 为奇数,其中每个节点上的值从 1 到 n 各不相同。 游戏从「一号」玩家开始(「一号」玩家为红色&a…

常见的时间序列预测模型python实战汇总

最完整的时间序列分析和预测(含实例及代码):https://mp.weixin.qq.com/s/D7v7tfSGnoAqJNvfqGpTQA 1 时间序列与时间序列分析 在生产和科学研究中,对某一个或者一组变量 x(t)x(t) ARIMA 模型对时间序列的要求是平稳型。因此&#x…

简单复读机LR如何成为推荐系统精排之锋?

文 | 水哥源 | 知乎saying1. 众所周知, 人类(划掉)推荐的本质是复读机2. 精排之锋,粗排之柔,召回之厚3. 在推荐里谈“过拟合”很容易给我们造成心理上的松懈,导致我们忽略环境,氛围等多种因素的…

从0到1构建美团压测工具

背景 美团内部的RPC服务大多构建在Thrift之上,在日常开发服务的过程中,需要针对这些服务进行压力测试(以下简称压测)来发现潜在问题。常用的方法有: 使用一些脚本语言如:Python、Ruby等,读取线上…

论文浅尝 | ERNIE-ViL:从场景图中获取结构化知识来学习视觉语言联合表示

笔记整理:朱珈徵,天津大学硕士链接:https://www.aaai.org/AAAI21Papers/AAAI-6208.YuFei.pdf动机现有的视觉语言预训练方法试图通过在大的图像文本数据集上的视觉基础任务来学习联合表示,包括基于随机掩码子词的掩码语言建模、掩码…

LeetCode 222. 完全二叉树的节点个数(二分查找)

1. 题目 给出一个完全二叉树,求出该树的节点个数。 说明: 完全二叉树的定义如下:在完全二叉树中,除了最底层节点可能没填满外,其余每层节点数都达到最大值,并且最下面一层的节点都集中在该层最左边的若干…

常见的统计分析方法汇总,指标对比分析、时间序列预测

常见的八种统计分析法如下: 指标对比分析法分组分析法时间数列及动态分析法指数分析法平衡分析法综合评价分析景气分析预测分析 1 比较分析法## 一、指标对比分析法指标对比分析法,又称比较分析法,是统计分析中最常用的方法。是通过有关的指…

这三个NLP项目写进简历,网申通过率提高50%

01三大企业级项目项目一京东智能对话系统项目项目简介:智能客服机器人已经成为了客服系统的重要组成部分,帮助人工客服提升工作效率,为企业降低人工成本。作为智能客服的行业先驱,京东多年来致力打造全链路的客服机器人&#xff0…