论文浅尝 - EMNLP2020 | 图结构对于多跳问答而言必要吗?

笔记整理 | 陈卓,浙江大学计算机科学与技术系,博士研究生

研究方向 | 知识图谱,图神经网络,多模态


论文链接:https://www.aclweb.org/anthology/2020.emnlp-main.583.pdf

发表会议:EMNLP 2020

背景提要

抽取式阅读理解,指的是要求机器在阅读一段文本后,来回答一个问题。而回答这个问题的答案来自原文中的一段连续的序列(也就是连续的几个词)。

其中的多跳推理,近年来引起了关注。ACL2019的一篇论文提出用图的方法解该问题,使用动态图网络建模实体之间的联系。

具体思路如下:

其中的共现关系按如下表示:

  • 对与同一个句子中同时出现的实体间建立边的连接。

  • 对于同样的实体在Context中出现多次,则他们直接有边的连接。eg. 如“美利坚合众国”这个实体可能在文章中被多次提及,每次出现则图中会新建一个节点,这些节点直接都是互相连接的。

  • 文章标题中出现的实体与其对应正文中的所有实体都有连接

本文思路

本文的改进主要在于检索和预训练模型两部分:

  • 使用RoBERTa large模型来计算每个问题与候选段落之间的相关性。过滤掉所有得分低于0.1的段落。且每个问题对应的最大检出段落为3

  • Encoding:把query和context拼接,送到另一个RoBERTa,再经过bi-attention

基线模型与DFGN的主要区别在于该模型以Fine-tuning的方式使用了预训练模型,最后发现简单的Fine-tuning可以把模型效果提高到另一个程度。并且在finetune的前提下图结构添加与否没有那么必要(效果提升有限)

所以猜测:图结构可能不是解决多步推理问题所必要的结构

为了进一步理解图结构,作者猜测:自注意力或者Transformer可能更加擅长处理多步推理问答任务,为此做了如下测试,同时提出如下观点:

  • 图结构会限制模型使得其只能基于实体进行推理——忽略实体之外的信息(尽管有时是噪音)

  • 邻接矩阵帮助模型忽视非邻接的节点

  • 即使没有这些先验知识,模型也可能学到这种实体到实体的注意力模式

  • 全连接图时graph-attention可以认为是self-attention的特殊形式

实验

  • 预训练模型使用Feature-based的方法

graph-attentionself-attentionTransformer(Without Graph Structure)

自注意力使用了与图注意力相同的形式,唯一的不同在于自注意力将所有的节点视作全连接的

最后发现哪怕不使用图结构,transformer也可以达到和self-attention,graph-attetion相同的效果。并且随着图的密度增大,这一过程中graph attention也没有显示出和self attention很大的差距

最后作者探讨了,预训练与transformer的方法定位预训练模型中包含基于实体的注意力的头(attention head)的可能性:

最后发现,该方法可以很好地捕捉和识别出相对于特定实体的其他概念注意力(四种情况,而后三种情况是graph方法所做不到的)

总结

  • 适当使用预训练的模型,多跳推理某些情况下可能不需要图结构

  • 图结构在某些情况下也是对于任务的一种制约/限制

  • 邻接矩阵和图结构可以看作是某种与任务相关的先验知识

  • 一些情况下graph attention和graph structure都可以被self-attention所代替

  • 图上的mask可以控制信息在图上传播的路径


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478563.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

为什么每次有人大声通电话时,我就很烦躁...

文 | Chaos编 | 小戏不知你是否有过这样的体验,当你周围有人在大声讲电话时,你会不自觉的感觉到烦躁。为什么呢?有一种委婉的说法是因为你听到了不完整的对话。直白点说其实就是讲电话的人通过放大声音强行让你接收了他说的信息,但…

LeetCode 367. 有效的完全平方数(二分查找)

1. 题目 给定一个正整数 num,编写一个函数,如果 num 是一个完全平方数,则返回 True,否则返回 False。 说明:不要使用任何内置的库函数,如 sqrt。 示例 1: 输入:16 输出&#xff1…

美团点评联盟广告场景化定向排序机制

在美团点评的联盟广告投放系统(DSP)中,广告从召回到曝光的过程需要经历粗排、精排和竞价及反作弊等阶段。其中精排是使用CTR预估模型进行排序,由于召回的候选集合较多,出于工程性能上的考虑,不能一次性在精…

论文浅尝 - COLING2020 | 一种用于跨语言实体对齐的上下文对齐强化跨图谱注意力网络...

笔记整理 | 谭亦鸣,东南大学博士生来源:COLING 2020链接:https://www.aclweb.org/anthology/2020.coling-main.520.pdf本文发现,目前基于GCN的对齐方法都是分别考虑两个KG,然后分别学习它们的embedding,并认…

LeetCode 744. 寻找比目标字母大的最小字母(二分查找)

1. 题目 给定一个只包含小写字母的有序数组letters 和一个目标字母 target,寻找有序数组里面比目标字母大的最小字母。 数组里字母的顺序是循环的。举个例子,如果目标字母target ‘z’ 并且有序数组为 letters [‘a’, ‘b’],则答案返回…

超越YOLOv5,1.3M超轻量,高效易用,这个目标检测开源项目太香了!

这个目标检测神器简直香炸了!它不仅连续登录Github全球趋势榜,拥有的全球尖端算法论文也接连登录全球技术趋势榜PaperWithCode。这个神器就是刚刚全面升级的PaddleDetection2.0!它全面兼顾高性能算法、便捷开发、高效训练及完备部署&#xff…

MyFlash——美团点评的开源MySQL闪回工具

由于运维、DBA的误操作或是业务bug,我们在操作中时不时会出现误删除数据情况。早期要想恢复数据,只能让业务人员根据线上操作日志,构造误删除的数据,或者DBA使用binlog和备份的方式恢复数据,不管那种,都非常…

论文浅尝 - ACL2020 | 用于多媒体事件提取的跨媒体结构化公共空间

笔记整理 | 王琰,东南大学来源:ACL 2020链接:https://arxiv.org/pdf/2005.02472.pdf概述本论文引入一项新任务:多媒体事件提取(ME),该任务旨在从多模态中抽取出事件和其论点(M2E2)。此外&#x…

屠榜CV还不是这篇论文的终极目标,它更大的目标其实是……

文 | 魏旭编 | 橙橙子,小戏当 BERT 模型出来之后,Transformer 架构基本成为 NLP 任务的底色。诸如 Roberta、XLNet、ELECTRA、GPT3 等刷榜各类 NLP 任务的模型,无一不是基于 Transformer 框架。无疑,Transformer 开启了 NLP 的统治…

day01『NLP打卡营』实践课1:词向量应用演示

Day01 词向量作业辅导 本教程旨在辅导同学如何完成 AI Studio课程——『NLP打卡营』实践课1:词向量应用展示 课后作业。 1. 选择词向量预训练模型 在PaddleNLP 中文Embedding模型查询PaddleNLP所支持的中文预训练模型。选择其中一个模型,如中文维基百…

流计算框架 Flink 与 Storm 的性能对比

1. 背景 Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。其中 Apache Storm(以下简称“Storm”)在美团点评实时计算业务中已有较为成熟的运用(可参考 Storm 的可靠性保证测试),有管理平台…

论文浅尝 - AAAI2021 | 基于对比学习的三元组生成式抽取方法

作者 | 叶宏彬,浙江大学博士研究生,研究方向:知识图谱、自然语言处理接收会议 | AAAI2021论文链接 | https://arxiv.org/pdf/2009.06207.pdf摘要在自然语言处理和知识图谱领域的信息提取中,三元组抽取是必不可少的任务。在本文中&…

LeetCode 101. 对称二叉树(递归循环)

1. 题目 给定一个二叉树,检查它是否是镜像对称的。 例如,二叉树 [1,2,2,3,4,4,3] 是对称的。1/ \2 2/ \ / \ 3 4 4 3 但是下面这个 [1,2,2,null,3,null,3] 则不是镜像对称的:1/ \2 2\ \3 3来源:力扣(LeetCode&#x…

剑桥大学终身教授T.S.:7大机器学习算法与应用案例

机器学习和人工智能可被应用在文本翻译、面部检测和识别、自动驾驶汽车和诸如国际象棋和围棋一类的极为复杂的控制类游戏等领域,其最新发展日益受到越来越高的关注。本次为大家推荐的科研项目,还是来自于ViaX盐趣,导师是来自剑桥大学计算机系…

会议交流 | 2021年全国知识图谱与语义计算大会(CCKS 2021)征稿通知

2021年全国知识图谱与语义计算大会征稿通知(第一轮)First Call for Full Papers2021年8月18日-21日,广州征稿截止: 2021年5月10日第十五届全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Co…

美团外卖自动化业务运维系统建设

美团外卖业务在互联网行业是非常独特的,不仅流程复杂——从用户下单、商家接单到配送员接单、交付,而且压力和流量在午、晚高峰时段非常集中。同时,外卖业务的增长非常迅猛,自2013年11月上线到最近峰值突破1600万,还不…

把数据集刷穿是什么体验?MetaQA已100%准确率

文 | 炼丹学徒编 | 小轶开始炼丹以来,估计很多小伙伴都和我一样幻想过直接把数据集做到 100% 准确率,然后大吼一声:这数据集,我做到头了!然而愿望终究是愿望。大多时候,看着自己手头上用了浑身解数才提了零…

LeetCode 116. 填充每个节点的下一个右侧节点指针(递归循环)

文章目录1. 题目2. 解题2.1 递归2.2 循环2.3 O(1)空间复杂度1. 题目 给定一个完美二叉树,其所有叶子节点都在同一层,每个父节点都有两个子节点。二叉树定义如下: struct Node {int val;Node *left;Node *right;Node *next; }填充它的每个 n…

大圣魔方——美团点评酒旅BI报表工具平台开发实践

当前的互联网数据仓库系统里,数据中心往往存放了大量Cube化或者半Cube化的数据。如果需要将这些数据的内在关系体现出来,需要写大量的程序和SQL来发现数据之间的内在规律,往往会造成用户做非常多的重复性工作;而且由于没有数据校验…

基于知识图谱的智能问答方案

基于知识图谱的智能问答方案:https://cloud.tencent.com/developer/article/1661504 基于知识图谱的智能问答方案2020-07-142020-07-14 15:57:50阅读 9950三个角度理解知识图谱2012年谷歌首次提出“知识图谱”这个词,由此知识图谱在工业界也出现得越来越…