论文浅尝 | BAG:面向多跳推理问答得双向 Attention 实体图卷积网络

论文笔记整理:谭亦鸣,东南大学博士生,研究兴趣:知识图谱问答


来源:NAACL 2019

链接:https://www.aclweb.org/anthology/N19-1032/

 

      实现多跳推理问答需要模型能够充分理解文本和 query 之间的关系,本文提出了一种双向注意力实体图卷积网络(BAG),该方法利用实体图中的节点及实体图与query之间的attention信息处理上述推理问答任务。其中,实体图通过文本的多层特征构建得到,图卷积网络用于获取实体图中节点的表示(带有关系感知信息),双向attention被用到图与query上,以生成query感知的节点表示,将用于最后的预测中。在QAngaroo WIKIHOP数据集上的实验表明,BAG是目前准确度最高的模型。

动机

       作者发现,在 QAngaroo 任务中(该数据集含有多个文本,目标是对于给定的 query,从一系列候选答案中找出正确的那个),大多数情况下,仅依赖一篇文档无法获得query对应的答案,问答过程需要通过文档之间的多跳推理来完成。因此,仅理解部分文本段落可能会使多跳推理失去有效性,对于过去的模型来说,这是一个巨大的挑战。

       本文提出基于图的 QA 模型,将多个文本转换为图,其中的节点是实体,边是实体之间的关系(多源文本->单个图谱),接着使用一个图卷积网络对实体图中带有关系感知的节点做表示学习。而后在图和带有multi-level feature的query之间构建一个双向attention,用于最后的预测。

贡献

作者总结本文贡献如下:

  1. 在query和图之间使用一个双向attention建立基于query感知的表示学习用于阅读理解;

  2. 利用multi-level feature参与理解关系,同于图节点的GCN表示学习过程。

方法

首先,作者正式定义多跳QA任务(以QAngarooWIKIHOP数据集为例)如下:

给定一个文档集包含N个文档,任务目标是对于query(包含M个token),从候选答案列表C中找出正确答案(或列表中的答案索引)。

多跳推理示例:

给定一个 triple-style query q=(country, kepahiang),表示的是自然语言问题“which country does kepahiang belongs to”

候选答案如 C = {Indonesia, Malaysia}

现有一系列文本,但他们的内容并不完全与我们需要的推理相关

比如:  Kephiang is a regency inBengkulu,

Bengkulu is one of province of Indonesia,

Jambi is a province of Indonesia

      根据上述文本我们可以推理得到答案是 Indonesia,且推理仅基于前两句文本。

 

     下图是 BAG 模型框架,主要包含五个部分:1) 实体图建立;2) Multi-level feature层;3) GCN层;4) 双向attention;5) 输出层

关于实体图

实体图构建基于Entity-GCN (De Cao et.al., 2018)模型实现,将所有文本中找到的实体都作为图中节点,每个节点对之间根据位置属性定义无向边。图中包含两类边:

  1. cross-document edge:同一实体文本出现在不同文本中

  2. within-document edge:每个节点对都在同一文本中

这样的做法使得实体图中的节点都可以通过字符匹配精确找到,而问题的答案也一定在实体图中。

关于 Multi-level Features

论文使用了GLoVe提供预训练word embedding用于node的节点表示,ELMo用于获取涵盖query上下文信息中的词表示,对于实体图,使用1层线性网络进行特征学习,对于query则使用双向LSTM,之后与NER及POS特征连接,完成整个特征融合步骤。

GCN层

为了实现多跳推理,作者使用了Relational Graph Convolutional Network(R-GCN, Schlichtkrull et al., 2018),该方法实现了图中不同实体节点之间的信息传递,并且生成转换后的表示。

R-GCN被用于处理高相关数据特征,并使用到不同的边类型。

在第l层,给定节点i,j的隐状态,以及i所有relation RNi关联到的邻居,其下一层的隐状态更新为:


其中c为标准化因子,Wr为relation special权重矩阵,W0为普通权重矩阵。

在这个基础上,与Entity-GCN类似,作者也使用了门(一个线性转换函数f)用于更新当前节点的向量及隐状态:


在f中u可以通过公式1得到(无sigmoid函数),之后可以被用来更新不同层中同一节点的隐状态的权重:


图和query之间的双向Attention

双向attention负责生成图和query之间的交互信息,在BiDAF(Seo et al., 2016)中,attention被用于帮助处理序列数据。作者发现,这个方法也可以用于节点和query,它能够生成query感知的节点表示,能够为推理预测提供信息。

不同的是,在BAG中attention被应用于图,相似矩阵S可以通过以下公式计算:


其中,hn是所有节点的表示,由GCN层得到,f是编码之后的query特征,fa是一个线性转换,avg-1表示在最后一维做平均操作,表示逐元素相乘。

与BiDAF构建context-to-query attention不同,本文构建一种node-to-query attention,用于强调与query最相关的节点,通过以下公式实现:


其中,softmaxcol表示在整列数据上执行softmax,·表示矩阵乘法。

同时,作者也构建了query-to-node attention,形如:


col表示的意义与(5)一样,dup函数的功能则是将其后内容复制T次,以控制矩阵维度,fn是未经GCN处理过的原始节点特征。

通过对node-to-query/query-to-node以及特征表示的整合,双向attention的输出被定义为:


整个框架的输出层由两层全连接前馈网络构成,用于生成最终的预测结果。

实验

实验数据

       本文实验基于QAngaroo WIKIHOP数据集(Welbl et al., 2018)

       训练集,开发集及测试集的规模分别为43,738,5,129与2,451

  作者罗列了其实验使用的 ELMo/GLoVe 的维度设定,其中 ELMo 为 1024维,GloVe 为 300 维,预训练由840B的Web数据得到,NER 和POS特征均表示维8维。

 

         实验结果

表1列举了多跳问答的实验结果,评价指标维准确度。

表2列举了BAG在开发集上的增量模型实验。


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479296.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android官方开发文档Training系列课程中文版:使用Fragment构建动态UI之构建灵活的UI

原文地址:http://android.xsoftlab.net/training/basics/fragments/fragment-ui.html 当设计应用程序时需要支持尺寸较大的宽屏设备时,可以基于可用的屏幕空间在不同的布局中配置并重新使用fragment来提升用户体验。 举个例子,手持设备在同…

LeetCode 669. 修剪二叉搜索树

1. 题目 给定一个二叉搜索树,同时给定最小边界L 和最大边界 R。通过修剪二叉搜索树,使得所有节点的值在[L, R]中 (R>L) 。你可能需要改变树的根节点,所以结果应当返回修剪好的二叉搜索树的新的根节点。 来源:力扣&#xff08…

Pytorch翻车记录:单卡改多卡踩坑记!

文 | 哟林小平知乎先说明一下背景,目前正在魔改以下这篇论文的代码:https://github.com/QipengGuo/GraphWriter-DGLgithub.com由于每次完成实验需要5个小时(baseline),自己的模型需要更久(2倍)&…

使用docker部署flask项目

前言 本次部署是把2个项目、mysql、redis、uwsgi封装在一个容器中,ngnix封装在一个容器中 实际应用中最好是: 项目和uwsgi封装在一个容器中mysql单独封装,可能还要读写分离,主从同步等redis单独封装,可能还要读写分离&…

论文浅尝 | DRUM:一种端到端的可微的知识图谱上的规则学习方法

论文笔记整理:张文,浙江大学在读博士,研究方向为知识图谱的表示学习,推理和可解释。现有的多数链接预测方法都不能处理新的实体,并且多为黑盒方法,使得其预测结果无法解释。本文提出了一种新的端到端的可微…

WSDM Cup 2019自然语言推理任务获奖解题思路

WSDM(Web Search and Data Mining,读音为Wisdom)是业界公认的高质量学术会议,注重前沿技术在工业界的落地应用,与SIGIR一起被称为信息检索领域的Top2。 刚刚在墨尔本结束的第12届WSDM大会传来一个好消息,由…

LeetCode 637. 二叉树的层平均值(层次遍历queue)

1. 题目 给定一个非空二叉树, 返回一个由每层节点平均值组成的数组. 输入:3/ \9 20/ \15 7 输出: [3, 14.5, 11] 解释: 第0层的平均值是 3, 第1层是 14.5, 第2层是 11. 因此返回 [3, 14.5, 11].2. 解题 queue按层遍历,每次进入循环记录队列长度n class So…

AI框架你只会调包,这种想法很危险!

深度学习神经网络正步入成熟,而深度学习框架目前众多,大都可以在图像识别、手写识别、视频识别、语音识别、目标识别和自然语言处理等诸多领域大显身手。深度学习框架平台占据人工智能产业生态的核心地位,具有统领产业进步节奏、带动终端场景…

Docker镜像大小

都说容器大法好,可是假设没有Docker镜像,Docker该是多无趣啊。 是否还记得第一个接触Docker的时候,你从Docker Hub下拉的那个镜像呢?在那个处女镜像的基础上。你执行了容器生涯的处女容器。镜像的基石作用已经非常明显。在Docker…

论文浅尝 | 机器阅读理解中常识知识的显式利用

论文笔记整理:吴林娟,天津大学硕士,自然语言处理方向。链接:https://arxiv.org/pdf/1809.03449.pdf动机机器阅读理解(MRC)和人类进行阅读理解之间还存在差距,作者认为主要体现在对于数据的需求和噪声鲁棒性上&#xff…

深度学习在美团配送ETA预估中的探索与实践

1.背景 ETA(Estimated Time of Arrival,“预计送达时间”),即用户下单后,配送人员在多长时间内将外卖送达到用户手中。送达时间预测的结果,将会以”预计送达时间”的形式,展现在用户的客户端页面…

在AndroidStudio中配置Gradle进行 “动态编译期间,根据远程服务器地址 ,生成多类安装包”

原文地址:http://www.cnblogs.com/vir56k/p/4763810.html 需求: 在产品开发中,经常需要发布各个版本,每个版本的服务器地址有不同的服务器地址。比如 开发 服务器使用 192.168.1.232服务器,测试 服务器使用 192.168.1.…

中科院博士整理的机器学习算法知识手册,完整 PDF 开放下载!

分享一份中科院博士总结的机器学习算法知识手册,文章已打包成压缩文件,感兴趣的同学可下载交流。文件包含了:机器学习基础,监督学习方法、非监督学习方法,Python数据科学和深度学习等相关知识,若初学者在自…

论文浅尝 | 通过共享表示和结构化预测进行事件和事件时序关系的联合抽取

论文笔记整理:邓淑敏,浙江大学在读博士,研究方向为低资源条件下知识图谱自动化构建关键技术研究。Rujun Han, Qiang Ning, Nanyun Peng. Joint Event and Temporal Relation Extractionwith Shared Representations and Structured Predictio…

研发团队资源成本优化实践

背景 工程师主要面对的是技术挑战,更关注技术层面的目标。研发团队的管理者则会把实现项目成果和业务需求作为核心目标。实际项目中,研发团队所需资源(比如物理机器、内存、硬盘、网络带宽等)的成本,很容易被忽略&…

抖音算法推荐机制详解(科普向)

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

论文浅尝 | 融合多粒度信息和外部语言知识的中文关系抽取

论文笔记整理:吴涵,天津大学硕士,研究方向:自然语言处理Paper:https://www.aclweb.org/anthology/P19-1430/Code:https://github.com/thunlp/Chinese_NRE引入中文NER问题在很大程度上取决于分词的效果,所以在中文NER问…

智能写作

6.2万字报告剖析「智能写作」全貌,从落地产品看NLP商业化突破:

论文拒稿的评价可以有多狠?

文 | 自然卷知乎自古严师出高徒,“天将降大任于是人也,必先苦其心志,劳其筋骨……”。然而,这并不能作为审稿人走向“键盘侠”之路的理由!让我们这些卑微投稿人心里真是好凉凉!ಥ_ಥ 大家来看看&#xff0c…

全链路压测自动化实践

背景与意义 境内度假是一个低频、与节假日典型相关的业务,流量在节假日较平日会上涨五到十几倍,会给生产系统带来非常大的风险。因此,在2018年春节前,我们把整个境内度假业务接入了全链路压测,来系统性地评估容量和发现…