论文浅尝 | 机器阅读理解中常识知识的显式利用

论文笔记整理:吴林娟,天津大学硕士,自然语言处理方向。


链接:https://arxiv.org/pdf/1809.03449.pdf


动机

机器阅读理解(MRC)和人类进行阅读理解之间还存在差距,作者认为主要体现在对于数据的需求和噪声鲁棒性上,人类往往拥有大量的常识性知识,从短文中就能进行深刻的阅读理解。所以在文章中,作者探索了如何将MRC模型的神经网络与常识相结合,并基于常识数据的扩展,实现了一个端到端的知识辅助阅读器(KAR)机器阅读模型。KAR在性能上可与最新的MRC模型相媲美,并且在噪声方面具有更强的鲁棒性。当只有一部分训练样本(20%–80%)可用时,KAR能大大超越最新的MRC模型,并且仍具有相当强的抗噪能力。


亮点

(1)提出了一个数据丰富的方法,作者使用WordNet从每个给定的段落-问句对中提取词间语义联系作为常识。题目中之所以叫常识知识的显式使用,是作者探索的一种和目前把常识编码后增强单词或上下文表示的形式不同的方法,对常识知识的使用更好理解和控制。

(2)作者提出了一个名为知识辅助阅读器(KAR)的端到端MRC模型,该模型使用提取到的常识来辅助其注意机制,增强模型的阅读理解能力,削弱噪声的影响。实验证明了模型的先进性。


方法及模型

  • 数据丰富的方法

主要是基于WordNet从每个给定的段落-问句对中提取词间语义联系作为常识数据提供给MRC模型。

1、语义关系链

WordNet是英语的词汇数据库,其中单词根据其含义被组织为同义词集,同义词集通过语义关系进一步相互关联,总共有十六种语义关系类型(例如,上位词,下位词,全称,副词,属性等)。基于同义词集和语义关系,作者定义了一个新概念:语义关系链。

语义关系链是语义关系的级联序列,它将一个同义词集链接到另一个同义词集。

例如,同义词集“keratin.n.01”通过语义关系“substance holonym”与同义词集“feather.n.01”相关,同义词集“ feather.n.01”通过语义关系“partholonym”与同义词集“ bird.n.01”相关,而同义词集“bird.n.01”通过语义关系“ hyponym”与同义词集“parrot.n.01”相关,因此“ substance holonym -> part holonym-> hyponym”是一条语义关系链,将同义词集“ keratin.n.01”链接到同义词集“ parrot.n.01”。文中将语义关系链中的每个语义关系命名为一跳,因此上述语义关系链是3跳链,每个单独的语义关系都等效于1跳链。

2、词间语义连接

给定一个词 ω,同义词集表示为 Sω,同义词集 Sω 以及从 Sω 可以用语义关系链扩展到的其他同义词集共同组成 S*ω,如果对语义关系链没有限制的话 S*ω 将拥有所有同义词集这是没有意义的,所以作者提出了:当且仅当 Sω1^* (k)∩Sω2≠∅,单词ω1才与另一个单词ω2语义连接,k表示语义关系链的最大允许跳数。

3、常识知识提取

结合文章的模型,作者仅提取了词间语义连接的位置信息,并设置超参数来控制提取结果的数量。如果将其设置为0,则单词间语义连接将仅存在于同义词之间;如果增加,更多词之间将存在词间语义联系。但是,由于自然语言的复杂性和多样性,提取的结果中只有一部分可以用作有用的常识,而其余部分对于预测答案范围则毫无用处,所以参数不可设置太大。

  • 知识辅助阅读器

KAR模型主要由五层构成:词典嵌入层、上下文嵌入层、粗记忆层、精记忆层、答案跨度预测层。


       1、知识辅助的相互关注

       作为粗记忆层的一部分,知识辅助的相互关注旨在将问题上下文嵌入 C_Q融合到段落上下文嵌入 C_p 中,关键问题是计算每个段落上下文嵌入 c_pi 和问题上下文嵌入 c_qj 之间的相似度:

带*号的向量是指经过了之前提取的常识知识加强之后的向量。基于以上相似度函数和增强的上下文嵌入,为执行知识辅助的相互关注,首先作者构建了知识辅助的相似度矩阵A,其中A_(i,j)=f^*(C_pi, c_qj)。关注段落的问题总表示R_Q和关注问题的段落总表示R_p为:

最后经过具有ReLU激活的稠密层把 C_p,C_Q,C_P⨀C_Q 和 R_P⨀R_Q 串联,得到输出G ̃∈R^(d×n)。

        2、知识辅助的自我注意

        作为精记忆层的一部分,知识辅助的自我关注旨在将粗记忆层G融合到自身中。作者使用预先提取的常识来确保每个段落词的粗记忆融合仅涉及其他段落词的精确子集。特别的,对于每个段落词 p_i,粗记忆是g_pi,提取到的常识集合为E_pi,通过搜集G的列(索引由E_pi给出)可以获匹配的粗记忆,然后构造一个g_pi参与的Z总表示,可以获得匹配的向量 g_(pi)^+:

最后经过具有ReLU激活的稠密层把g_pi和g_(pi)^+串联,获得融合结果 h_pi,输出为 H={h_p1, h_p2,..., h_pn}。

 

实验

作者将KAR需要与其他MRC模型的性能和抗噪性进行比较,具体来说,不仅需要评估开发集和测试集上KAR的性能,还要评估对抗集上的性能。所以主要和以下五个模型进行了比较:


在开发集和测试集上,KAR的性能与最新的MRC模型相当。在对抗集上,KAR大大优于最新的MRC模型。 也就是说,KAR在性能上可与最新的MRC模型相媲美,并且在噪声方面比它们具有更强的鲁棒性。

作者分析了模型表现优良的原因:

1、KAR旨在利用数据丰富方法中预先提取的词间语义连接。某些词间语义连接,尤其是通过多跳语义关系链获得的词间语义连接,对于预测答案范围非常有用。

2、从段落-问题对中提取的词间语义联系通常也会出现在许多其他段落-问题对中,因此从少量训练示例中提取的词间语义联系很可能实际上覆盖了更大的培训示例。

3、一些单词间的语义联系分散了对答案范围的预测。例如,鉴于上下文“银行经理正沿着水边走”,“银行”和“水边”之间的词间语义联系毫无意义。正是知识辅助的注意力机制使KAR能够忽略这种分散注意力的词间语义联系,从而仅使用重要的语义联系。

总结

在文章中,作者创新地将MRC模型的神经网络与人类的常识相结合。实验结果表明KAR的端到端的MRC模型的效果很好,文章提出的使用WordNet进行常识知识的显式使用来提高MRC模型性能和鲁棒性确实是一个不错的思路。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479285.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度学习在美团配送ETA预估中的探索与实践

1.背景 ETA(Estimated Time of Arrival,“预计送达时间”),即用户下单后,配送人员在多长时间内将外卖送达到用户手中。送达时间预测的结果,将会以”预计送达时间”的形式,展现在用户的客户端页面…

在AndroidStudio中配置Gradle进行 “动态编译期间,根据远程服务器地址 ,生成多类安装包”

原文地址:http://www.cnblogs.com/vir56k/p/4763810.html 需求: 在产品开发中,经常需要发布各个版本,每个版本的服务器地址有不同的服务器地址。比如 开发 服务器使用 192.168.1.232服务器,测试 服务器使用 192.168.1.…

中科院博士整理的机器学习算法知识手册,完整 PDF 开放下载!

分享一份中科院博士总结的机器学习算法知识手册,文章已打包成压缩文件,感兴趣的同学可下载交流。文件包含了:机器学习基础,监督学习方法、非监督学习方法,Python数据科学和深度学习等相关知识,若初学者在自…

论文浅尝 | 通过共享表示和结构化预测进行事件和事件时序关系的联合抽取

论文笔记整理:邓淑敏,浙江大学在读博士,研究方向为低资源条件下知识图谱自动化构建关键技术研究。Rujun Han, Qiang Ning, Nanyun Peng. Joint Event and Temporal Relation Extractionwith Shared Representations and Structured Predictio…

研发团队资源成本优化实践

背景 工程师主要面对的是技术挑战,更关注技术层面的目标。研发团队的管理者则会把实现项目成果和业务需求作为核心目标。实际项目中,研发团队所需资源(比如物理机器、内存、硬盘、网络带宽等)的成本,很容易被忽略&…

抖音算法推荐机制详解(科普向)

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

论文浅尝 | 融合多粒度信息和外部语言知识的中文关系抽取

论文笔记整理:吴涵,天津大学硕士,研究方向:自然语言处理Paper:https://www.aclweb.org/anthology/P19-1430/Code:https://github.com/thunlp/Chinese_NRE引入中文NER问题在很大程度上取决于分词的效果,所以在中文NER问…

智能写作

6.2万字报告剖析「智能写作」全貌,从落地产品看NLP商业化突破:

论文拒稿的评价可以有多狠?

文 | 自然卷知乎自古严师出高徒,“天将降大任于是人也,必先苦其心志,劳其筋骨……”。然而,这并不能作为审稿人走向“键盘侠”之路的理由!让我们这些卑微投稿人心里真是好凉凉!ಥ_ಥ 大家来看看&#xff0c…

全链路压测自动化实践

背景与意义 境内度假是一个低频、与节假日典型相关的业务,流量在节假日较平日会上涨五到十几倍,会给生产系统带来非常大的风险。因此,在2018年春节前,我们把整个境内度假业务接入了全链路压测,来系统性地评估容量和发现…

论文浅尝 | GMNN: Graph Markov Neural Networks

论文笔记整理:吴锐,东南大学硕士研究生,研究方向为自然语言处理来源:ICML 2019链接:http://proceedings.mlr.press/v97/qu19a/qu19a.pdf问题定义弱监督下的在关系数据中的对象分类。形式化地来说,给定一个图…

五笔字根表口诀的通俗易懂讲解

五笔字根表口诀的通俗易懂讲解 从上面五笔学习导图,我们不难看出,五笔只包含两个部分,一是独立字。二是字根字。 1 先来讲解独立字。 独立字就是不用字根就可以输出的汉字,独立字包含一级简码,按键字两种。…

论文浅尝 | 基于知识图谱难度可控的多跳问题生成

论文笔记整理:谭亦鸣,东南大学博士生,研究兴趣:知识图谱问答。来源:ISWC 2019链接:https://link.springer.com/content/pdf/10.1007%2F978-3-030-30793-6_22.pdf本文提出一个end2end神经网络模型以知识图谱…

LeetCode 933. 最近的请求次数(queue)

1. 题目 写一个 RecentCounter 类来计算最近的请求。 它只有一个方法:ping(int t),其中 t 代表以毫秒为单位的某个时间。 返回从 3000 毫秒前到现在的 ping 数。 任何处于 [t - 3000, t] 时间范围之内的 ping 都将会被计算在内,包括当前&…

如何融合深度学习特征向量?

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

将军令:数据安全平台建设实践

背景 在大数据时代,数据已经成为公司的核心竞争力。此前,我们介绍了美团酒旅起源数据治理平台的建设与实践,主要是通过各种数据分析挖掘手段,为公司发展决策和业务开展提供数据支持。 近期,业内数据安全事件频发&#…

Android官方开发文档Training系列课程中文版:与其它APP交互之将用户带到其它的APP

原文地址:http://android.xsoftlab.net/training/basics/intents/index.html 导言 一个Android APP应用通常会有若干个Activity。每一个Activity所展示的用户界面用于允许用户执行特定的任务(比如浏览地图或者是拍照)。为了把用户从一个activity带到另一个activit…

开源开放 | 图数据交互可视化分析框架 InteractiveGraph v0.3 版本发布

图数据交互可视化分析框架 InteractiveGraph 日前发布 v0.3 版本,下载地址:https://github.com/grapheco/InteractiveGraph/releases/tag/0.3.1图数据模型具有对实体关系的表达能力强、属性 及结构可扩展性好、关联查询高效等优势。在对海量 的多元异构信…

LeetCode 589. N叉树的前序遍历(前序遍历)

文章目录1. 题目2. 解题2.1 递归2.2 循环1. 题目 2. 解题 2.1 递归 class Solution { public:vector<int> preorder(Node* root) {vector<int> ans;preRec(root,ans);return ans;}void preRec(Node* root, vector<int> &ans) {if(root NULL)return;ans…

打脸!一个线性变换就能媲美“最强句子embedding”?

文 | 苏剑林&#xff08;追一科技&#xff09;编 | 小轶小编&#xff1a;前几周小屋刚推完《还在用[CLS]&#xff1f;从BERT得到最强句子Embedding的打开方式&#xff01;》&#xff0c;苏神就来打脸了_(:з」∠)_BERT-flow来自论文《On the Sentence Embeddings from Pre-trai…