论文浅尝 | 混合注意力原型网络的含噪音少样本的关系分类

论文笔记整理:余海阳,浙江大学硕士,研究方向为知识图谱、自然语言信息抽取。


640?wx_fmt=png

链接:https://www.aaai.org/Papers/AAAI/2019/AAAI-GaoTianyu.915.pdf


动机

现有的关系分类方法主要依赖于远程监控(DS),因为目前还没有大规模的监控训练数据集。虽然DS自动标注了足够多的数据用于模型训练,但是这些数据的覆盖范围仍然相当有限,同时很多长尾关系仍然存在数据稀疏的问题。另外直觉上说,人们可以通过学习很少的实例来掌握新的知识。因此我们通过将RC问题形式化为一个少样本学习(FSL)问题,给出了一个不同的RC观点。然而,目前的FSL模型主要针对低噪声的任务,难以直接处理文本的多样性和噪声。在本文中,我们提出了一种基于混合注意力机制的原型网络来解决含噪的少样本RC问题。我们设计了基于原型网络的实例级和特征级注意方案,分别突出了关键的实例和特征,显著提高了RC模型在含噪FSL场景中的性能和鲁棒性。此外,我们的注意方案加快了RC模型的收敛速度。实验结果表明,我们的基于注意力混合模型需要更少的训练迭代,并且优于最先进的基线模型。


亮点

文章的亮点主要包括:

(1)提出了一种基于混合注意力机制的原型网络来处理含噪的少样本关系分类任务,实例级的注意力强调与查询有关的实例,特征级注意力减轻了少样本稀疏性的问题;

(2)训练时相比其他FSL模型收敛得更快。


相关工作

一.少样本的关系分类:

关系分类是信息提取中重要的任务,对下游NLP领域如机器翻译、阅读理解、常识推理等都有帮助。然而传统的关系分类任务需要大量的监督数据,人为打标的方式成本又是十分昂贵的。虽然之后提出的远程监督方法打标的方式可以快速构造大量的监督训练数据,但是这样构建的数据集噪音太大,对关系分类的准确率影响很大。直觉上说,人们可以通过学习很少的实例来掌握新的知识。因此我们通过将关系分类形式化为一个少样本学习问题,给出了一个不同的视角解决关系分类。

少样本学习(FSL)允许模型在数据不足的情况下学习高质量的特性,而不需要添加像远程监督这样构建的大规模数据集。许多研究者将迁移学习方法应用于FSL的预训练-微调模型,该模型将潜在的信息从包含足够多的常见类中转移到只有很少实例的不常见类。另外度量学习方法提出了学习类间距离分布的方法,其中相同类在距离空间上是相邻的。最近,元学习的概念被提出,它鼓励模型从以前的经验中学习快速学习能力,并迅速推广到新的概念中。

在这些模型中,原型网络实现简单,训练速度快,在多个FSL任务上都达到了最先进的结果。它计算每个类的原型类型,并通过计算它们的欧式距离对查询实例进行分类。我们提出的方法是基于原型网络的。近年来,虽然少样本学习发展迅速,但大部分工作集中在CV的应用上。流行的FSL数据集Omniglot和mini-ImageNet 都是为CV应用程序设计的。然而关于采用FSL进行NLP任务的系统研究还很少。

 

二.原型网络:


如图为原型网络求解少样本关系分类任务的原型方法。原型网络的直觉比较简单,它假设在语义空间中具有相同类的实例是相互靠近的,靠近的中心点就是每个关系的原型。样本通过学习投影到语义空间中,并且让相同关系的样本尽可能靠近,在通过求均值的方法直接求出每个关系的原型。查询样本所属的关系通过求解样本与每个关系的欧式距离,距离最近的就是该查询样本所属的关系。


模型

文中设计的混合注意力机制的原型网络模型如下:

 

640?wx_fmt=png


基本模型主要包括:

(1)样本实例编码:输入的每个实例句子,计算每个词语的word embedding和相对两个实体的positionembedding,将两个embedding拼接起来后输入到CNN网络中再做最大池化,输出的结果就是每个实例句子的编码信息。

(2)原型网络计算原型:原始的原型网络计算原型的方法是在suppprt set中求实例句子的平均值作为每个关系的原型。我们任何原型网络求解原型的思想,但是直接求平均的方法对每个输入样本的权重默认为相同值,这样当输入样本很少时,并且样本中带有噪音的情况下会明显影响原型的求解。

(3)样本实例级的注意力机制:基于上面所说,在少样本学习中若是训练过程样本带有噪音会明显影响原型的求解。我们提出了样本实例级的的注意模块,将更多的注意力放在与查询相关的实例上,减少了噪声的影响。我们将求解原型的公式从 640?wx_fmt=png修改为640?wx_fmt=png,其中αj定义为640?wx_fmt=png

(4)特征级的注意力机制:原始的原型网络使用简单的欧式距离作为距离函数。由于少样本学习中支持集中实例较少,从支持集中提取的特征存在数据稀疏的问题。因此,在特征空间中对特殊关系进行分类时,某些维度具有更强的区分能力。我们提出了一种基于特征级的注意方法,以缓解特征稀疏性问题,并以更合适的方式测量空间距离。我们将公式 d(s1, s2) = (s1-s2)2 修改为d(s1,s2) = zi *(s1-s2)2,其中zi通过下图的特征级注意力提取器计算的。

640?wx_fmt=png

实验

我们在FewRel数据集上评估我们的模型,这个数据集一共有100个关系,每个关系700条句子。另外为了证明模型在含噪数据上的鲁棒性,我们人为的设置了含噪数据:0%、10%、30%、50%。其他超参数设置如下:

640?wx_fmt=png

具体实验结果如下表所示:

640?wx_fmt=png

上表报告了在不同实验设置下对测试集的混合注意力和不混合注意力的原型网络的准确性。我们将原始的原型网络命名为“Proto”。“Proto- IATT”、“Proto- FATT”和“Proto- HATT”分别是实例级、特征级和混合注意的模型。从表中我们可以发现,我们的混合注意力为基础的原型网络在面对噪声数据时更加健壮。随着噪声率的提高,我们提出的模型的优点变得更加明显。

640?wx_fmt=png

通过对实例和特征的混合关注和不同的评分,我们的模型知道在训练时应该关注实例和特征的哪些部分,同时捕获正确的反向传播路径。这有助于模型抵御数据噪声的不利影响。我们的模型在干净数据上甚至比基线做得更好,这证明了混合注意力在处理干净数据的少样本学习任务中也是有用的。我们并与其它FSL模型和RC模型进行了比较。对于RC模型,我们采用Finetune或kNN等简单的少样本模型方法对RC模型进行综合评价。对于FSL模型,我们对比了Meta Network (Munkhdalai and Yu 2017)、GNN (Garcia and Bruna 2018)和SNAIL(Mishraet al. 2018),这些都是目前最先进的FSL模型。如表所示,我们的两个注意力模块都提出了改进性能的方法,我们提出的基于注意的混合方法取得了最好的效果。


总结                        

在本文中,我们提出了一种基于混合注意力的原型网络来完成含噪的少样本关系分类任务。我们的混合注意力机制由两个模块组成,一个实例级的注意力突出了与查询相关性更高的实例,另一个特征级的注意力机制减轻了特征稀疏性的问题。在我们的实验中,我们评估了我们的模型在几个随机噪声设置和少样本设置,表明了我们的混合注意力机制FSL模型显著提高了鲁棒性和计算效率。我们的模型不仅达到了最先进的结果,并在有噪声的数据中表现得更好,而且在训练时收敛得更快。在未来,我们将探索将我们的混合注意方案与其他FSL模型相结合,并采用更多的神经编码器使我们的模型更通用。



OpenKG


开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479898.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

消息中间件系列(七):如何从0到1设计一个消息队列中间件

消息队列作为系统解耦,流量控制的利器,成为分布式系统核心组件之一。 如果你对消息队列背后的实现原理关注不多,其实了解消息队列背后的实现非常重要。 不仅知其然还要知其所以然,这才是一个优秀的工程师需要具备的特征。 今天…

LeetCode 239. 滑动窗口最大值(双端队列+单调栈)

文章目录1. 题目信息2. 解题2.1 暴力法2.2 双端队列法1. 题目信息 给定一个数组 nums,有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只向右移动一位。 返回滑动窗口中的最大值。 示例:输入: n…

Airbnb搜索:重排序阶段如何优化搜索结果多样性?

文 | 谷育龙Eric编 | QvQ我是谷育龙Eric,研究方向有深度学习、搜索推荐,喜欢为大家分享深度学习在搜索推荐广告排序应用的文章。本文将基于Airbnb KDD 2020年的论文,介绍Airbnb搜索排序中在重排序阶段如何解决多样性的问题,对工业…

肖仰华 | 做个“有知识”的机器人

本文转载自公众号:知识工场。肖仰华博士,复旦大学计算机科学与技术学院教授,博士生导师,知识工场实验室负责人。本文是肖仰华教授应《中国计算机学会通信》邀请所撰写的特邀文章,全文见 CCCF 2019 年第 5 期。摘要:时下…

消息中间件系列(九):详解RocketMQ的架构设计、关键特性、与应用场景

内容大纲: RocketMQ的简介与演进 RocketMQ的架构设计 RocketMQ的关键特性 RocketMQ的应用场景 RocketMQ的简介 RocketMQ一个纯java、分布式、队列模型的开源消息中间件,前身是MetaQ,是阿里研发的一个队列模型的消息中间件,后开…

LeetCode 151. 翻转字符串里的单词(栈)

文章目录1. 题目信息2. 解题1. 题目信息 给定一个字符串,逐个翻转字符串中的每个单词。 示例 1:输入: "the sky is blue" 输出: "blue is sky the" 示例 2:输入: " hello world! " 输出: "world! hel…

推荐系统架构与算法流程详解

文 | yijiapan腾讯 WXG 数据分析师推荐算法的理解如果说互联网的目标就是连接一切,那么推荐系统的作用就是建立更加有效率的连接,推荐系统可以更有效率的连接用户与内容和服务,节约了大量的时间和成本。如果把推荐系统简单拆开来看&#xff0…

论文浅尝 | 将字面含义嵌入知识图谱表示学习

论文笔记整理:吴桐桐,东南大学博士生,研究方向为知识图谱,自然语言处理。链接:https://arxiv.org/pdf/1802.00934.pdf本文主要关注知识图谱中的链接预测问题,在既有的知识图谱表示学习模型的基础上提出了一…

优知学院创始人陈睿:怎样做好一个创业公司CTO?

CTO 是企业内技术最高负责人,对企业的发展起到至关重要的作用。但随着公司的不断发展,CTO 的工作重心也会不断变化。只有在正确的阶段做正确的事,才能更好地为公司做出贡献。 本文作者:陈睿 优知学院创始人,10年产品技…

2020年深度学习调参技巧合集

文 | 山竹小果源 | NewBeeNLP编 | 夕小瑶的卖萌屋重点说明:本文主要为整理总结,大部分参考文末资料,感谢分享。寻找合适的学习率学习率是一个非常非常重要的超参数,这个参数呢,面对不同规模、不同batch-size、不同优化…

LeetCode 226. 翻转二叉树(DFS BFS)

文章目录1. 题目信息2. 解题2.1 DFS2.2 BFS1. 题目信息 翻转一棵二叉树。 示例:输入:4/ \2 7/ \ / \ 1 3 6 9输出:4/ \7 2/ \ / \ 9 6 3 1来源:力扣(LeetCode) 链接:…

论文浅尝 | GraphIE:基于图的信息抽取框架

笔记整理:吕欣泽,南京大学计算机科学与技术系,硕士研究生。论文连接:https://arxiv.org/pdf/1810.13083.pdf发表会议:NAACL 2019摘要大多数现代信息提取(IE)系统都是作为顺序标记器实现的&#…

好产品,懂人性

好的产品无一例外,懂人性 张小龙曾经说过,产品经理要懂得抓住用户的贪、嗔、痴,培养用户对产品的粘性,就是要让用户对你的产品产生贪、嗔、痴。 贪是贪婪,嗔是嫉妒,痴是执着。 人类的贪婪、嫉妒和执著培…

LeetCode 104. 二叉树的最大深度

文章目录1. 题目信息2. 解题2.1 递归法2.2 按层遍历1. 题目信息 给定一个二叉树,找出其最大深度。 二叉树的深度为根节点到最远叶子节点的最长路径上的节点数。 说明: 叶子节点是指没有子节点的节点。 示例: 给定二叉树 [3,9,20,null,null,15,7]&…

谷歌重磅:可以优化自己的优化器!手动调参或将成为历史!?

文 | 小轶编 | 夕小瑶背景Google Brain团队发布的一篇最新论文在外网引发热议,或将成为Deep Learning发展历程上里程碑式的工作。它所讨论的,是所有AI行业者都要面对的——Deep Learning中的优化问题。也就是,如何更好地训练一个模型。深度模…

最全目标检测相关资料整理 (目标检测+数据增强+卷价神经网络+类别不均衡...)

1 小目标检测:综述:综述论文Augmentation for small object detection深度学习笔记(十)Augmentation for small object detection(翻译) 吴建明wujianning:小目标检测的增强算法 机器之心&#…

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答。来源:NAACL 2018链接:https://www.aclweb.org/anthology/N18-1020问题背景与动机问题生成的目标是将知识图谱三元组作为输入,生成自然语…

阿里P8架构师谈:Restful、SOAP、RPC、SOA、微服务之间的区别

内容大纲: 1.介绍Restful、SOAP、RPC、SOA以及微服务 2.重点谈谈SOA与微服务的区别 3.以及为什么要使用微服务架构 什么是Restful Restful是一种架构设计风格,提供了设计原则和约束条件,而不是架构,而满足这些约束条件和原则的…

微服务系列:Dubbo与SpringCloud的Ribbon、Hystrix、Feign的优劣势比较

在微服务架构中,分布式通信、分布式事务、分布式锁等问题是亟待解决的几个重要问题。 Spring Cloud是一套完整的微服务解决方案,基于 Spring Boot 框架。确切的说,Spring Cloud是一个大容器(而不是一个框架)&#xff…

经典教材《统计学习导论》现在有了Python版

文 | 张倩源 | 机器之心《统计学习导论》很经典,但用的是 R 语言,没关系,这里有份 Python 版习题实现。斯坦福经典教材《The Element of Statistical Learning》(简称 ESL)被称为频率学派的统计学习「圣经」&#xff0…