一种单独适配于NER的数据增强方法:DAGA

链接:http://www.elecfans.com/d/1468784.html

本文首先介绍传统的数据增强在NER任务中的表现,然后介绍一种单独适配于NER的数据增强方法,这种方法生成的数据更具丰富性、数据质量更高。

0

前言

在NLP中有哪些数据增强技术?这一定是当今NLP面试中的必考题了吧。在《标注样本少怎么办?》(链接:https://zhuanlan.zhihu.com/p/146777068)一文中也详细总结过这个问题。 但是,目前来看:大多数「数据增强」方法通常被用于文本分类、文本匹配等任务中,这类任务有一个共性:是“句子级别”(sentence level)的分类任务,大多数关于「文本增强」的研究也都针对这个任务。 在2020年5月的时候,JayJay突然在想:NER如何进行数据增强?有什么奇思妙想可以用上?于是我陷入沉思中......

NER做数据增强,和别的任务有啥不一样呢?很明显,NER是一个token-level的分类任务,在进行全局结构化预测时,一些增强方式产生的数据噪音可能会让NER模型变得敏感脆弱,导致指标下降、最终奔溃。 在实践中,我们也可以把常用的数据增强方法迁移到NER中,比如,我们通常采用的「同类型实体」随机替换等。但这类方法通常需要获得额外资源(实体词典、平行语料等),如果没有知识库信息,NER又该如何做数据增强呢?有没有一种单独为NER适配的数据增强方法呢? 本文JayJay主要介绍在最近顶会中、对NER进行数据增强的2篇paper:

COLING20:《An Analysis of Simple Data Augmentation for Named Entity Recognition》

EMNLP20:《DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks》

COLING20主要是将传统的数据增强方法应用于NER中、并进行全面分析与对比。 EMNLP20主要是提出了一种适配于NER的数据增强方法——语言模型生成方法:1)这种方式不依赖于外部资源,比如实体词典、平行语料等;2)可同时应用于有监督、半监督场景。 具体效果如何,我们来一探究竟吧~本文的组织结构为:

bce652b2-58b2-11eb-8b86-12bb97331649.png

1

传统的数据增强方法迁移到NER,效果如何?

bd986998-58b2-11eb-8b86-12bb97331649.png

在COLING20的paper中,作者借鉴sentence-level的传统数据增强方法,将其应用于NER中,共有4种方式(如上图所示):

Label-wise token replacement (LwTR):即同标签token替换,对于每一token通过二项分布来选择是否被替换;如果被替换,则从训练集中选择相同的token进行替换。

Synonym replacement (SR):即同义词替换,利用WordNet查询同义词,然后根据二项分布随机替换。如果替换的同义词大于1个token,那就依次延展BIO标签。

Mention replacement (MR):即实体提及替换,与同义词方法类似,利用训练集中的相同实体类型进行替换,如果替换的mention大于1个token,那就依次延展BIO标签,如上图:「headache」替换为「neuropathic pain syndrome」,依次延展BIO标签。

Shuffle within segments (SiS):按照mention来切分句子,然后再对每个切分后的片段进行shuffle。如上图,共分为5个片段: [She did not complain of], [headache], [or], [any other neurological symptoms], [.]. 。也是通过二项分布判断是否被shuffle(mention片段不会被shuffle),如果shuffle,则打乱片段中的token顺序。

论文也设置了不同的资源条件:

Small(S):包含50个训练样本;

Medium (M):包含150个训练样本;

Large (L):包含500个训练样本;

Full (F):包含全量训练集;

be1fd5fe-58b2-11eb-8b86-12bb97331649.png

由上图可以看出:

各种数据增强方法都超过不使用任何增强时的baseline效果。

对于RNN网络,实体提及替换优于其他方法;对于Transformer网络,同义词替换最优。

总体上看,所有增强方法一起使用(ALL)会由于单独的增强方法。

低资源条件下,数据增强效果增益更加明显;

充分数据条件下,数据增强可能会带来噪声,甚至导致指标下降;

2

DAGA:单独适配于NER的数据增强方法

EMNLP这篇NER数据增强论文DAGA来自阿里达摩院,其主要是通过语言模型生成来进行增强,其整体思路也非常简单清晰。

be993f7a-58b2-11eb-8b86-12bb97331649.png

DAGA的核心思路也十分清晰,就是标签线性化:即将原始的「序列标注标签」与「句子token」进行混合,也就是变成「Tag-Word」的形式,如上图所示:将「B-PER」放置在「Jose」之前,将「E-PER」放置在「Valentin」之前;对于标签「O」则不与句子混合。标签线性化后就可以生成一个句子了,基于这个句子就可以进行「语言模型生成」训练啦~是不是超级简单?!

bf17e67c-58b2-11eb-8b86-12bb97331649.png

DAGA 网络(如上图)仅仅通过一层LSTM进行自回归的语言模型训练,网络很轻,没有基于BERT做。 DAGA的一大优点就是不需要额外资源,比如同义词替换就需要一个WordNet。但是论文也考虑到了使用外部资源时的情况,比如:1)有大量无标注语料时;2)有外部知识库时;

bfe5bd54-58b2-11eb-8b86-12bb97331649.png

对于不同的3种资源条件下,具体的训练语料构建如上图所示:

对于标注语料,用[labeled]在句首作为条件标记

对于无标注语料,用[unlabeled]在句首作为条件标记;

对于知识库,对无标注语料进行词典匹配后(正向最大匹配),用[KB]在句首作为条件标记;

只要输入[BOS]+[labeled]/[unlabeled]/[KB],即可通过上述语言模型、自回归生成新的增强数据啦~ 下面我们分别对上述3种资源条件下的生成方法进行验证:2.1 只使用标注语料进行语言生成共采用4种实验设置:

gold:通过标注语料进行NER训练

gen:即DAGA,1)通过标注语料进行语言模型训练、生成新的数据:2) 过采样标注语料; 3)新数据+过采样标注语料,最后一同训练NER;

rd:1)通过随机删除进行数据增强; 2)过采样标注语料;3)新数据+过采样标注语料,最后一同训练NER;

rd*:同rd,只是不过采样标注语料。

c05f590c-58b2-11eb-8b86-12bb97331649.png

具体结果由上图展示(设置了6种不同语言数据、不同的原始标注数据量进行对比),可以看出:DAGA方式(gen)明显超过其他数据增强方法,特别是在低资源条件下(1k和2k数据量)。2.2 使用无标注语料进行语言生成共采用3种实验设置:

gold:通过标注语料进行NER训练;

wt:即弱监督方法,采用标注语料训练好一个NER模型,然后通过NER模型对无标注语料伪标生成新数据,然后再重新训练一个NER模型;

gen-ud:通过标注和无标注语料共同进行语言模型训练、生成新数据,然后再训练NER模型;

c0f47884-58b2-11eb-8b86-12bb97331649.png

由上图的红框进行对比,可以看出:DAGA方法在所有设置下、均超过了弱监督数据方法。其实弱监督方法生成的数据质量较低、噪声较大,而DAGA可以有效改善这一情况。 可以预见的是:当有大量无标注语料时,DAGA进行的NER数据增强,将有效提升NER指标。2.3 使用无标注语料+知识库进行语言生成同样也是采用3种实验设置:

gold:通过标注语料进行NER训练;

kb:从全量训练集中积累实体词典(实体要在训练集上中至少出现2次),然后用实体词典匹配标注无标注语料、生成新数据,最后再训练NER模型;

gen-kb:与kb类似,将kb生成的新数据训练语言模型,语言模型生成数据后、再训练NER模型;

c173a168-58b2-11eb-8b86-12bb97331649.png

如上图红框所示,总体上DAGA超过了kb方式,低资源条件(1k)下,kb方式还是强于DAGA。

3

DAGA为何如此有效?

c1c9bd64-58b2-11eb-8b86-12bb97331649.png

DAGA更具多样性:

如上图所示,在原始的训练集中「Sandrine」只会和「Testud」构成一个实体span,而DAGA生成的数据中,「Sandrine」会和更丰富的token构成一个实体。

此外,DAGA会生成更丰富的实体上下文,论文以相同实体mention的1-gram作为评估指标进行了统计。如下图所示,桔色代表DAGA生成的实体上下文,比原始的训练集会有更丰富的上下文。

c2120e2a-58b2-11eb-8b86-12bb97331649.png

DAGA可以有效利用无标注语料:DAGA通过无标注语料来生成有用的数据,新数据中会出现那些未在标注语料中出现的新实体。

4

总结

本文就「NER如何进行数据增强」进行了介绍:

虽然传统的数据增强方法也可用于NER中,不过,JayJay认为:传统的数据增强方法应用到NER任务时,需要外部资源,且数据增强的丰富性不足、噪音可能较大。

基于语言生成的DAGA方法是NER数据增强的一种新兴方式,再不利用外部资源时会有较好的丰富性、数据质量较好。

责任编辑:xj

原文标题:打开你的脑洞:NER如何进行数据增强 ?

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容图片侵权或者其他问题,请联系本站作侵删。 侵权投诉

原文标题:打开你的脑洞:NER如何进行数据增强 ?

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478475.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 80. 删除排序数组中的重复项 II

1. 题目 给定一个排序数组,你需要在原地删除重复出现的元素,使得每个元素最多出现两次,返回移除后数组的新长度。 不要使用额外的数组空间,你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。 来源:力扣…

技术沙龙 | 图神经网络(GNN)最新研究进展分享

由于深度学习在可推理和可解释性方面的局限性,结合图计算与深度学习的图神经网络 ( GNN ) 成为近期学术界和工业界研究的热点新方向之一,并在社交网络、推荐系统等领域得到了广泛的应用。本次技术沙龙,由北京邮电大学 GAMMA Lab 博士生纪厚业…

科研福利!国内TOP3的超算中心,免费领2000核时计算资源

长久以来,超级计算机一直是各国竞相角逐的科技制高点,也是国家综合科技实力的体现,尤其是近几年,中国和美国在超算领域的竞争已经进入“白热化”。2020年,我国超级计算机在《全球超级计算机500强榜单》中首次超越美国&…

深度学习在美团推荐平台排序中的运用

美团作为国内最大的生活服务平台,业务种类涉及食、住、行、玩、乐等领域,致力于让大家吃得更好,活得更好,有数亿用户以及丰富的用户行为。随着业务的飞速发展,美团的用户和商户数在快速增长。在这样的背景下&#xff0…

LeetCode 451. 根据字符出现频率排序(map+优先队列)

1. 题目 给定一个字符串,请将字符串里的字符按照出现的频率降序排列。 输入: "tree"输出: "eert"2. 优先队列解题 先用map统计字符出现次数再将字符何其次数插入优先队列出队 struct cmp { //写在类内也可以,写在函数里也行bool…

论文浅尝 - AAAI2020 | 小样本知识图谱补全

笔记整理 | 刘克欣,天津大学硕士链接:https://arxiv.org/pdf/1911.11298.pdf动机知识图谱对于许多下游应用(例如搜索,知识问答和语义网)至关重要。然而,现有知识图谱面临不完整的问题。知识图谱补全工作能让…

ACL 2021|美团提出基于对比学习的文本表示模型,效果提升8%

文 | 渊蒙 如寐 思睿等尽管基于BERT的模型在NLP诸多下游任务中取得了成功,直接从BERT导出的句向量表示往往被约束在一个很小的区域内,表现出很高的相似度,因而难以直接用于文本语义匹配。为解决BERT原生句子表示这种“坍缩”现象,…

Android远程调试的探索与实现

作为移动开发者,最头疼的莫过于遇到产品上线以后出现了Bug,但是本地开发环境又无法复现的情况。常见的调查线上棘手问题方式大概如下: 方法优点缺点联系用户安装已添加测试日志的APK方便定位问题需要用户积极配合,如果日志添加不全…

超硬核 ICML’21 | 如何使自然语言生成提速五倍,且显存占用减低99%

文 | 炼丹学徒编 | 小轶我们忽略掉引言和介绍,直接把工作的效果丢上来,相信就足够令自然语言生成的相关同学心动——对于任何一个已有的Transformer生成模型,只需根据本文算法更改attention的计算顺序,就可以实现成倍速度提升&…

论文浅尝 | Convolutional 2D knowledge graph embedding

笔记整理 | 孙悦,天津大学1. 介绍:知识图的链接预测是预测实体之间缺失关系的任务。先前有关链接预测的工作集中在浅,快速的模型上,这些模型可以缩放到大型知识图例如基于基于平移变换的 TransE 系列。但是,这些模型比…

sysbench在美团点评中的应用

如何快速入门数据库?以我个人经验来看,数据库功能和性能测试是一条不错的捷径。当然从公司层面,数据库测试还有更多实用的功能。这方面,美团点评使用的是知名工具sysbench,主要是用来解决以下几个问题: 统一…

[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab

[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab: ACL 2018DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled Training DataAuthorHang Yang, Yu…

论文浅尝 - ACL2020 | 通过集成知识转换进行多语言知识图谱补全

笔记整理 | 谭亦鸣,东南大学博士生概述预测图谱中缺失的事实(fact)是知识图谱构建与推理中的一个重要任务,近年来也被许多KG embedding研究的关注对象。虽然目前的KG embedding方法主要学习和预测的是单个图谱中的事实,但是考虑到KG之间不同规…

LsLoader——通用移动端Web App离线化方案

由于JavaScript(以下简称JS)语言的特性,前端作用域拆分一直是前端开发中的首要关卡。从简单的全局变量分配,到RequireJS实现的AMD模块方式,browserify/webpack实现的静态引用方式。前端的业务逻辑也从一个个精心按顺序…

ACL'21 | debug完的神经网络,如何测试是否仍然存在bug?

文 | Sherry回归测试熟悉软件工程的小伙伴们一定知道回归测试:修改了旧代码后,重新进行测试以确认修改没有引入新的错误或导致其他代码产生错误。它可以大幅降低系统测试、维护升级等阶段的成本。随着深度学习网络的不断发展,越来越多的系统都…

LeetCode 198. 打家劫舍(DP)

1. 题目 你是一个专业的小偷,计划偷窃沿街的房屋。每间房内都藏有一定的现金,影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统,如果两间相邻的房屋在同一晚上被小偷闯入,系统会自动报警。 给定一个代表每个房屋存…

论文浅尝 - ACL2020 | 利用常识知识图对会话流进行显式建模

笔记整理 | 韩振峰,天津大学硕士链接:https://arxiv.org/pdf/1911.02707.pdf动机人类对话自然地围绕相关概念发展,并分散到多跳概念。本文提出了一种新的会话生成模型——概念流(ConceptFlow),它利用常识知识图对会话流进行显式建…

百度NLP、视频搜索团队招聘算法实习生!

致力于连接最靠谱的算法岗与最强的求职者招聘贴投放请联系微信xixiaoyao-1问答工作职责研发文本问答、多模态问答、阅读理解、端到端问答等技术,利用NLP理论和方法解决实际问题结合数据、算力优势,在百度的搜索、凤巢等产品和业务实现技术落地研究问答、…

人工智能在线特征系统中的数据存取技术

主流互联网产品中,不论是经典的计算广告、搜索、推荐,还是垂直领域的路径规划、司机派单、物料智能设计,建立在人工智能技术之上的策略系统已经深入到了产品功能的方方面面。相应的,每一个策略系统都离不开大量的在线特征&#xf…

论文浅尝 - ACL2020 | IntKB: 一种交互式知识图谱补全框架

笔记整理 | 谭亦鸣,东南大学博士来源: ACL 2020链接:https://www.aclweb.org/anthology/2020.coling-main.490.pdf资源:https://github.com/bernhard2202/intkb.概述知识库作为许多下游NLP任务的资源基础,存在的一个普遍缺陷是它…