ACL’22 | 为大模型定制的数据增强方法FlipDA,屠榜六大NLU 数据集

本文转载自公众号夕小瑶的卖萌屋,专业带逛互联网算法圈的神操作

-----》我是传送门

关注后,回复以下口令:

回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读)

回复【入群】:加入卖萌屋深度学习/NLP/CV/搜广推等方向的技术交流与内推社群(大V、顶会审稿人云集)

回复【0511】:领取算法岗面试手册(刷offer神器)

回复【0424】:领取刷论文神器(挖掘每日、每月必刷重磅论文)

文 | ZenMoore
编 | 小轶

今天由一篇清华大学发表于 ACL'22 的最新论文说起,一起探讨一下:大模型时代,我们该如何进行数据增强

大家可能都多少了解一些传统的数据增强方法,比如回译、对抗生成等等。但考虑到这些方法提出的年份较早,它们只在一些传统的(如今看来比较弱的)基准模型上证明有效。而且,大多数据增强的工作也都只针对一些比较简单的任务场景进行实验,比如简单的句子分类任务。

时过境迁,在如今大模型当道的时代背景下,我们可能得重新审视一下现有的数据增强方法。要知道,这些大规模语言模型性能远超传统模型;它们在简单的分类数据集上,刷到95%以上的准确率完全不在话下。今天要分享的这篇文章中,作者也通过实验证明了:对于大规模预训练模型,采用的传统数据增强方法最多只能获得极小的边际收益,甚至有时会使性能下降

为此,作者想要探究:针对大规模语言模型,在较为困难的任务场景下,有什么更为有效且鲁棒的数据增强方法吗?所谓有效(effectiveness) ,就是要能显著提升性能。所谓 鲁棒(robustness),就是要能在所有场景下都能够稳定提升。

简单来说,本文的核心观点在于:标签翻转 (label-flipped)的增强样本对大模型的性能提升最为明显。基于此,他们提出了数据增强方法 FlipDA。

标签翻转:即增强后的新样本标签与原样本的标签不同。

论文标题
FlipDA: Effective and Robust Data Augmentation for Few-Shot Learning

论文作者
Jing Zhou, Yanan Zheng, Jie Tang, Jian Li, Zhilin Yang

论文链接
http://keg.cs.tsinghua.edu.cn/jietang/publications/ACL22-Zhou-et-al-FlipDA.pdf

代码链接
https://github.com/zhouj8553/FlipDA

标签翻转的增强样本

作者首先通过人工设计了少量标签翻转 (label-flipped) 的数据样本和标签保留 (label-preserved) 的样本,然后比较两者在多个任务上的效果:

f29c16360fbf0f5a69d07640f82e4385.png

结果发现,标签翻转在多个任务上,竟然能超出将近 10 个点!虽然这部分实验只采用了一小部分人工设计的增强样本,结论有一定局限性,但显然还是值得进一步分析和研究的。

经过分析,作者认为标签保留的数据增强主要有两个问题:

(1) 数据增强导致语法错误(这一点尤其重要)

(2)数据增强导致关键信息丢失

作者认为,这是由于标签翻转的增强样本,更能够使模型学习到哪些才是文本中的关键部分。

258b64b22cb86ca115bebdeebc41b107.png
▲标签翻转的增强样本示例

总之,基于以上实验结果和分析,作者认为可以假设:相比于标签保留的数据增强方式,标签翻转的方式更加有效且鲁棒。于是,他们根据这一假设提出了 FlipDA 的数据增强方法,并进行了大量实验分析。

FlipDA

5b0b296f0b9d1f250dd0d8a1bbc2456e.png

  1. 首先使用 BERT 等训练一个标签分类器

  2. 然后,使用 T5 模型生成新的增强数据:将使用类似于[1]中的 prompt 的方式拼接起来作为 input, 随机 mask 掉一些 input tokens, 使用 T5 模型预测这些 mask 从而生成新的样本(这种方法称为:Pattern-based Data Cloze)。这样,对于每个训练样本 ,可以生成一个新样本集合

  3. 在分类器 的帮助下筛选新样本:对于原样本 , 我们有了新样本集, 这个 里面包含了一些标签翻转数据(即:), 我们分类器 把它们挑出来得到

    402 Payment Required

    。最后再挑出置信度最高的那部分 ,就是针对原样本 生成的增强样本。

实际操作中,除了标签翻转的增强数据,再加少量标签保留的增强数据也是有益的。

  1. 使用原样本+增强样本重新训练分类器。

实验

实验任务

实验主要在 FewGLUE([1], 也就是 SuperGLUE 的 few-shot 版本) 上进行。包含 question answering, textual entailment, co-reference resolution, causal reasoning and word sense disambiguation 等 7 项任务。

Baseline

  1. 同义词替换:使用 WordNet 中的同义词替换

  2. KNN 替换:使用 GloVe 选择最相似的单词之一进行替换

  3. EDA(Easy Data Augmentation) : 同时使用同义词替换、随机插入、随机置换、随机删除

  4. 回译(back translation)

  5. TinyBERT : 使用 BERT 预测出的 token 或者 GloVe 导出的词汇进行替换

  6. T5-MLM : 和本文方法大体相同,但是该方法是标签保留的数据增强,而且没有后面的筛选步骤

  7. MixUP : 在特征空间进行增强(如采用特征空间中两个样本之间的线性插值)

模型

  1. ALBERT-xxlarge-v2

  2. DeBERTa-xxlarge-v2

评测指标

  1. 有效性:accuracy,f1, em (exact-match)

  2. 鲁棒性:MaxDrop (MD)

这里作者提出了 MaxDrop 专门用来衡量鲁棒性:

对于多个任务 、待测方法 method 以及 baseline :

402 Payment Required

这个值越小,代表模型越鲁棒。

对比实验

5b404ffe92ed0f3bbde9d1d2ce23ba23.png

可以看到,FlipDA 方法无论在有效性上还是鲁棒性上都有 SOTA 的性能。

消融实验

FlipDA 主要核心是下面两步:

  1. Pattern-based Data Cloze:本文采用该方法生成增强样本。

  2. 使用分类器进行数据筛选。

下面分别进行消融实验:acc0a7cbeccf7ae0cf39efec0564a3b7.png

可以看到,

  1. Pattern-based Data Cloze 在所有任务上都是有效的,因为它可以有效减少语法错误,更加兼容标签翻转方式。

  2. 分类器筛选在大多数任务上有效,但是对于下面这些任务或增强样本生成方式,需要另外的思考:

  • 使用 BT (回译)数据进行增强,缺少数据多样性,使用分类器筛选会进一步降低多样性,因此不一定有效

  • 对于词义消歧或者因果推理任务,因为需要预测多个 tokens, 所以生成标签翻转数据会更加困难一些,也不一定有效。

另外,标签翻转+标签保留相比于只使用标签保留的数据增强具有更好的效果:4fadaaff581104c5184aaaac780fc100.png

标签翻转的方向

5fa598b332aafec5f967c73ba56aaea1.png

标签翻转的方向也是需要考虑的点,比如对于是否类的问答任务,生成答案为“否”的数据相对更加容易一些。但是,只有同时具有多个方向的标签翻转增强数据,才更有可能超越 baseline 的性能。

样本选择策略

  1. Default : 即上文所述的样本选择方法。

  2. Global TopK : 选择概率最大的前 K 个样本

  3. Global TopP : 选择概率大于阈值 P 的样本

  4. Diverse TopK : 先在每个原样本对应的增强样本中选择 top-1, 然后依次选择 top-2, top-3 等等,一直选到 top-k,这个策略主要出于原样本上的数据平衡的考量。

655773c512dbc9cb571396bcc1a54df3.png

实验表明,默认策略或者 Diverse TopK 更好一些。

写在后面

不得不说,这种标签翻转的数据增强方法,其实和对比学习多少有些神似。只不过,前者是在数据端进行对比增强,后者更多的是在损失端进行对比增强。

也许,这会给我们发扬光大对比学习思想带来新的启发~ 也会促进我们思考更加适配于大模型的一些训练、数据增强策略。

 本文转载自公众号夕小瑶的卖萌屋,专业带逛互联网算法圈的神操作

-----》我是传送门

关注后,回复以下口令:

回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读)

回复【入群】:加入卖萌屋深度学习/NLP/CV/搜广推等方向的技术交流与内推社群(大V、顶会审稿人云集)

回复【0511】:领取算法岗面试手册(刷offer神器)

回复【0424】:领取刷论文神器(挖掘每日、每月必刷重磅论文)

15cd4fffe9d0023fa3e5e7bcae48bdd0.png萌屋作者:ZenMoore

北航本科生🧐,爱数学爱物理爱 AI🌸 想从 NLP 出发探索人工认知人工情感的奥秘🧠🤖!个人主页🌎 zenmoore.github.io 知乎🤔 ZenMoore, 微信📩 zen1057398161 嘤其鸣矣,求其友声✨!

作品推荐

  1. 一文跟进Prompt进展!综述+15篇最新论文逐一梳理

  2. 图灵奖大佬+谷歌团队,为通用人工智能背书!CV 任务也能用 LM 建模!

  3. 以4%参数量比肩GPT-3!Deepmind 发布检索型 LM,或将成为 LM 发展新趋势!后台回复关键词 417c122b70d2d560f141de2273eed09d.png

[1] T. Schick and H. Schutze. It’s not just size that matters: Small language models are also few-shot learners. ArXiv, abs/2009.07118, 2021

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477475.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

技术动态 | 面向可解释性的知识图谱推理研究

导读:本次演讲的主题是面向可解释性的知识图谱推理研究,报告分为以下 5 个部分:研究背景前沿进展研究动机近期研究研究展望分享嘉宾|万国佳 武汉大学 计算机学院 博士后编辑整理|xiaomei出品平台|DataFunTa…

LeetCode 1332. 删除回文子序列

1. 题目 给你一个字符串 s,它仅由字母 ‘a’ 和 ‘b’ 组成。每一次删除操作都可以从 s 中删除一个回文 子序列。 返回删除给定字符串中所有字符(字符串为空)的最小删除次数。 「子序列」定义:如果一个字符串可以通过删除原字符…

Spring Cloud源码分析(四)Zuul:核心过滤器

通过之前发布的《Spring Cloud构建微服务架构(五)服务网关》一文,相信大家对于Spring Cloud Zuul已经有了一个基础的认识。通过前文的介绍,我们对于Zuul的第一印象通常是这样的:它包含了对请求的路由和过滤两个功能&am…

预训练再次跨界!百度提出ERNIE-GeoL,地理位置-语言联合预训练!

源 | 百度NLP本文介绍『文心大模型』的一项最新工作:“地理位置-语言”预训练模型ERNIE-GeoL。论文链接:https://arxiv.org/abs/2203.09127实践中的观察近年来,预训练模型在自然语言处理、视觉等多个领域都取得了显著效果。基于预训练模型&am…

LeetCode 1333. 餐厅过滤器(Lambda排序)

1. 题目 给你一个餐馆信息数组 restaurants,其中 restaurants[i] [idi, ratingi, veganFriendlyi, pricei, distancei]。你必须使用以下三个过滤器来过滤这些餐馆信息。 其中素食者友好过滤器 veganFriendly 的值可以为 true 或者 false,如果为 true …

Spring Cloud实战小贴士:Zuul处理Cookie和重定向

由于我们在之前所有的入门教程中,对于HTTP请求都采用了简单的接口实现。而实际使用过程中,我们的HTTP请求要复杂的多,比如当我们将Spring Cloud Zuul作为API网关接入网站类应用时,往往都会碰到下面这两个非常常见的问题&#xff1…

论文浅尝 | Language Models (Mostly) Know What They Know

笔记整理:程思源、梁孝转,浙江大学在读硕士,研究方向为知识图谱的表示学习,自然语言处理,预训练对于一个语言模型,我们最终希望得到一个“诚实”的人工智能系统,即语言模型需要准确并且忠实地评…

百度AI技术盛宴来了!大咖齐聚解读CV/NLP/跨模态大模型技术!

随着人工智能步入工业大生产阶段,AI大模型正在加速走出实验室,在全球范围内逐步实现产业落地应用的突破。自2020年至今,越来越多的科技巨头和科研机构参与其中。去年12月,百度发布了全球首个知识增强千亿级大模型——鹏城-百度文心…

Spring Cloud实战小贴士:健康检查

今天在博客的交流区收到一条不错的问题,拿出来给大家分享一下。具体问题如下: 因为项目里面用到了redis集群,但并不是用spring boot的配置方式,启动后项目健康检查老是检查redis的时候状态为down,导致注册到eureka后项…

恕我直言,你的模型可能并没看懂 prompt 在说啥

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

开源开放 | 区域供冷供热系统及空调系统知识图谱

OpenKG地址:http://openkg.cn/dataset/less开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:浙江大学(赵阳,李婷婷,章超波)1、背景区域供冷供热系统及空调系统领域涉及知…

LeetCode 1334. 阈值距离内邻居最少的城市(最短路径Dijkstra)

1. 题目 有 n 个城市,按从 0 到 n-1 编号。给你一个边数组 edges,其中 edges[i] [fromi, toi, weighti] 代表 fromi 和 toi 两个城市之间的双向加权边,距离阈值是一个整数 distanceThreshold。 返回能通过某些路径到达其他城市数目最少、且…

五个同事想计算他们的平均工资,但公司不让吐露薪资,如何实现?

源 | Xpecya知乎大家好我是卖萌酱。昨天在知乎上刷到一个很有意思的问题:“五个同事决定计算他们的平均工资,在大家互相不告诉薪水的情况下,如何才能做到这一点?”。确实互联网公司是不让员工讨论薪资的,但通过一些神操…

基于Consul的分布式信号量实现

本文将继续讨论基于Consul的分布式锁实现。信号量是我们在实现并发控制时会经常使用的手段,主要用来限制同时并发线程或进程的数量,比如:Zuul默认情况下就使用信号量来限制每个路由的并发数,以实现不同路由间的资源隔离。 信号量(…

图谱实战 | 图视角下的信息抽取技术研究

导读:本次分享题目为《图视角下的信息抽取技术研究》,主要介绍:研究背景和意义国内外研究现状研究目标与内容主要成果与创新之处完成项目及发表论文情况分享嘉宾|郁博文博士 达摩院 算法专家编辑整理|王露出品平台&…

LeetCode 1335. 工作计划的最低难度(DP)

1. 题目 你需要制定一份 d 天的工作计划表。工作之间存在依赖&#xff0c;要想执行第 i 项工作&#xff0c;你必须完成全部 j 项工作&#xff08; 0 < j < i&#xff09;。 你每天 至少 需要完成一项任务。工作计划的总难度是这 d 天每一天的难度之和&#xff0c;而一天…

CCKS-面向数字商务的知识图谱比赛重磅上线,奖金等你来拿!

​CCKS 2022面向数字商务的知识图谱评测赛题介绍阿里巴巴商品数据规模庞大&#xff0c;商品知识图谱为海量异构的商品数据的组织、管理和利用提供了有效的方式。商品数据模态丰富&#xff0c;动态性高&#xff0c;数据存在噪声&#xff0c;这些都对商品的认知和理解带来了巨大挑…

基于Consul的分布式锁实现

我们在构建分布式系统的时候&#xff0c;经常需要控制对共享资源的互斥访问。这个时候我们就涉及到分布式锁&#xff08;也称为全局锁&#xff09;的实现&#xff0c;基于目前的各种工具&#xff0c;我们已经有了大量的实现方式&#xff0c;比如&#xff1a;基于Redis的实现、基…

LeetCode 1289. 下降路径最小和 II(DP)

1. 题目 给你一个整数方阵 arr &#xff0c;定义「非零偏移下降路径」为&#xff1a;从 arr 数组中的每一行选择一个数字&#xff0c;且按顺序选出来的数字中&#xff0c;相邻数字不在原数组的同一列。 请你返回非零偏移下降路径数字和的最小值。 示例 1&#xff1a; 输入&a…

警惕“不续签劳动合同”式裁员

文 | 是小酒呀源 | 知乎正文内容来源于作者 是小酒呀知乎&#xff0c;原文链接&#xff1a;https://zhuanlan.zhihu.com/p/499838511没想到裁员还有不续约这招&#xff1f;&#xff01;&#xff01;3月14日一大早&#xff0c;leader叫我去会议室&#xff0c;进入会议室后&#…