【ACL2023获奖论文】比你想的更弱:对弱监督学习的批判性审视

【ACL 2023获奖论文】主题论文奖:7.Weaker Than You Think: A Critical Look at Weakly Supervised Learning

  • 写在最前面
  • 引言
  • 正文
    • 问题1:对WSL来说,clean data是否必要?
    • 问题2:WSL需要多少的clean data?
    • 问题3:在少量clean data下,WSL能战胜Fine-Tuning吗?
    • 问题4:WSL可否从Fine-Tuning中受益?
      • 动机
      • 思路
      • 结论
    • 问题5:是什么让FTw + CFT有效?
  • 研究建议
  • 局限性


请添加图片描述

🌈你好呀!我是 是Yu欸
🌌 2024每日百字篆刻时光,感谢你的陪伴与支持 ~
🚀 欢迎一起踏上探险之旅,挖掘无限可能,共同成长!

前些天发现了一个人工智能学习网站,内容深入浅出、易于理解。如果对人工智能感兴趣,不妨点击查看。

写在最前面

在做论文工作时,发现一个问题:不清楚好的论文框架是什么样的,所以来拜读一下【ACL2023获奖论文】,提升一下品味

今天阅读的是【ACL 2023获奖论文】主题论文奖:7.Weaker Than You Think: A Critical Look at Weakly Supervised Learning
标题:比你想的更弱:对弱监督学习的批判性审视
论文地址:https://aclanthology.org/2023.acl-long.796/

参考:ACL 2023 | 对验证集的一场重新审视 - 弱监督学习比你想象的更“弱”
这位博主将实验结果梳理的更清晰了,后文中的正文部分,为抽选关键帧的笔记


一些不成熟的想法

大框架上:
1、idea切入点是,平时没有特别关注到,但是一说起来,又发现确实很合理的方向

2、算是特别的综述类文章?实验工作量很大
论文结构设计如下

在这里插入图片描述

3、存在一些数学公式,但是很贴切

在这里插入图片描述

创新方向上:

目前大语言模型的许多研究,在调优prompt上也需要依赖干净的验证集,包括:
1、用来挑选few-shot examples
2、设置self-consistency的sample数量
3、调优prompt写法和COT等

使用大语言模型来做“弱”标注时,减少、甚至完全消除对clean validation set的依赖,从而提升WSL的实用性


今天阅读的是【ACL 2023获奖论文】主题论文奖:7.Weaker Than You Think: A Critical Look at Weakly Supervised Learning
标题:比你想的更弱:对弱监督学习的批判性审视
论文地址:https://aclanthology.org/2023.acl-long.796/

内容:弱监督学习是一种在资源有限的情况下训练机器学习模型的流行方法。它允许使用来自各种弱数据源的包含噪声的标注来训练模型,而不是要求昂贵的高质量人工标注。最近,许多复杂的方法被提出来进行鲁棒的弱监督学习训练,并报告了令人印象深刻的结果。

在本文中,作者重新审视了这些方法的设置,发现这些方法带来的好处被严重高估了。具体来说,作者发现现有的弱监督学习方法高度依赖于可获得的包含干净标注的验证样本,而这些样本可以被更有效地利用,只需简单地在它们上进行训练即可。在使用这些干净标注进行训练后,使用这些复杂方法的优势大多被抹去。即使减少可用干净数据量至每个类别仅5个样本,这仍然成立,使这些方法变得不实用。为了理解弱监督学习的真正价值,作者全面分析了各种NLP数据集和任务,以确定弱监督方法何时以及为何有效。

引言

弱监督学习的初衷是减少对标注样本的依赖,但ACL 2023 的获奖Paper[1]指出,弱监督学习太依赖干净的验证集,与初衷相违,且其利用验证集的效率较低,赶不上Fine-Tuning,进而给出警示:前人的弱监督学习研究脱离了实际,需要及时纠偏。

笔者认为,这篇论文反映了对验证集作用的重新审视,很值得大语言模型的研究者考虑。你所用来调优prompt的验证集,是否脱离了Few-Shot Learning的设定?是否有其他更高效的使用验证集的方式呢? 这些问题也应该被大语言模型的研究者回答。

正文

问题1:对WSL来说,clean data是否必要?

实验结果,在不使用clean labels作为验证集时,WSL失效了,效果和随机选参数差不多,并且都没有带来超越weak labels的泛化性。

因此,问题1的答案:目前的WSL方法,一定需要clean data作为验证集。
在这里插入图片描述

问题2:WSL需要多少的clean data?

实验思路:逐渐增加validation sample的数量,看WSL方法的效果变化。

从实验结果来看,很少的validation sample就够了,所需的量级:分类任务上每类~30个样本,NER任务上~200个句子。

因此,问题2的答案是:少量的clean data作为验证集就足够了。

在这里插入图片描述

问题3:在少量clean data下,WSL能战胜Fine-Tuning吗?

实验思路:对比WSL和Fine-Tuning(简称FT)的效果,同时作者还对比了Adapter、LoRA和BiFit三种PEFT方法。

从实验结果来看,分类任务的每类~10个样本,NER任务~50个句子时,FT的效果可以超过WSL。

并且作者额外说明,基于prompt + LLM可以取得更好的效果,本文的方法只是效果下限。

因此,问题3的答案是:当每个类有超过10个样本时,WSL相比FT就没有了优势。
在这里插入图片描述

问题4:WSL可否从Fine-Tuning中受益?

动机

先解释一下作者 实验的动机

当使用WSL方法时,可以获得两类训练数据:

  • weakly labeled data,源自各种弱标注器;
  • clean labeled data,人标注的结果,来源于验证集。

前文在比较WSL和FT时,采取的设定是:

  • WSL只在weakly labeled data上进行训练,在clean labeled data上验证;
  • FT只基于少量的clean labeled data进行训练,而不进行model selection。

一个自然的扩展思路是,可否结合两类数据,最大化模型效果?

思路

作者的实验思路是:将weakly labeled data作为Pre-training样本,尝试WSL + Continual Fine-Tuning(简称CFT)的效果。

结论

实验结论如下:

  • CFT的确可以提升WSL的效果,尤其在clean data非常少,即分类任务每类~5样本、NER~50个句子时,可明显好于FT
  • 随着clean样本变多,CFT的效果会更好,但当达到分类任务每类~50样本、NER~500句子的量级时,CFT相比FT的优势明显减小,已不足1%,考虑到WS也需要设计弱标注器,这可能是得不偿失的
  • 使用CFT会减小不同WSL算法间的差异,效果最好的反而是最简单的FTw,进一步说明了现有WSL方法的弱

补充:FTw指在weak labeled data上,进行Fine-Tuning后的模型,可以视为WSL方法的baseline,与前文提到的FT方法有区分。

因此,问题4的答案是:结合WSL与CFT,可以发挥WSL的作用,但随着样本增多,增益迅速下降,使用WSL的必要性也显著减少;同时在这种方法下,现有的WSL方法无法超过FTw这个简单的baseline,还是“弱”。
在这里插入图片描述

问题5:是什么让FTw + CFT有效?

作者又提出两个延伸的子问题:

1、FTw仅基于weakly labeled data训练,是如何抵抗标注中的bias的?
2、CFT是如何进一步减少bias的?

针对子问题1,作者将不同大小的PLMs(Pre-trained Language Models,一般指BERT、RoBERTa等模型)作为backbone,在FTw的设定下进行了实验。

结论如下:

1、在更多数据上预训练的、更大的PLM更能够减少weakly labeled data中的bias,换言之,backbone也是越大越好;
2、在学习的早期,FTw模型在clean labeled data上的效果非常好,如果采取恰当的early stopping,那么模型的泛化性效果相当不错。

用论文作者的话说:pre-training provides the model with an inductive bias to seek more general linguistic correlations insted of superficial correlations from the weak labels。
预训练为模型提供了一个归纳偏差,以寻求更一般的语言相关性,而不是从弱标签中寻找肤浅的相关性。

在这里插入图片描述
针对子问题2,作者调整CFT过程中clean样本的标签,手动控制这些样本标签与其本要有的weak label之间的一致性,即agreement ratio,看模型的效果差异。

直觉来看,当agreement ratio = 100%时,CFT阶段的训练样本的标签也是weak label,CFT等同于继续进行FTw,此时是无法进一步减少bias的。

根据实验结果,当agreement ratio > 70%时,模型效果均有明显下降。最佳的agreement ratio约为50%。这说明,在CFT中需要包含一些与weak label矛盾的sample,也就是弱标注器难以标对的sample,这有助于模型在纠错中学习,从而进一步去除弱标注中的bias。

因此,两个子问题的答案分别是:

1、FTw之所以可以抵抗bias,是因为使用了PLM
2、CFT之所以进一步减少bias,是因为CFT阶段可以从纠错过程中学习,从而进一步减少bias

在这里插入图片描述

研究建议

从实验结果来看,目前的WSL方法的确脱离实际,有过度优化的问题。因此,在论文最后,作者很客观地对WSL研究者提出了一些建议:

  • 报告model selection的策略,并着重说明研究者提出的WSL方法有多依赖于clean data
  • 介绍FSL方法需要多少clean data可以取得WSL的效果。如果数千条weakly labeled data的效果和几十条clean data的效果接近,那么WSL就不是最佳选择
  • 如果提出的WSL方法需要额外的clean data,例如用于validation,那么FTw + CFT应该作为baseline进行比较

局限性

同时作者也提到了论文的局限性:

  • 有些WSL方法[5]可使用数据集的先验知识来调参,此时可不依赖额外的clean data
  • 论文研究的是英文任务,这一语种下有很强的PLMs,但有些语种可能没有,此时WSL可能更有效
  • WRENCH数据集中,weak labels通过简单的规则得到(例如正则、词典等),但是弱标注器可以更强,例如使用LLM来标注[6](笔者也有讲解文章)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/753625.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

elasticsearch基础学习

elasticsearch简介 什么是elasticsearch elasticsearch(简称es),其核心是 Elastic Stack,es是一个基于 Apache Lucene(TM)的开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据…

如何在开放麒麟系统安装cpolar内网穿透实现公网环境下SSH远程连接

文章目录 1. 安装SSH服务2. 本地SSH连接测试3. openKylin安装Cpolar4. 配置 SSH公网地址5. 公网远程SSH连接小结 6. 固定SSH公网地址7. SSH固定地址连接 openKylin是中国首个基于Linux 的桌面操作系统开发者平台,通过开放操作系统源代码的方式,打造具有自…

裸金属租赁的意义

裸金属,这个名词听起来好“硬核”,如果对于一个新手来讲,怎么也不会将这个概念和IT行业、计算机、服务器等内容进行关联,它可能更应该是工业领域的一种产品或者物质,可真正关联到其实际概念恰恰与当前的主流行业如&…

论文阅读——Align before Fuse

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation image-text contrastive learning(ITC)用在单模态,masked language modeling (MLM) and image-text matching (ITM) 用在多模态。 单模态编码器的表示上引入了中间图像…

机器学习中的基础问题总结

介绍:总结面试经常问到的一些机器学习知识点(必会🌟) 基础知识点梳理 模型评估一、L1、L2正则化1、L1正则与L2正则有何不同?2、为什么正则化可以防止过拟合?3、为什么L1正则具有稀疏性?&#xf…

JMeter之IP欺骗技术(模拟不同的IP地址并发请求)

我们在做压力测试时,有这样的场景和需求,希望模拟的批量用户来自不同的IP地址。如果小伙伴用LR是很容易实现的,用IP欺骗即可实现。那么对于用JMeter小伙伴是不是就不能享受这一技术了呢,答案是否定的,JMeter一样可以实…

【晴问算法】入门篇—贪心算法—整数配对

题目描述 有两个正整数集合S、T,其中S中有n个正整数,T中有m个正整数。定义一次配对操作为:从两个集合中各取出一个数a和b,满足a∈S、b∈T、a≤b,配对的数不能再放回集合。问最多可以进行多少次这样的配对操作。 输入描…

Elasticsearch:调整近似 kNN 搜索

在我之前的文章 “Elasticsearch:调整搜索速度”,我详细地描述了如何调整正常的 BM25 的搜索速度。在今天的文章里,我们来进一步探讨如何提高近似 kNN 的搜索速度。希望对广大的向量搜索开发者有一些启示。 Elasticsearch 支持近似 k 最近邻…

一、yocto 编译raspberrypi 4B并启动

yocto 编译raspberrypi 4B并启动 yocto 编译raspberrypi 4B并启动环境准备代码下载编译及配置烧录 yocto 编译raspberrypi 4B并启动 本篇文章为基于raspberrypi 4B单板的yocto实战系列的开篇之作。 环境准备 最近到手一个树莓派4B,准备拿来玩一玩,下面…

Docker部署Django项目——基础

1.服务器配置 1.1centos7 系统的安装 centos-7-isos-x86_64安装包下载) VMware安装自定义配置 选择对应的系统镜像 一般选择内核4核、内存8g、硬盘80g 相关配置 1.2.网络配置 1.2.1查看win电脑虚拟机VMnet8的ip 使用ipconfig查看虚拟机的ip 1.2.2配置虚拟机VMnet8的ip…

152.乐理基础-广义的、实际的原位与转位、转位的意义

内容参考于:三分钟音乐社 上一个内容:151.和弦固定标记法(二)转位和弦,斜杠(slash)和弦 上一个内容里练习的答案:斜杠左边的有多个写法,如果与下图不一样,那…

小白向-使用git实现不同服务器改动的同步

背景 深度学习项目,已有可运行的backbone,已将此项目在github建库。 需要使用不同分支进行不同改动的测试;有两台服务器可供程序运行; 项目需求 以github云端仓库为媒介,实现不同服务器改动无痛关联。维护项目代码…

WRF模型安装教程(ububtu系统)-- III.WRF和WPS模型的安装

六、WRF模型的安装 # 进入Build_WRF文件夹 cd Build_WRF # 下载WRFV3.9.1 wget https://www2.mmm.ucar.edu/wrf/src/WRFV4.0.TAR.gz # 解压WRF安装包并进入 tar -zxvf WRFV4.0.TAR.gz cd WRF # 安装WRF ./configure 出现如下选项: 选择34, 这里是让你选…

FREERTOS任务调度和切换

我们已经学会了 FreeRTOS 的任务创建和删除,挂起和恢复等基本操作,并且也学习了分析FreeRTOS 源码所必须掌握的知识:列表和列表项。但是任务究竟如何被创建、删除、挂起和恢复的?系统是怎么启动的等等这些我们还不了解&#xff0c…

windows使用docker运行TP6使用swoole内置http服务

1,下载docker-Windows客户端 下载地址:https://www.docker.com/products/docker-desktop docker --version #查看docker版本 docker-compose --version #查看docker-compose版本 2,安装环境 使用一键安装包:https://gitee.com/yes…

汇总全网免费API,持续更新(新闻api、每日一言api、音乐。。。)

Public&FreeAPI 网址:apis.whyta.cn (推荐) UomgAPI 网址:https://api.uomg.com 教书先生 网址:https://api.oioweb.cn/ 山海API https://api.shserve.cn/ 云析API铺 https://api.a20safe.com/ 韩小韩…

深度学习pytorch——基本数据类型创建Tensor(持续更新)

声明:本深度学习笔记基于课时18 索引与切片-1_哔哩哔哩_bilibili学习而来 All is about Tensor 定义:Tensors are simply mathematical objects that can be used to describe physical properties, just like scalars and vectors. In fact tensors a…

day6 3/18

2.试编程: 封装一个动物的基类,类中有私有成员:姓名,颜色,指针成员年纪 再封装一个狗这样类,共有继承于动物类,自己拓展的私有成员有:指针成员:腿的个数(整…

JAVA实战开源项目:天然气工程业务管理系统(Vue+SpringBoot)

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块三、使用角色3.1 施工人员3.2 管理员 四、数据库设计4.1 用户表4.2 分公司表4.3 角色表4.4 数据字典表4.5 工程项目表4.6 使用材料表4.7 使用材料领用表4.8 整体E-R图 五、系统展示六、核心代码6.1 查询工程项目6.2 工程物资…

HackTheBox WifineticTwo

靶机信息系统LinuxIP/难度Medium状态Active/Reason 4地址https://app.hackthebox.com/machines/WifineticTwo 端口扫描 ┌──(st4rry🚀Kali)-[/mnt/e/htb/WifineticTwo] └─\ ✨ nmap -p22,8080 -sC -sV 10.129.41.69 -oN cv Starting Nmap 7.94 ( https://nma…