论文 | Evaluating the Robustness of Discrete Prompts

        论文《Evaluating the Robustness of Discrete Prompts》深入探讨了离散提示(Discrete Prompts)的鲁棒性,即离散提示在自然语言处理任务中面对不同扰动时的表现。研究特别关注离散提示在自然语言推理(NLI)任务中的表现,并在一些基准数据集上测试了其对扰动的敏感性。本文主要分析了AutoPrompt (AP) 与人工编写提示(MP)在鲁棒性方面的差异。

1. 研究背景

        预训练语言模型(PLM)已在诸如情感分类和自然语言推理等NLP任务中被广泛应用。传统上,手动编写的提示有助于模型理解任务,但手动提示往往无法覆盖所有的场景,尤其在数据稀缺的情况下更显得不够灵活。自动学习的离散提示,如AutoPrompt (AP),通过少量训练样本生成提示,尽管能取得不错的表现,但这些自动提示常包含不符合常规语法的字符或拼写错误,从而引发了人们对其鲁棒性的质疑。

2. 研究方法

论文采用了多个实验来评估离散提示的鲁棒性,通过在提示上引入不同类型的扰动,包括:

  • 提示词的重新排序:随机打乱提示中的词序。
  • 词删除实验:从提示中删除部分词。
  • 跨数据集测试:在不同数据集之间迁移训练所得的提示,评估其跨数据集的泛化性。
  • 对抗性扰动:人为修改推理句子以观察提示在标签不变和标签变动情况下的表现。

3. 实验设计与数据集

        本研究以RoBERTa-large作为模型基础,通过AutoPrompt (AP)、手动提示 (MP)、和Head-based Fine-Tuning (HFT) 三种方法进行测试。实验使用了CommitmentBank (CB) 和 Multi-Genre Natural Language Inference Corpus (MNLI) 两个自然语言推理数据集,以确保实验的公平性与结论的可复现性。

        鲁棒性评估指标:通过准确率下降率(RoD)来衡量模型的鲁棒性。RoD越小,表明模型对扰动的鲁棒性越强。

4. 实验结果与分析

4.1 数据集规模对模型的影响

        随着训练样本数量的增加,MP的准确率普遍优于AP。尤其在CB数据集中,当样本量为200时,MP的准确率达到92.7%,而AP仅为54.2%。这表明AP对数据集的依赖性较强,其在不同任务或数据集上的表现差异显著。

4.2 提示词的重新排序

        实验显示,AP在词序发生变化时表现出较大的准确率下降。例如,在CB数据集中,AP的准确率下降了约14%,而MP仅下降约2%。这说明AP自动生成的离散提示对词序的依赖性较高。

4.3 词删除实验

        在AP和MP的提示中分别删除部分提示词,结果发现删除单词对AP的影响较大。尤其在CB数据集中,AP表现出更高的RoD值,而在MNLI数据集上AP的表现则相对较为稳健。这表明AP的鲁棒性不仅取决于提示词的顺序,还与数据集本身有较大关联。

4.4 跨数据集测试

        在跨数据集测试中,AP和MP的泛化性较差,尤其是从CB到MNLI的数据集迁移中,RoD值较高。这表明MNLI数据集更适合作为通用自然语言推理任务的微调数据集,而AP训练出的提示在不同数据集间表现出明显的适应性不足。

4.5 对抗性扰动

        在对抗性扰动下,AP比MP表现出更好的鲁棒性,特别是在标签改变的情况下。即便如此,当输入句子发生细微变化时,AP与MP的准确率均出现显著下降。这意味着当前的离散提示方法尚不能抵御复杂的对抗性扰动。

5. 结论

        本文揭示了离散提示在面对不同扰动时的脆弱性,尤其是在提示词顺序和跨数据集泛化性方面存在显著的不足。AP方法虽然在少量数据训练中取得较高性能,但对数据集和提示词结构的依赖性较高,泛化能力不足。未来的研究需着重开发既精确又具鲁棒性的提示生成方法,以提升离散提示在不同任务和数据集上的适应性和稳定性。

6. 限制与未来工作

        本研究仅考察了AutoPrompt和手动提示的鲁棒性,未来可扩展到其他提示生成方法。同时,本研究使用的RoBERTa-large模型在性别偏见等方面存在已知的社会偏见,因此,进一步研究需在使用模型时注意伦理风险。此外,本研究仅在英语数据集上进行,其他语言的适用性仍待验证。

总结

        这篇论文通过系统实验揭示了离散提示生成方法在面对随机和对抗性扰动时的鲁棒性,指出了AutoPrompt和手动提示在鲁棒性和泛化性方面的缺陷,并为未来研究提供了重要参考。这一研究强调了在数据稀缺条件下开发稳定且通用提示生成方法的必要性,同时对提示生成方法的适用性提出了新挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/885100.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024中国国际数字经济博览会:图为科技携明星产品引领数智化潮流

10月24日,全球数智化领域的目光齐聚于中国石家庄正定,一场关于数字经济未来的盛会—2024中国国际数字经济博览会在此拉开帷幕。 云边端算力底座的领航者,图为科技携其明星产品惊艳亮相,期待与您共赴一场数智化的非凡之旅&#xff…

7.2、实验二:被动接口和单播更新

源文件链接: 7.2、实验二:被动接口和单播更新: https://url02.ctfile.com/d/61945102-63671890-6af6ec?p2707 (访问密码: 2707) 一、被动接口 1.介绍 定义: 在路由协议的配置中,一个被动接口指的是一个接口不发送路由更新包的配置方式&a…

4.3 Linux的中断处理流程

点击查看系列文章 》 Interrupt Pipeline系列文章大纲-CSDN博客 原创不易,需要大家多多鼓励!您的关注、点赞、收藏就是我的创作动力! 4.3 Linux的中断处理流程 先上图,一图胜千言! 图中心的蓝色部分,是L…

告别项目混乱,自定义工作项类型驱动项目管理进化

在项目管理中,工作项类型是用于分类和管理项目任务的基本构建块。如瀑布管理和敏捷管理,都有其特定的工作项类型来支持其独特的流程和实践: 敏捷管理的工作项类型 敏捷管理中的工作项类型强调迭代和增量开发,以用户故事为核心&a…

JAVA学习日记(十一) 常用API

一、Math //开平方根 public static double sqrt(double a); //返回结果 //开立方根 public static double cbrt(double a); 水题: public class Main {public static void main(String[] args) {//统计一共有多少个水仙花数 : abca^3b^3c^3abc// aabc/100%10//…

C++ 的异常处理详解

C 的异常处理详解 在编程过程中,错误和异常是不可避免的,合理的异常处理机制能够提高程序的健壮性。在 C 中,异常机制为捕获和处理错误提供了一种结构化的方式。本文将对 C 的异常处理进行详细探讨,包括异常的概念、如何抛出和捕…

IP协议知识点总结

IP协议主要分为三个 1. 地址管理 每个网络上的设备, 要能分配一个唯一的地址 2. 路由选择 小A 给小B 发消息, 具体应该走什么路线 3. 地址管理 IP 地址. 本质上是一个 32 位的整数 通常将, 32 位的整数使用点分十进制来表示, 如 192.168.1.1 一共可以表示 42 亿 9 千万个地址…

秒杀优化(异步秒杀,基于redis-stream实现消息队列)

目录 秒杀优化一:异步秒杀1:思路2:实现 二:redis实现消息队列1:什么是消息队列2:基于list结构实现消息队列3:基于pubsub实现消息队列4:基于stream实现消息队列5:stream的…

小新学习k8s第六天之pod详解

一、资源限制 Pod是k8s中的最小的资源管理组件,pod也是最小化运行容器化应用的资源对象。一个Pod代表着集群中运行的一个进程。k8s中其他大多数组件都是围绕着Pod来进行支撑和扩展Pod功能的,例如,用于管理Pod运行的StatefulSet和Deployment等…

Solana 代币 2022 — Transfer Hook

从零到英雄的 Solana 代币 2022 — Transfer Hook Token 2022 计划引入了几项令人兴奋的扩展,增强了铸造和代币账户的功能。在这些功能中,我个人最喜欢的是Transfer Hook (转账钩子) 。 想象时间 让我们戴上想象的帽子&#xf…

自定义类型:结构体(一)

一 . 结构体的相关概念 结构体,无需多言,是我们的老朋友了,我们之前就学习过一些有关结构体的知识,今天我们就来正式认识一下这个朋友 结构体属于一种自定义类型,在我们C语言中:自定义类型并非只有结构体…

使用匿名管道时出现程序一直运行问题

父进程创建两个子进程,父子进程之间利用管道进行通信。要求能显示父进程、子进程各自的信息,体现通信效果。(源程序pipe_1.c) 一开始,我忘了初始化pipe,很傻*的直接把fd当管道使,出现了儿子喊爸爸"i am your father."的…

协程4 --- 一个特殊的栈溢出例子

文章目录 代码运行结果分析 代码 先看下面这个程序流程: 有个长度位24的字符数组buffer,前面16个字符初始化。 把attack函数的地址复制到后面8个字符(编译成64位程序,指针大小为8Byte)。 打印信息:do Some…

C++用string实现字符串相加

. - 力扣(LeetCode) -》》》》》题目链接 实现思路:计算数字符串长度并用数组的方式计算出字符位置,用字符的ask码‘0’计算出字符本身。 class Solution { public:string addStrings(string num1, string num2) {string str;int…

03 Oracle进程秘籍:深度解析Oracle后台进程体系

文章目录 Oracle进程秘籍:深度解析Oracle后台进程体系一、Oracle后台进程概览1.1 DBWn(Database Writer Process)1.2 LGWR(Log Writer Process)1.3 SMON(System Monitor Process)1.4 PMON&#…

【大数据学习 | kafka高级部分】文件清除原理

2. 两种文件清除策略 kafka数据并不是为了做大量存储使用的,主要的功能是在流式计算中进行数据的流转,所以kafka中的数据并不做长期存储,默认存储时间为7天 那么问题来了,kafka中的数据是如何进行删除的呢? 在Kafka…

浏览器存储策略解析(三)Local/sessionStorage实战:如何查看本地浏览器上数据

物理意义上的localStorage/sessionStorage在哪里 我们都知道,localStorage存于本地,sessionStorage存于会话,这是见名知意可以得到的。但是在物理层面他们究竟存储在哪里呢? localStorage和sessionStorage一样,是存储…

设计模式讲解02—责任链模式(Chain)

1. 概述 定义:责任链模式是一种行为型模式,在这个模式中,通常创建了一个接收者对象的链来处理请求,该请求沿着链的顺序传递。直到有对象处理该请求为止,从而达到解耦请求发送者和请求处理者的目的。 解释:责…

判断二叉搜索树(递归)

给你一个二叉树的根节点 root ,判断其是否是一个有效的二叉搜索树。binary search tree (BST) 有效 二叉搜索树定义如下: 节点的左子树只包含 小于 当前节点的数。节点的右子树只包含 大于 当前节点的数。所有左子树和右子树自身必须也是二叉搜索树。 …

私有化视频平台EasyCVR海康大华宇视视频平台视频诊断技术是如何实时监测视频质量的?

在现代视频监控系统中,确保视频流的质量和稳定性至关重要。随着技术的进步,视频诊断技术已经成为实时监测视频质量的关键工具。这种技术通过智能分析算法对视频流进行实时评估和处理,能够自动识别视频中的各种质量问题,并给出相应…