ICLR 2023#Learning to Compose Soft Prompts for Compositional Zero-Shot Learning

组合零样本学习(CZSL)中Soft Prompt相关工作汇总(一)

文章目录

    • 组合零样本学习(CZSL)中Soft Prompt相关工作汇总(一)
      • ICLR 2023#Learning to Compose Soft Prompts for Compositional Zero-Shot Learning
        • Introduction
        • Related work
          • prompt
          • Parameter-efficient learning
        • Preliminaries
        • Compositional Soft Prompting

ICLR 2023#Learning to Compose Soft Prompts for Compositional Zero-Shot Learning

补充:https://zhuanlan.zhihu.com/p/532153343
————提示学习soft prompt浅尝
https://zhuanlan.zhihu.com/p/493489688
————神器CLIP:连接文本和图像,打造可迁移的视觉模型

Introduction

背景:VLMs有一个灵活的文本编码器,可以将任意类表示为自然语言提示,但它们(例如CLIP)在zero-shot基准测试数据集上的性能常常低于特定于任务的体系结构→因为CLIP对从网络上抓取的数据进行的预训练没有足够的对属性的监督以及如何将它们和不同的对象进行组合。
为了提升组合零样本学习能力(即“预测unseen属性-对象组合的任务”),本文提出了一种参数高效的学习技术——CSP(Compositional Soft Promting,组合软提示)。CSP将定义类的属性和对象视为词汇表中的可学习标记。在训练过程中,词汇表被调优以识别以多种方式组成符号的类(例如,老猫和白猫);在测试时,将学习到的属性对象词汇重新组合,以识别新的类(即“组合现有的分类器来构建新的分类器”)
现有czsl方法:将属性和对象映射到预训练的词嵌入,并使用预训练的图像编码器backbone来联合对齐图像和 属性-对象文本表示,以学习组合性;
存在的问题:1.单词嵌入和图像编码器的预训练是彼此分离的,即这些方法从头开始学习对齐图像和文本表示;
2.这些特定于任务的体系结构在灵活性方面也受到限制。在让这些方法适应具有多属性和对象(如小毛猫或老白虎)的高阶组合时,就需要修改原始架构→说明超出原始长度的泛化能力是“组合性”的关键

Related work
prompt

prompt是语言和视觉领域的焦点,在大范围的任务重有助于zero-shot和few-shot学习;discrete prompt通常是手写文本输入,为大型预训练模型(如CLIP、GPT-3)等提供指导方针,无需更新模型参数进行推理(?),但是耗时严重;
提出soft prompt作为替代,可以在反向传播过程中学习部分的prompt而不用微调整个模型,在效果比手工要好的soft prompt工作中,它是单个输入连接到整个任务的所有输入;我们从多个组合中学习每个基本概念的标记,并以新的方式重新组合它们,以表示unseen的类
其他工作应用:few-shot目标分类;VQA;视频理解,但都是整个数据集只有单个prompt;
参考和22年Ge的工作类似,区别:1.我们的将类标签分解成多个部分,而不是将提示分割成与领域相关的粒度,比如与领域无关的上下文、领域特定的上下文和类标签;2.关注zero-shot学习,不能访问测试集中不可见类的标记示例,而它们在训练期间可以访问所有的测试类

Parameter-efficient learning

(补充:Parameter-efficient fine-tuning的三个特性:
1.在微调过程中预训练参数是固定的,只需微调少量额外的参数,可以达到与全量微调相当接近的性能,不同任务只需要切换任务相关的那少部分参数;
2.PEFT在训练数据量小的场景下,有时性能可以超过全量微调,预训练知识不容易遗忘,泛化能力强;
3.PEFT在方法上是模型无关的,可以广泛应用于多种模态和模型(另外的图像识别、生成任务))
https://zhuanlan.zhihu.com/p/636326003
————大模型的领域适配 —— Parameter-Efficient Fine-Tuning (PEFT)
https://zhuanlan.zhihu.com/p/620618701
————预训练大语言模型的三种微调技术总结:fine-tuning、parameter-efficient fine-tuning和prompt-tuning的介绍和对比
在这里插入图片描述图一.fine-tuning技术应用(图源上述链接)

Preliminaries

属性集A、对象集O,样本标签Y=A×O;
训练阶段:已知Sseen={(x1,y1),…,(xn,yn)}来学习有区分性的模型f:X → Yseen;
推理阶段:想要模型可以预测测试集中seen+unseen的组合,f:X → Ytest 1).封闭世界中,Ytest = Yseen ∪ Yunseen;2).开放世界中,考虑属性、对象的所有组合:Ytest = Y,Yunseen = Y - Yseen

CSP训练设置
CSP的训练设置:带有属性和对象词汇的prompts(A photo of [ATTRIBUTE][OBJECT])通过文本编码器来获得文本的表征(representation),图像通过图像编码器获得图像表征;之后计算所有prompts和图像之间的余弦相似度后计算交叉损失熵;最后重传损失并更新属性-对象词汇权重(weights)

Compositional Soft Prompting

Motivation:改进vlm(如CLIP)在组合概化方面的表现,因为它们似乎不如当前最先进的方法。这可能是因为CLIP对从网络爬来的数据进行的预训练没有提供足够的属性监督以及它们如何与不同对象结合→目标是教vlm(如CLIP)如何更好地组合原始概念
把它看做一个词汇学习问题,因为它是参数有效(parameter-efficient)的,并提供了一种自然的方法来组成新类
Prompt construction
CSP把用来定义类的属性和对象视为可学习的词汇表标记,并根据多个prompt组合对它们进行调优;我们把每个原语概念都表示成VLM词汇表中一个新的、辅助性的token,每表示一类就用"a photo of [attribute][object]"
Training:直接贴汇报用的ppt图了
在这里插入图片描述
Inference
在推理过程中,在提示中重新组合经过调整的属性和对象词汇表;
以在训练过程中相同的方式将经过调整的θ与(属性、对象)对组合在候选提示中‘’在封闭世界和开放世界设置中,我们只使用提示符中经过调整的参数替换属性和对象。最后,计算最可能的属性和对象对:
在这里插入图片描述
后续实验部分分析了csp在开放世界和封闭世界中的效果,在不同衡量标准下的效果,还有baseline和benchmark结果的对比等等,本文是组合零样本学习czsl中soft prompt相关工作的基础工作,提出的创新点主要是将提高下游任务效果的方向转移到文本端来,因此提出了对clip的prompt工程进行改进而提出了soft-prompt,故在实验效果不做赘述。之后的几篇文章讲解都以csp为基础进行后续的工作,见专栏文章…
**因为博主(hdu研一在读)也刚开始接触多模态学习领域的工作不久,因此有相关科研领域和方向的读者大大有兴趣可以和我相互交流学习(菜鸡互啄),qq:1297995979

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/685449.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

透光卓越,光耦继电器的独特特点全面解析

光耦继电器作为电子控制系统中的核心元件,其光电隔离技术为其独特之处。通过光电隔离技术,光耦继电器实现了输入和输出之间的电气隔离,有效阻止了高电压与低电压之间的直接接触。这项技术不仅提高了系统的安全性,还有效减少了电气…

Vue练习1:组件开发1(头像组件)

样式预览 注释代码 <template><div class"img-box":style"{ //动态style必须为对象width: size rem,height: size rem}"><imgclass"avatar-img":src"url" //动态url/></div> </templ…

【DDD】学习笔记-聚合设计原则

聚合设计原则 对比对象图和聚合&#xff0c;我们认为引入聚合的目的是控制对象之间的关系&#xff0c;这实则是引入聚合的技术原因。领域驱动设计引入聚合&#xff08;Aggregate&#xff09;来划分对象之间的边界&#xff0c;在边界内保证所有对象的一致性&#xff0c;并在对象…

C语言从零实现贪吃蛇小游戏

制作不易&#xff0c;点赞关注一下呗&#xff01;&#xff01;&#xff01; 文章目录 前言一. 技术要点二、WIN32API介绍三、贪吃蛇游戏设计与分析 1.游戏开始前的初始化 2.游戏运行的逻辑 总结 前言 当我们掌握链表这样的数据结构之后&#xff0c;我们就可以用它来…

比特币 P2PKH、P2SH

标准脚本P2PKH、P2SH 区块链重要基础知识7-1——标准脚本P2PKH、P2SH-CSDN博客 比特币中P2SH(pay-to-script-hash)多重签名的锁定脚本和解锁脚本 https://www.cnblogs.com/itlgl/p/10419325.html

京东护网面试题汇总

1 、JNI 函数在 java 中函数名为 com.didi.security.main,C 中的函数名是什么样的&#xff1f; com_didi_security_mian java.com.didi.security.main 2 、Frida 和 Xposed 框架&#xff1f; 3 、SSRF 利用方式&#xff1f; 4 、宏病毒&#xff1f; 5 、APP 加壳&a…

黑群晖一键修复:root、AME、DTS、转码、CPU型号等

食用方法&#xff1a;SSH连接群晖使用临时root权限执行 AME3.x激活补丁 只适用于x86_64的&#xff1a;DSM7.x Advanced Media Extensions (AME)版本3.0.1-2004、3.1.0-3005 激活过程需要下载官方的解码包&#xff0c;过程较慢&#xff0c;耐心等待。。。 DSM7.1和7.2的AME版…

Rust - 变量与数据的交互方式(move)

变量与数据的交互方式 - 移动 Rust 中的多个变量可以采用一种比较独特的方式和同一个数据进行交互&#xff0c;如下代码所示&#xff0c;将变量x的值赋给y&#xff1a; fn main() {let x 1;let y x; }我们大概可以推论出上述代码的原理&#xff1a;将1这个整数绑定给x变量&…

建造者模式-Builder Pattern

原文地址:https://jaune162.blog/design-pattern/builder-pattern/ 引言 现在一般大型的业务系统中的消息通知的形式都会有多种,比如短信、站内信、钉钉通知、邮箱等形式。虽然信息内容相同,但是展现形式缺不同。如短信使用的是纯文本的形式,钉钉使用的一般是Markdown的形…

JavaScript设计模式与开发实战

JavaScript设计模式与开发实践 第一章、面向对象的JavaScript 1.1 多态 类似java面向对象&#xff0c;通过继承共有特征&#xff0c;来实现不同方法。JavaScript的多态就是把“做什么”和“谁去做”分离&#xff0c;消除类型间的耦合关系。 他的作用就是把过程化的条件分支…

智能传感器阅读笔记-物联网用智能传感器技术的发展重点

物联网用智能传感器技术的发展重点包含边缘计算算法优化、身份认证算法优化和能量采集技术。 图1 物联网用智能传感器技术的发展重点 边缘计算算法优化 边缘计算是指在靠近物或数据源头的一侧&#xff08;传感器侧&#xff09;&#xff0c;采用集检测、计算、存储、通信功能…

电容充电速度

对电容充电的过程中&#xff0c;电容器充电的电压为&#xff0c;求电容器的充电速度。

人工智能学习与实训笔记(三):神经网络之目标检测问题

目录 五、目标检测问题 5.1 目标检测基础概念 5.1.1 边界框&#xff08;bounding box&#xff09; 5.1.2 锚框&#xff08;Anchor box&#xff09; 5.1.3 交并比 5.2 单阶段目标检测模型YOLOv3 5.2.1 YOLOv3模型设计思想 5.2.2 YOLOv3模型训练过程 5.2.3 如何建立输出…

【Windows】删除 VHD 虚拟磁盘时提示“文件已在 System 中打开”的解决方法

一、原因 正如显示的那样&#xff0c;虚拟磁盘仍在被系统占用。因此我们需要断开磁盘与系统的连接。 二、解决方法 1. 在“开始”菜单中搜索“磁盘管理”&#xff0c;选择“创建并格式化硬盘分区”。 2. 右键点击需要删除的虚拟磁盘&#xff0c;选择“分离 VHD”。 3. 点击“…

只出现一次的数字

简单 相关标签 相关企业 给你一个 非空 整数数组 nums &#xff0c;除了某个元素只出现一次以外&#xff0c;其余每个元素均出现两次。找出那个只出现了一次的元素。 你必须设计并实现线性时间复杂度的算法来解决此问题&#xff0c;且该算法只使用常量额外空间。 要设计一个…

机器人专题:我国机器人产业园区发展现状、问题、经验及建议

今天分享的是机器人系列深度研究报告&#xff1a;《机器人专题&#xff1a;我国机器人产业园区发展现状、问题、经验及建议》。 &#xff08;报告出品方&#xff1a;赛迪研究院&#xff09; 报告共计&#xff1a;26页 机器人作为推动工业化发展和数字中国建设的重要工具&…

【springboot+vue项目(十四)】基于Oauth2的SSO单点登录(一)整体流程介绍

场景&#xff1a;现在有一个前后端分离的系统&#xff0c;前端框架使用vue-element-template&#xff0c;后端框架使用springbootspringSecurityJWTRedis&#xff08;登录部分&#xff09;现在需要接入到已经存在的第三方基于oauth2.0的非标准接口统一认证系统。 温馨提示&…

RabbitMQ如何保证可靠

0. RabbitMQ不可靠原因 消息从生产者到消费者的每一步都可能导致消息丢失&#xff1a; 发送消息时丢失&#xff1a; 生产者发送消息时连接MQ失败生产者发送消息到达MQ后未找到Exchange生产者发送消息到达MQ的Exchange后&#xff0c;未找到合适的Queue消息到达MQ后&#xff0c;…

使用TinyXML-2解析XML文件

一、XML介绍 当我们想要在不同的程序、系统或平台之间共享信息时&#xff0c;就需要一种统一的方式来组织和表示数据。XML&#xff08;EXtensible Markup Language&#xff0c;即可扩展标记语言&#xff09;是一种用于描述数据的标记语言&#xff0c;它让数据以一种结构化的方…

JavaWeb:SpingBoot原理 --黑马笔记

1. 配置优先级 在我们前面的课程当中&#xff0c;我们已经讲解了SpringBoot项目当中支持的三类配置文件&#xff1a; application.properties application.yml application.yaml 在SpringBoot项目当中&#xff0c;我们要想配置一个属性&#xff0c;可以通过这三种方式当中…