CVPR24_ArGue: Attribute-Guided Prompt Tuning for Vision-Language Models

Abstract

尽管软提示微调在调整视觉语言模型以适应下游任务方面表现出色,但在处理分布偏移方面存在局限性,通过属性引导提示微调(Attribute-Guided,ArGue)来解决这个问题

Contributions

  • 与直接在类名之前添加软提示的传统方法相比,通过大型语言模型(LLM)生成的原始视觉属性对齐模型,模型在这些属性上表达高置信度意味着其辨别正确类别理由的能力
  • 引入属性采样来消除不利属性,只有语义上有意义的属性被保留下来
  • 提出负提示,列举类别无关的属性以激活虚假相关性,并鼓励模型相对于这些负特征生成高度正交的概率分布

Intro.

在典型的分类任务中,提示微调直接在类名之前引入可学习的上下文。然而,零样本识别强调了将描述类别的视觉属性加入输入的重要性。尽管类名捕捉了高级语义,但在推断过程中,原始属性(例如,长尾/黑色爪子)提供了更精确的正则

本文通过识别VL模型中存在的捷径(shortcuts)来分析视觉属性对迁移学习的影响。这些模型在适应新任务时往往会提供不正确的决策理由。例如,正确地将天空中的物体分类为鸟,并不是因为它理解了语义特征,而是因为它检测到了鸟和天空之间的虚假相关性。一个主要突出虚假相关性的模型,例如背景,往往无法有效地推广到分布外数据。

与直接将图像特征与类名对齐的传统提示微调方法不同,ArGue鼓励模型在识别由LLMs生成的相关视觉属性时表现出高置信度。能够识别这些原始属性的模型捕捉到了类的正确理由,而不是受到虚假相关性的影响

关键优势:

  • 仅基于类名生成的属性自然地避免了图像中存在的捷径
  • 原始属性可能被其他类共享,增强模型的泛化能力

尽管经过细致的提示调整,直接从LLMs生成的属性的固有质量仍不稳定。提出了属性采样来选择最具代表性和非冗余的属性,使其与相应的图像对齐。利用属性池聚类来选择每个簇中最具代表性的属性,同时避免冗余。根据簇在特征空间中与图像的相似性对属性进行排名,选择最相关的属性。该过程为图像选择最具语义相关性的视觉属性,实验表明减少80%的属性数量会使准确性的提高,同时减少计算资源开销。

在属性引导提示调整的基础上,引入了负提示 ArGue-N。当提供一个不具有类别特定语义并激活虚假相关性的负属性时,模型应该避免偏向于任何类。**ArGue-N 提供了一个通用的负提示,即“the background of a {class}”,背景激活了与类别不相关的区域。在使用负提示时,强制模型产生均匀的预测概率分布。**尽管通用负提示假设较弱,但在分布外数据集上观察到了稳定性能提升。


Method

在这里插入图片描述

ArGue: Attribute-Guided Prompt Tuning

传统的训练方法使CLIP实现高准确度,但可能并没有找到图像中的对应属性的一种“捷径”。当提供鸟类的类名时,CLIP可能会与天空建立语义相关,引入了对背景而不是捕捉鸟类语义的依赖,对虚假相关性的依赖大大削弱了泛化能力。提出训练一个对相关视觉属性表现出高置信度的模型:

  • 与高级类别名称相比,明确与视觉属性对齐鼓励模型优先考虑类的内在语义
  • 表示低级特征的视觉属性可能与多个类共享,从而促进对新类别或分布外数据的泛化
    在这里插入图片描述
    直接获取这些视觉属性的一种方法是查询LLMs关于特定类别的视觉特征。LLM的输入仅包括类别名称,从根本上规避了图像中存在的学习捷径。形式上,给定任何标签 c c c,得到一系列属性。优化Eq.4意味着期望模型对标签的每个属性表现出高置信度,同时最小化其与任何其他属性的关联
    在这里插入图片描述

Attribute Sampling

虽然LLMs可以生成与类名相关的属性,但一些属性与视觉特征的语义相关性比其他属性更强。移除无效属性不仅减少了内存消耗,还提高了模型的准确性

  • 所选属性应既具有代表性又不重复
  • 所选属性应在语义上与特定类别的图像相关联

给定来自属性池的与类别 c c c 相关的属性 a t t r c attr_c attrc,根据它们在CLIP空间中的特征相似性将它们分成 N N N个簇,旨在确保每个簇代表一个不同信息,例如颜色或形状。在每个簇内,通过评估它们与CLIP空间内视觉特征的相似性来对属性进行排名,并选择与之最相关的属性,基于此过滤了:

  • 非视觉属性,例如“甜”,“可食用”
  • 与图像在语义上不相关的不正确的视觉属性

Prompt Regularization

少样本设置中,软提示学习的一个问题是模型可能会过拟合训练样本,在测试时导致未见数据的性能下降。提示正则化使软提示在特征空间中与自然文本接近,从而处理过拟合

Negative Prompting

使用负提示目标是明确列举缺乏特定类别信息的属性,期望模型在提供这些负属性时不偏向任何类别。当引入负提示,例如“the background of a cat”时,模型应该提供一个没有主导类的均匀预测。“the background of a [CLASS]"代表了一种典型的负属性,缺乏特定类别的信息,同时激活了图像中的虚假相关性。虽然可能提供更具体的负属性,但是为每个类手动标记开销较大,并且实验结果表明尽管“the background of a [CLASS]"是一个弱假设,其在大多数数据集上表现较好。

当模型过于依赖类别名称时,属性的影响往往会减弱。考虑到负提示包括类名,模型被设计为减弱负属性的影响,同时减弱类名的重要性。因此,模型能够识别并关注到由特定类别属性指示的区域,优先考虑这部分区域以获得精确的激活。为确保模型不偏向任何一个类,强制概率是均匀的(目标是最大化分布的熵)。

Experiments在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/792960.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】Ubuntu 磁盘管理

准备一个U盘或者SD卡(含读卡器),并将其格式化成 FAT32 格式,不要使用NTFS格式(这是微软的专利,大部分Linux系统不支持)和exFAT格式(有的Linux系统也不支持)。 如果Ubun…

递归算法讲解2

前情提要 上一篇递归算法讲解在这里 递归算法讲解(结合内存图) 没看过的小伙伴可以进去瞅一眼,谢谢! 递归算法的重要性 递归算法是非常重要的,如果想要进大厂,以递归算法为基础的动态规划是必考的&…

关闭PyCharm中因双击Shift而跳出的搜索框

有时候老是多次按到shift而跳出一个搜索框,本来在编写代码,怎么突然就开始搜索了,非常的烦人。 其实这个搜索框叫做“随处搜索”。 关闭步骤 1、打开PyCharm的设置。 2、在设置-高级设置中勾选-禁用双击修改键快捷键即可。

idea改vm参数后没法重启

背景 Idea2023修改了编译器compiler内存,maven的run time内存,idea安装目录下idea64.exe.vmoptions选项的jvm内存参数后导致idea启动时没有任何反应,也没有任何日志输出 idea2023没法重启 导致idea2023没法重启的操作步骤如下 1.修改idea的…

Higgsfield AI: 对飙Sora打造个性化视频新浪潮,重塑社交媒体内容创作

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

【leetcode面试经典150题】9.跳跃游戏(C++)

【leetcode面试经典150题】专栏系列将为准备暑期实习生以及秋招的同学们提高在面试时的经典面试算法题的思路和想法。本专栏将以一题多解和精简算法思路为主,题解使用C语言。(若有使用其他语言的同学也可了解题解思路,本质上语法内容一致&…

算法设计与分析实验报告python实现(排序算法、三壶谜题、交替放置的碟子、带锁的门)

一、 实验目的 1.加深学生对算法设计方法的基本思想、基本步骤、基本方法的理解与掌握; 2.提高学生利用课堂所学知识解决实际问题的能力; 3.提高学生综合应用所学知识解决实际问题的能力。 二、实验任务 1、排序算法…

Oracle常规操作

1、查看用户和密码 select username,password from dba_users; --修改用户和密码 alter user system identified by manager; alter user system identified by values 2D594E86F93B17A1; --解锁用户 alter user system account unlock; -- 用SYSDBA身份进入数据库,然…

Github 2024-04-04 开源项目日报 Top10

根据Github Trendings的统计,今日(2024-04-04统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目5TypeScript项目2Go项目1Jupyter Notebook项目1Java项目1C++项目1非开发语言项目1Vue项目1编程面试大学:成为软件工程师的全面学习计…

Spark-Scala语言实战(12)

在之前的文章中,我们学习了如何在spark中使用键值对中的join,rightOuterJoin,leftOuterJoin三种方法。想了解的朋友可以查看这篇文章。同时,希望我的文章能帮助到你,如果觉得我的文章写的不错,请留下你宝贵的点赞,谢谢…

攻防世界 xff_referer 题目解析

xff_referer 一:了解xxf和Referer X-Forwarded-For:简称XFF头,它代表客户端,也就是HTTP的请求端真实的IP,只有在通过了HTTP 代理或者负载均衡服务器时才会添加该项。 一般的客户端发送HTTP请求没有X-Forwarded-For头的&#xff0…

宁波ISO27001认证:信息安全管理的黄金标准

😃宁波ISO27001认证:🤖信息安全管理的💡黄金标准 随着信息技术💻的迅猛发展,信息安全🔏问题日益凸显,成为企业🏬稳定运营和持续发展的📊关键因素。在这样&am…

Finite Element Procedures K.J.Bathe 【教材pdf+部分源码】|有限元经典教材 | 有限元编程

专栏导读 作者简介:工学博士,高级工程师,专注于工业软件算法研究本文已收录于专栏:《有限元编程从入门到精通》本专栏旨在提供 1.以案例的形式讲解各类有限元问题的程序实现,并提供所有案例完整源码;2.单元…

Paddle实现人脸对比

人脸对比 人脸对比,顾名思义,就是对比两个人脸的相似度。本文将用Paddle实现这一功能。 PS:作者肝了整整3天才稍微搞明白实现方法 数据集准备 这里使用百度AI Studio的开源数据集: 人脸数据_数据集-飞桨AI Studio星河社区 (b…

[C#]OpenCvSharp使用HoughCircles霍夫圆检测算法找出圆位置并计数

【效果展示】 原图: 找出位置: 【测试环境】 vs2019,netframework4.7.2,opencvsharp4.8.0 【函数用法】 cv2提供了一种圆检测的方法:HoughCircles。该函数的返回结果与参数设置有很大的关系。 检测的图像时9枚钱币,分别使用了…

特征融合篇 | 结合内容引导注意力 DEA-Net 思想 实现双主干特征融合新方法 | IEEE TIP 2024

本篇改进已集成到 YOLOv8-Magic 框架。 摘要—单幅图像去雾是一个具有挑战性的不适定问题,它从观察到的雾化图像中估计潜在的无雾图像。一些现有的基于深度学习的方法致力于通过增加卷积的深度或宽度来改善模型性能。卷积神经网络(CNN)结构的学习能力仍然未被充分探索。本文…

SpringAI如何集成Ollama开发AI应用

文章目录 spring AI 介绍1. Spring ML2. Spring Data3. Spring Integration4. Spring Boot5. Spring Cloud如何开始使用 Spring AI注意事项 Spring AI集成Ollama1. 添加依赖2. 配置应用3. 注入和使用 AiClient4. 运行和测试注意事项 spring AI 介绍 Spring AI 是一个基于 Spri…

技术人的清明节:数字哀思与虚拟纪念

清明节,这是一个寄托哀思、缅怀先人的日子。对于我们这些日夜与代码为伴的技术人来说,这个节日不仅仅是对亲人的怀念,更是一次对生命、时间和记忆的深刻反思。 技术人的情感表达:独特而真挚 我们技术人,常被误解为情…

【算法题】换水问题 II

> 插:AI时代,程序员或多或少要了解些人工智能,前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。 坚持不懈,越努力越幸运,大家…

代理模式:全局 规则 直连 脚本四种模式的区别

当涉及到网络代理时,不同模式具有不同的设置,选择不同模式应根据实际需求和网络环境来决定。 代理模式的区别如下: 1. 全局模式 整个设备的所有流量都会通过代理服务器转发。无论是浏览器、应用程序还是系统其他组件,都将通过代理…