【提示学习论文】TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model

TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model(CVPR2024)

  • 基于文本的类感知提示调优的VLM
  • KgCoOp为baseline,进行改进,把 w c l i p w_{clip} wclip进行投影,然后与Learnable prompts进行结合。
    ![[TCPf2.png|600]]

Abstract

近年来,通过可学习的域共享或图像条件的文本tokens,促进生成适用于特定任务的分类器

问题:
这些textual tokens对unseen域具有有限的泛化能力,不能动态地适应测试类的分布

解决:
提出了新的基于文本的类感知提示调优(TCP,Textual-based Class-aware Prompt)。显式地结合关于类的先验知识,增强它们的可辨别性。利用文本知识嵌入(TKE),映射高泛化性的类级文本知识,到类感知文本tokens。通过无缝地将这些类感知提示集成到Text Encoder中,可以生成一个动态的类感知分类器,以增强对不可见域的可辨别性。
推断阶段,TKE动态地生成与unseen类相关的类感知提示,可作为即插即用的模型与现有方法轻松结合。

1 Introduction

图像条件文tokens封装了每个图像的特定知识,特别是测试图像,从而更容易泛化到unseen类。

3 方法

TKE将一般类级的textual embedding转化成类感知提示,然后与Learnable tokens 结合。

3.2 基于文本的类感知提示提示调优

TKE:投影class-level embedding W c l i p W^{clip} Wclip,得到class-aware prompt T
![[TCPg2.png]]

![[TCPg3.png]]

![[TCPg4.png]]

![[TCPg1.png]]

TKE包括两层

  • 下投影层
    使用权重 W d o w n W_{down} Wdown W c l i p W^{clip} Wclip其投成低维特征
  • 上投影层
    使用权重 W u p W_{up} Wup W d w o n W^{dwon} Wdwon其投成高维特征
    得到
    ![[TCPg5.png]]
    再重塑成
    ![[TCPg6.png]]
    插入到文本编码器的中间层

4 实验

作者将其分为tp、vp、dtp、dvp,比较了近年来的方法
在这里插入图片描述

消融实验

  • Prompt长度:M=8最好
  • 不同模板的效果:可学习prompt最好
  • Dmid的作用:128时效果最好
  • 类感知prompt拼接到哪:第8层最好

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/12496.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

树莓派|角速度和加速度传感器

角速度传感器和加速度传感器是常见的惯性传感器,常用于测量物体的旋转和线性运动。 角速度传感器(Gyroscope)用于测量物体绕三个轴(X、Y、Z)的旋转速度或角速度。它可以提供关于物体在空间中的旋转方向和角度变化的信…

时光知识付费系统,如何制定适合自己的课程?该如何做?

在线教育平台的网课非常多,而且课程之间的相似度非常高,不同是教的老师不同。很多人在制定课程的时候,通常都是被广告吸引的,之后发现课程不是自己想要的,并不适合自己。 想要制定适合自己的课程,首先要清楚…

计算机视觉与深度学习实战:以Python为工具,基于特征匹配的英文印刷字符识别

注意:本文的下载教程,与以下文章的思路有相同点,也有不同点,最终目标只是让读者从多维度去熟练掌握本知识点。 下载教程:计算机视觉与深度学习实战-以MATLAB和Python为工具_基于特征匹配的英文印刷字符识别_项目开发案例教程.pdf 一、引言 随着人工智能技术的飞速发展,计…

用爬虫解决问题

使用爬虫解决问题是一个常见的技术手段,特别是在需要自动化获取和处理大量网页数据的情况下。以下是一个详细的步骤说明,包括如何使用 Python 和常用的爬虫库(如 requests 和 BeautifulSoup)来构建一个简单的爬虫,解决…

matlab二次插值函数 interp2

在MATLAB中,interp2函数用于执行二维插值操作。该函数可以接受多种不同的插值方法,其中包括linear(线性插值)和nearest(最临近插值)。这两种插值方法的插值结果存在明显的差异。 linear(线性插值…

引用存储复制属性

当执行 this.tableDataSim.push(this.simForm) 时,将 this.simForm 对象添加到 this.tableDataSim 数组中。如果 this.simForm 是一个对象,并且 this.tableDataSim 数组中之前的对象是通过引用方式存储的,那么之前的对象会被改变,…

使用 Python 和机器学习预测股票涨跌幅

使用 Tushare API 获取深圳股市历史数据 引言 这篇文章将会演示如何使用 Tushare Pro API 获取深圳股市的历史交易数据,并将数据保存到CSV文件中。Tushare 是一款提供实时和历史金融市场的数据服务,支持多种语言,具有丰富的数据源和强大的功…

PXI/PXIe规格1553B总线测试模块

面向GJB5186测试专门开发的1553B总线适配卡,支持4Mbps和1Mbps总线速率。该产品提供2个双冗余1553B通道、1个测试专用通道、2个线缆测试通道。新一代的TM53x板卡除了支持耦合方式可编程、总线信号幅值可编程、共模电压注入、总线信号波形采集等功能外,又新…

Python专题:十三、日期和时间(2)

datetime 模块 today()函数 date类型 year month day

二分法的时间复杂度是logN

对数函数: (a>0, a≠1, x>0) 当αe时,记为yln x 当α10时,记为ylg x 当α2时,记为ylog x 其中x是自变量,函数的定义域是(0,∞),…

【Flask框架】

6.Flask轻量型框架 6.1Flask简介 python提供的框架中已经写好了一个内置的服务器,服务器中的回应response行和头已经写好,我们只需要自己写显示在客户端,的主体body部分。 ---------------------------------------------------------- Fla…

Blob数据类型

Blob(Binary Large Object)是一种二进制大对象的数据类型,用于存储大量的二进制数据,比如图片、视频、音频等。Blob对象通常用于处理从网络上获取的数据或者在浏览器中生成的数据,例如通过用户上传的文件、从服务器下载…

Android Studio无法使用Google翻译问题记录

背景 其实关于Google翻译不能用的问题已经出现很久了,之前Google关掉了很多国内的一些Google服务,但是Google翻译还是能用的,直到不知什么时候起,Google翻译也不能用呢。 每次换电脑安装完AS后第一件事就是下载插件 Settings-Pl…

探索智慧生活:百度Comate引领人工智能助手新潮流

文章目录 百度Comate介绍1. 什么是百度Comate?主要特点 2. Comate的核心功能智能问答功能语音识别功能语音助手功能个性化服务 3. Comate 支持哪些语言? 使用教程(以vscode为例)1. 下载和安装Comate3. 常用操作快捷键(windows) 使用体验自然语言生成代码…

Gitlab、Redis、Nacos、Apache Shiro、Gitlab、weblogic相关漏洞

文章目录 一、Gitlab远程代码执行(CVE-2021-22205)二、Redis主从复制远程命令执行三、Nacos认证绕过漏洞(CVE-2021-29441)四、Apache Shiro认证绕过漏洞(CVE-2020-1957)五、Gitlab任意文件读取漏洞&#xf…

3.TCP的三次握手和四次挥手

一、前置知识 TCP是一种面向连接的、可靠的、基于字节流的传输层通信协议。在传输数据前通信双方必须建立连接(所谓连接,是指客户端和服务端各自保存一份关于对方的信息,比如ip地址,端口号等)。TCP通过三次握手建立一个…

从零开始:C++ String类的模拟实现

文章目录 引言1.类的基本结构2.构造函数和析构函数3.基本成员函数总结 引言 在C编程中,字符串操作是非常常见且重要的任务。标准库中的std::string类提供了丰富且强大的功能,使得字符串处理变得相对简单。然而,对于学习C的开发者来说&#x…

C语言----斐波那契数列(附源代码)

各位看官们好,当我写了上一篇博客杨辉三角后,有一些看官叫我讲一下斐波那契数列。对于这个大家应该是有了解的。最简单的规律就是f(n)f(n-2)f(n-1)。就是当前是前两项之和,然后下标1和0都是1.从第三项开始计算的。那么我们知道规律&#xff0…

位图(c++)

文章目录 1.位图概念2.位图的实现3.应用(解决整形存在或次数问题)3.1存在问题3.2次数问题 5.搜索的方法对比: 1.位图概念 和哈希一样,都是一个表来记录某个元素的个数或者存在与否;不同的是哈希使用的计算机定义的完整…

旅游卡创业的机会在哪里?

在当今社会,旅游已经成为了人们休闲娱乐的重要方式之一。 随着经济的发展和人们生活水平的提高,越来越多的人开始追求更高品质的旅游体验。因此,旅游卡创业应运而生,为游客提供了更加便捷、实惠的旅游服务。那么,旅游…