VL-Adapter: 针对视觉和语言(Vision-and-Language)的参数高效迁移学习

VL-ADAPTER: Parameter-Efficient Transfer Learning for Vision-and-Language Tasks

22年发表在CVPR
UNC大学

Abstract

将介绍VL-BART和VL-T5这两个模型(adapter-based parameter-efficient transfer learning techniques)
评估这俩模型通过一个统一的多任务设置。
对于image-test使用VQAv2、GQA、NLVR2和MSCOCO这四个数据集。
对于video-text使用TVQA、How2QA、TVC和YC2C这四个数据集。
把adapter-tuning(adapter、Hyperformer、Compacter)和fine-tuning和prompt-tuning 进行对比。
结果表明 adapter-tuning4.18%i-t任务和3.39%v-t任务可以达到fine-tuning整体模型的效果。

Introduction

大模型预训练模型已经成了解决V&L任务的标准框架。
通常是vision encoders和language model的结合,然后经过fine-tuning去解决下游任务。
为了解决大模型tuning的难度提出来了很多 parameter-efficient training方法。
Adapter对于大模型进行一小部分的训练就可以达到full fine-tuning的效果。
即使adapter已经对文本分类和Image-text alignment(图像文本对齐)问题有了一些成功的效果,但是对于下游更有挑战的V&L问题如视觉/视频问答和图像/视频字幕等却没有人做。文章作者将做这个问题。
作者使用了CLIP一个image-text对求的模型作为视觉编码器(visual encoder)为了对于V&L模型做预训练。
为了告知模型的任务,将做一些 text prompts 例如:例如,vqa的“vqa:[Q]” VQA是Visual Question Answering(视觉问答)。
然后对模型插入一些Adapter以及其变体 HyperformerCompacter,进行parameter-efficient training。
作者对于这两个变体的解释是:Hyperformer通过超网络生成适配器的权重来提高适配器的效率,而Compacter通过利用Kronecker产品和适配器权重的低阶参数化来减少参数。
具体看这两个技术可以看论文中的引用。
作者说根据adapter的一些方法可以实现一些cross-task(跨任务)学习,可以进一步减少训练量。
对于作者所说的对于上述的技术进行在abstract的四个i-t任务和四个v-t任务中的表现:
Compactor的表现并不突出,因为去除了 low-rank approximation for trading performance。
Hyperformeradapter高效,使用权重共享(weight-sharing)技术进行adapter训练可以实现与完全微调相同的性能,同时图像文本任务仅更新4.18%的整个参数(视频文本任务更新3.39%)。
对CLIP中的元素进行fine-tuning(进行调整训练的元素)和freezing(不进行训练更改的元素)进行了对比,后者的在表现和元素高效性方面平衡的更好。
在最佳的V&L模型上进行adapter最后的效果可以完美匹配甚至超过full fine-tuning的模型。
作者所说的工作总结 直接贴在这里了:
Our contributions could be summarized as: (1) the first
work benchmarking different types of parameter-efficient
training techniques (Adapter, Hyperformer and Compacter)
for diverse challenging downstream image-text and videotext tasks; (2) empirical demonstration of adapters reaching the performance of full fine-tuning while updating only
3.39-4.18% of the parameters; (3) comprehensive analysis
on the design of freezing CLIP, impact of different architectural components, weight-sharing techniques, task-specific
prompts, and vision-language pretraining.(我们的贡献可以总结为:(1)首次针对不同类型的参数高效训练技术(Adapter、Hyperformer和Compacter),针对具有挑战性的下游图像文本和视频文本任务进行基准测试;(2) 经验证明,适配器在仅更新3.39-4.18%的参数的情况下达到了完全微调的性能;(3) 全面分析冷冻CLIP的设计、不同结构组件的影响、权重分配技术、任务特定提示和视觉语言预训练。
)

Related Work

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/77264.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

科技资讯|苹果虚拟纸可在Vision Pro中为广告、书籍等提供MR内容和动画

近日,美国专利商标局正式授予苹果一项与虚拟纸张相关的专利。这是与虚拟纸张这项发明相关的第二项专利,鉴于苹果 Vision Pro 将于明年上市,那么我们离苹果实现虚拟纸张的发明又近了一步。 虚拟纸张将能够包含 2D、3D 和动画等 MR内容&#…

JavaScript中循环遍历数组、跳出循环和继续循环

循环遍历数组 上个文章我们简单的介绍for循环,接下来,我们使用for循环去读取数据的数据,之前我们写过这样的一个数组,如下: const ITshareArray ["张三","二愣子","2033-1997","…

JAVA使用wkhtml 将html转成pdf或Image文件

linux的wkhtml 安装&#xff1a; linux安装wkhtmltopdf&#xff08;清晰明了&#xff09;_sout-lanys的博客-CSDN博客 win的wkhtml安装&#xff1a; 直接下载&#xff1a;wkhtmltopdf html 必须加UTF-8编码 <head> <meta charset"utf-8"> </hea…

基于Elasticsearch的多文档检索 比如 商品(goods)、案例(cases)

概述 Elasticsearch多文档聚合检索 详细 记得把这几点描述好咯&#xff1a;需求&#xff08;要做什么&#xff09; 代码实现过程 项目文件结构截图 演示效果 应用场景 我们需要在五种不同的文档中检索数据。 比如 商品&#xff08;goods&#xff09;、案例&#xff08;ca…

ubuntu 20.04安装开发环境总结_安装python

Ubuntu 20.04 是一款主要面向开发人员的操作系统之一&#xff0c;与此同时&#xff0c;它还支持多种开发环境和工具的使用。但是因为对市面上各种软件的支持没有window那样友好&#xff0c;所以对ubuntu系统安装配置各种环境的问题做了个总结 安装 PyCharm&#xff1a; 可以从…

(2)数据库mongodb 终端 和 vscode创建数据库 数据导入导出

可视化工具&#xff1a; Robo 3T | Free, open-source MongoDB GUI (formerly Robomongo) mongodb安装官网&#xff1a;MongoDB: The Developer Data Platform | MongoDB 文档&#xff1a;安装 MongoDB - MongoDB-CN-Manual (mongoing.com) 配置环境变量&#xff1a; 是为了扩…

微信小程序音频后台播放功能

微信小程序在手机息屏后依旧能播放音频&#xff0c;需要使用 wx.getBackgroundAudioManager() 方法创建后台音乐播放器&#xff0c;并将音乐播放任务交给这个后台播放器。 具体实现步骤如下&#xff1a; 小程序页面中&#xff0c;使用 wx.getBackgroundAudioManager() 方法创…

pandas 筛选数据的 8 个骚操作

日常用Python做数据分析最常用到的就是查询筛选了&#xff0c;按各种条件、各种维度以及组合挑出我们想要的数据&#xff0c;以方便我们分析挖掘。 东哥总结了日常查询和筛选常用的种骚操作&#xff0c;供各位学习参考。本文采用sklearn的boston数据举例介绍。 from sklearn …

jeesite实现excel导入功能(保姆级图文教程)

文章目录 前言一、准备工作1.准备一个excel模板,放入static目录2.application.yml文件中设置文件存储路径3.使用easyexcel插件解析excel数据,pom文件导入easyexcel二、使用步骤1.列表页添加下载模板按钮2.表单页添加文件上传3. 创建excel解析对应实体4.后台完成文件上传代码,…

酌情参考——chatGPT给的一些语义框架的学术思路,语义和图谱结合似乎是个不错的方向

语义和图谱结合似乎是个不错的方向 我在分析教师讲课的文本&#xff0c;以知识元和语义框架建模的话怎么分析合适 ChatGPT 分析教师讲课的文本并建立知识元和语义框架的模型可以帮助你理解教师的教学内容以及课程结构。以下是一些步骤和方法&#xff0c;可帮助你进行这种分析&…

SoC性能指标ARM内核运算能力

自动驾驶芯片常用的性能评价指标:TOPS,DMIPS,GFLOPS分别说的是啥&#xff1f; TOPS Tera Operation Per Second&#xff0c;表示每秒钟可以进行的操作数量&#xff0c;用于衡量自动驾驶的算力。 众所周知&#xff0c;汽车上最常用的传感器是摄像头&#xff0c;而与之对应的计…

springboot使用freemarker导出word

springboot使用freemarker导出word 一、需求说明二、制作模板文件1.修改word留下占位符并另存为.xml文件2.将xml文件后缀名改为.ftl3.打开ftl文件格式化内容4.将占位符替换成变量 三、代码实现1.引入依赖2.将模板引入resource下3.编写word导出工具包4.创建接口调用 一、需求说明…

Trinitycore学习之在Linux环境上搭建服务器并测试运行

1&#xff1a;准备环境&#xff0c;这里用ubuntu 22.04进行测试&#xff0c;安装环境后为了方便&#xff0c;换源。 注意&#xff1a;这里用的虚拟机&#xff0c;在虚拟机上生成地图信息&#xff0c;地图信息占用内存比较大&#xff0c;我暂时设置磁盘50G进行测试&#xff0c;…

华为Linux系统开发工程师面试

在Linux系统开发工程师的面试中&#xff0c;你可能会遇到以下一些问题&#xff1a; 在同一个网站中&#xff0c;当客户访问的时候&#xff0c;会出现有的页面访问的速度快而有的慢&#xff0c;系统和服务完全正常、网络带宽正常&#xff0c;你如何诊断这个问题&#xff1f;你以…

【23种设计模式】建造者模式【⭐⭐⭐】

个人主页&#xff1a;金鳞踏雨 个人简介&#xff1a;大家好&#xff0c;我是金鳞&#xff0c;一个初出茅庐的Java小白 目前状况&#xff1a;22届普通本科毕业生&#xff0c;几经波折了&#xff0c;现在任职于一家国内大型知名日化公司&#xff0c;从事Java开发工作 我的博客&am…

iwebsec靶场 文件包含漏洞通关笔记4-远程文件包含

目录 前言 1.远程文件包含 2.远程文件条件 第03关 远程文件包含 1.打开靶场 2.源码分析 3.本地文件包含渗透 4.远程文件包含渗透 前言 1.远程文件包含 远程文件包含是文件包含漏洞的其中一种。这种漏洞在文件的URI位于其他服务器上并作为参数传递给PHP函数“include”…

【Linux】自制shell

本期我们利用之前学过的知识&#xff0c;写一个shell命令行程序 目录 一、初始代码 二、使用户输入的ls指令带有颜色分类 三、解决cd指令后用户所在路径不变化问题 3.1 chdir函数 四、关于环境变量的问题 一、初始代码 #include<stdio.h> #include<unistd.h…

代码随想录--哈希--有效的字母异位词

给定两个字符串 s 和 t &#xff0c;编写一个函数来判断 t 是否是 s 的字母异位词。 示例 1: 输入: s "anagram", t "nagaram" 输出: true 示例 2: 输入: s "rat", t "car" 输出: false 说明: 你可以假设字符串只包含小写字母。…

LINUX 网络管理

目录 一、NetworkManager的特点 二、配置网络 1、使用ip命令临时配置 1&#xff09;查看网卡在网络层的配置信息 2&#xff09;查看网卡在数据链路层的配置信息 3&#xff09;添加或者删除临时的网卡 4&#xff09;禁用和启动指定网卡 2、修改配置文件 3、nmcli命令行…

软件安全研究(四)

文章目录 Fine-Grained Code Clone Detection with Block-Based Splitting of Abstract Syntax Tree文章结构IntroMotivationDefinitionSystemOverviewProcessingVerify Experimentexperimental settingsRQ1RQ2RQ3RQ4RQ5 Fine-Grained Code Clone Detection with Block-Based S…