VL-Adapter：针对视觉和语言（Vision-and-Language）的参数高效迁移学习

VL-ADAPTER: Parameter-Efficient Transfer Learning for Vision-and-Language Tasks

22年发表在CVPR
UNC大学

Abstract

将介绍VL-BART和VL-T5这两个模型（adapter-based parameter-efficient transfer learning techniques）
评估这俩模型通过一个统一的多任务设置。
对于image-test使用VQAv2、GQA、NLVR2和MSCOCO这四个数据集。
对于video-text使用TVQA、How2QA、TVC和YC2C这四个数据集。
把adapter-tuning（adapter、Hyperformer、Compacter）和fine-tuning和prompt-tuning 进行对比。
结果表明 adapter-tuning4.18%i-t任务和3.39%v-t任务可以达到fine-tuning整体模型的效果。

Introduction

大模型预训练模型已经成了解决V&L任务的标准框架。
通常是vision encoders和language model的结合，然后经过fine-tuning去解决下游任务。
为了解决大模型tuning的难度提出来了很多 parameter-efficient training方法。
Adapter对于大模型进行一小部分的训练就可以达到full fine-tuning的效果。
即使adapter已经对文本分类和Image-text alignment(图像文本对齐)问题有了一些成功的效果，但是对于下游更有挑战的V&L问题如视觉/视频问答和图像/视频字幕等却没有人做。文章作者将做这个问题。
作者使用了CLIP一个image-text对求的模型作为视觉编码器(visual encoder)为了对于V&L模型做预训练。
为了告知模型的任务，将做一些 text prompts 例如：例如，vqa的“vqa:[Q]” VQA是Visual Question Answering（视觉问答）。
然后对模型插入一些Adapter以及其变体 Hyperformer和Compacter，进行parameter-efficient training。
作者对于这两个变体的解释是：Hyperformer通过超网络生成适配器的权重来提高适配器的效率，而Compacter通过利用Kronecker产品和适配器权重的低阶参数化来减少参数。
具体看这两个技术可以看论文中的引用。
作者说根据adapter的一些方法可以实现一些cross-task(跨任务)学习，可以进一步减少训练量。
对于作者所说的对于上述的技术进行在abstract的四个i-t任务和四个v-t任务中的表现：
Compactor的表现并不突出，因为去除了 low-rank approximation for trading performance。
Hyperformer比adapter高效，使用权重共享(weight-sharing)技术进行adapter训练可以实现与完全微调相同的性能，同时图像文本任务仅更新4.18%的整个参数（视频文本任务更新3.39%）。
对CLIP中的元素进行fine-tuning(进行调整训练的元素)和freezing(不进行训练更改的元素)进行了对比，后者的在表现和元素高效性方面平衡的更好。
在最佳的V&L模型上进行adapter最后的效果可以完美匹配甚至超过full fine-tuning的模型。
作者所说的工作总结直接贴在这里了：
Our contributions could be summarized as: (1) the first
work benchmarking different types of parameter-efficient
training techniques (Adapter, Hyperformer and Compacter)
for diverse challenging downstream image-text and videotext tasks; (2) empirical demonstration of adapters reaching the performance of full fine-tuning while updating only
3.39-4.18% of the parameters; (3) comprehensive analysis
on the design of freezing CLIP, impact of different architectural components, weight-sharing techniques, task-specific
prompts, and vision-language pretraining.(我们的贡献可以总结为：（1）首次针对不同类型的参数高效训练技术（Adapter、Hyperformer和Compacter），针对具有挑战性的下游图像文本和视频文本任务进行基准测试；（2）经验证明，适配器在仅更新3.39-4.18%的参数的情况下达到了完全微调的性能；（3）全面分析冷冻CLIP的设计、不同结构组件的影响、权重分配技术、任务特定提示和视觉语言预训练。
)