Supervised Fine-tuning in turn Improves Visual Foundation Models

简介

从NLP中的监督微调（Supervised Fine-tuning）获得的灵感，本文探索了细粒度SFT在预训练后增强视觉基础模型潜力。本文提出了一种二阶段方法ViSFT释放视觉基础模型细粒度知识。具体地，通过一些域内任务执行视觉联合学习增强视觉基础模型，然后在域外基准任务上进行测试。

模型细节

第一阶段，使用EVA-CLIP模型中预训练的ViT作为backbone并将其冻结。然后独立连接检测、分割、描述头进行微调。该步骤目标是获得与ViT特征兼容的任务头。在第二阶段，用LoRA权重增强ViT，并连接所有任务头进行微调。除了增加的LoRA权重外其他模块将重新冻结。

LoRA更新矩阵

对于EVA-ViT的查询和值嵌入层内的预训练权重矩阵 $W_{q/v}\in \mathbb{R}^{d\times k}$ ，本文通过引入低秩分解对齐更新添加约束 $W_{q/v}+\Delta W=W_{q/v}+BA$ ， $B\in \mathbb{R}^{d\times r},A\in \mathbb{R}^{r\times k}$ 。在训练第二阶段，权重矩阵 $W_{q},W_{v}$ 冻结， $A, B$ 包含可训练参数。对于 $h_{q/v}=W_{q/v}x$ ，前向传播即：
$h_{q/v}=W_{q/v}x+\Delta W x=W_{q/v}x+BAx$

检测头

在现有检测头中，DETR第一个引入Transformer，这简化了检测头设计，消除了后处理技术的需要，如NMS。尽管DETR表现出缓慢的速度，但本文并不追求这些域内任务卓越性能。相反使用这些任务头作为桥梁恢复ViT的细粒度信息。
DETR生成固定数量的可学习查询嵌入，这些嵌入用作解码器输入。这些查询通过自注意力相互作用，并通过交叉注意力与平坦图像特征相互作用。