简介
从NLP中的监督微调(Supervised Fine-tuning)获得的灵感,本文探索了细粒度SFT在预训练后增强视觉基础模型潜力。本文提出了一种二阶段方法ViSFT释放视觉基础模型细粒度知识。具体地,通过一些域内任务执行视觉联合学习增强视觉基础模型,然后在域外基准任务上进行测试。
模型细节
第一阶段,使用EVA-CLIP模型中预训练的ViT作为backbone并将其冻结。然后独立连接检测、分割、描述头进行微调。该步骤目标是获得与ViT特征兼容的任务头。在第二阶段,用LoRA权重增强ViT,并连接所有任务头进行微调。除了增加的LoRA权重外其他模块将重新冻结。
LoRA更新矩阵
对于EVA-ViT的查询和值嵌入层内的预训练权重矩阵 W q / v ∈ R d × k W_{q/v}\in \mathbb{R}^{d\times k} Wq/v∈Rd×k,本文通过引入低秩分解对齐更新添加约束 W q / v + Δ W = W q / v + B A W_{q/v}+\Delta W=W_{q/v}+BA Wq/v+ΔW=Wq/v+BA, B ∈ R d × r , A ∈ R r × k B\in \mathbb{R}^{d\times r},A\in \mathbb{R}^{r\times k} B∈Rd×r,A∈Rr×k。在训练第二阶段,权重矩阵 W q , W v W_{q},W_{v} Wq,Wv冻结, A , B A,B A,B包含可训练参数。对于 h q / v = W q / v x h_{q/v}=W_{q/v}x hq/v=Wq/vx,前向传播即:
h q / v = W q / v x + Δ W x = W q / v x + B A x h_{q/v}=W_{q/v}x+\Delta W x=W_{q/v}x+BAx hq/v=Wq/vx+ΔWx=Wq/vx+BAx
检测头
在现有检测头中,DETR第一个引入Transformer,这简化了检测头设计,消除了后处理技术的需要,如NMS。尽管DETR表现出缓慢的速度,但本文并不追求这些域内任务卓越性能。相反使用这些任务头作为桥梁恢复ViT的细粒度信息。
DETR生成固定数量的可学习查询嵌入,这些嵌入用作解码器输入。这些查询通过自注意力相互作用,并通过交叉注意力与平坦图像特征相互作用。
分割头
使用Mask2former作为分割头。作为分割任务统一框架,Mask2former能够处理实例分割和全景分割,从而为各种分割注释的实验提供了便利。
Mask2former也生成固定数量的查询嵌入。分割掩码表示是从第j嵌入的解码器的最终层隐藏状态和每像素特征图之间点积导出。
描述头
采用经典的LSTM网络,通过在每个时间步长生成一个单词生成描述,条件是上下文向量、以前的隐藏状态和以前生成的单词。