1.model
1.1 Architecture
图像分辨率为固定的正方形,224,448,896,这导致每种模型都有固定数量的图像token,256,1024,4096。图像在最前面,无需特殊的位置标记,BOS标记文本的开始,\n作为SEP token,不出现在前缀中,单独对SEP进行标记,以避免它与前缀的结束或后缀的开头合并。
1.2 pretraining
stage 0:单模态预训练;
stage 1:多模态预训练,没有任何部分是被冻结的;
stage 2:分辨率提高,在更高分辨率下进行短暂的继续预训练;
stage 3:transfer,将基础模型转变为任务特定的模型。
1.2.1 stage 0:Unimodal pretraining
不训练了。siglip图像编码器,gemma-2B
1.2.2 stage 1:Multimodal pretraining
保持图像编码器不变是常见的做法,图像注释和其他更难学习的任务能够为图像编码器提供有价值的信号