Fuyu-8B: A Multimodal Architecture for AI Agents
Blog: https://www.adept.ai/blog/fuyu-8b
TL; DR:无视觉编码器和 adapter,纯解码器结构的多模态大模型。
Adept 是一家做 Copilot 创业的公司,要想高效地帮助用户,必须要准确地理解用户正在干什么,这就需要准确地理解屏幕上的图片、表格、文字等内容。
现有的多模态大模型大多是 Visual Encoder + Adapter + LLM 的结构,这些模型通常只能处理固定分辨率的模型结构。对于分辨率或长宽比不同的图像,只能通过缩放、裁剪或填充来对齐,但这无疑会大大损失掉图片中的原有信息。另外,这些模型一般都需要经过多个不同的训练阶段,如 CLIP 训练 Visual Encoder、多任务训练、不同分辨率训练等。
Fuyu 是一种 Decoder-only 的多模态大模型,无需单独的 Visual Encoder 和 Adapter。Fuyu 将图片切分成 patch 之后,经过映射直接输入到模型中,并用换行符 \n
来标识图片块的换行。简化的结构设计使得 Fuyu 能够在训练和推理时处理任意分辨率的图像,并不需要多个阶段的复杂训练策略。
总结
Fuyu Decoder-only 的结构看起来更自然,并且可以处理任意分辨率图像,在实际中,对文字图、表格、文档的理解更好。