文献核心目标
作者的目标是通过多模态指令微调(Visual Instruction Tuning)来训练一个通用的视觉助手,使其能够理解用户的语言指令并与视觉内容结合完成任务。例如,用户可以上传图片并提出问题,模型根据图片内容作出回答。
1. 引言
什么是多模态交互?为什么重要?
人类的多模态交互
- 人类通过多种感知渠道(如视觉、语言)来理解和互动世界。
- 不同的感知渠道各有优势:
- 视觉:擅长处理图像和视觉信息。
- 语言:擅长表达抽象概念。
- 将这些感知渠道结合起来,可以帮助我们更全面地理解世界。
人工智能的目标
- 人工智能的核心目标之一是开发多模态通用助手。
- 这种助手需要能够理解并执行视觉和语言结合的指令,完成各种现实任务。
当前问题:现有方法的局限性
现有视觉模型的局限
- 当前许多视觉模型(如分类、检测、分割、生成等任务)性能强大,但存在以下问题:
- 单任务导向:这些模型通常为单一任务而设计,缺乏通用性。
- 交互性不足:模型只能根据固定的任务设计工作,无法灵活适应用户的复杂指令。
- 语言的局限:语言仅用于描述图像内容,而不是灵活地表达任务指令。
语言模型的启发
- 大型语言模型(LLM),如 ChatGPT 和 GPT-4,展示了语言作为通用接口的潜力:
- 明确任务指令:通过语言可以清晰表达任务需求。
- 灵活性强:可以根据用户输入动态切换任务。
- 但目前的语言模型主要基于纯文本,缺乏处理视觉信息的能力。
新研究的目标:视觉指令调优
研究目标
- 视觉指令调优:将“指令调优”(Instruction Tuning)的方法从文本领域扩展到“视觉-语言多模态”领域。
- 目标是开发一个能够理解图像和语言组合指令的通用视觉助手,以完成多模态任务。
研究贡献
1. 多模态指令数据的构建
- 挑战:缺乏足够的视觉-语言指令数据。
- 解决方案:
- 利用 ChatGPT 和 GPT-4,将现有的图像-文本对转换为“指令-响应”格式。
- 例如,将“图像+描述”转化为“问题+答案”形式,使模型更好地理解任务。
2. 开发大型多模态模型
- 模型架构:
- 使用 CLIP(一个视觉编码器)和 Vicuna(一种开源语言模型)相结合,构建新的多模态模型。
- 使用生成的多模态指令数据进行端到端训练,使模型能够理解复杂的视觉-语言指令。
- 实验结果:
- 实验证明,这种方法显著提升了模型的指令执行能力。
- 当与 GPT-4 结合使用时,该模型在 Science QA 数据集上达到了最新的最高准确率。
3. 多模态评估基准
- 提出了新的评估基准(LLaVA-Bench),包括两个具有挑战性的多模态任务:
- 配对的图像和指令。
- 详细的任务标注。
4. 开源资源
- 研究团队公开了以下资源,促进社区研究:
- 生成的多模态指令数据。
- 模型代码和训练好的模型。
- 一个视觉聊天的演示工具。
2 相关工作
多模态指令执行模型
什么是多模态指令执行模型?
- 多模态指令执行模型是一类能够同时理解视觉信息(如图像)和语言信息(如文字)的AI模型。
- 它们可以根据人类提供的视觉和语言指令,完成各种任务。
- 例如:
- 根据文字指令对图片进行修改。
- 在视觉环境中根据指令完成导航任务。
现有方法的分类
现有的多模态指令执行模型大致可以分为以下两类:
-
端到端训练的模型
- 定义:这些模型是专门为某一特定任务设计的,能够从输入到输出完成整个任务。
- 示例:
- 视觉-语言导航任务:例如在 Habitat [47] 平台上,AI根据自然语言指令(如“走到房间右侧的桌子旁”)在虚拟环境中导航。
- 图像编辑任务:例如 InstructPix2Pix [6],它根据文字描述(如“将天空改为夜晚”)修改输入图像。
-
基于系统协调多个模型
- 定义:这种方法通过一个“协调者”(通常是语言模型),将多个专用模型整合起来完成任务。
- 示例:
- Visual ChatGPT [53]: