【LMM 002】大型语言和视觉助手 LLaVA-1.5

论文标题:Improved Baselines with Visual Instruction Tuning
论文作者:Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee
作者单位:University of Wisconsin-Madison, Microsoft Research, Columbia University
论文原文:https://arxiv.org/abs/2310.03744
论文出处:–
论文被引:75(12/31/2023)
论文代码:https://github.com/haotian-liu/LLaVA,12k star
项目主页:https://llava-vl.github.io/

Abstract

大型多模态模型(Large Multimodal Models,LMM)最近在视觉指令调优方面取得了令人鼓舞的进展。在本说明中,我们展示了 LLaVA 中完全连接的视觉-语言跨模态连接器的强大功能和数据效率。我们对 LLaVA 进行了简单的修改,即使用 CLIP-ViT-L-336px 与 MLP 投影,并添加了以学术任务为导向的 VQA 数据和简单的响应格式提示,从而建立了更强大的基线,在 11 项基准测试中达到了最先进的水平。我们最后的 13B 检查点仅使用了 120 万个公开数据,在单个 8 卡 A100 节点上只用了 1 天就完成了全部训练。我们希望这能使最先进的 LMM 研究更容易获得。

1. Introduction

大型多模态模型(LMM)在研究界越来越受欢迎,因为它们是实现通用辅助工具的关键构件[1, 22, 35]。最近关于 LMM 的研究都集中在一个核心概念上,即视觉指令调优[28]。研究结果令人鼓舞,例如 LLaVA [28] 和 MiniGPT-4 [49] 在自然指令遵循和视觉推理能力方面取得了令人印象深刻的成果。为了更好地了解 LMM 的能力,人们提出了多个基准 [11, 20, 26, 29, 43]。近期的研究进一步证明,通过扩大预训练数据[2, 9],指令遵循数据[9, 21, 45, 46],视觉编码器[2]或语言模型[31]的规模,LMM 的性能得到了进一步提高。LLaVA 架构还可用于不同的下游任务和领域,包括区域级[6, 44]和像素级[19]理解,生物医学助手[23],图像生成[3],对抗研究[4, 47]。

本说明在 LLaVA 框架的基础上建立了更强大,更可行的基线。我们报告了两个简单的改进,即 MLP 跨模态连接器和纳入学术任务相关数据(如 VQA),这两个改进与 LLaVA 框架是正交的,与 LLaVA 一起使用时,能带来更好的多模态理解能力。InstructBLIP [9] 或 Qwen-VL [2] 需要在数亿甚至数十亿的图像-文本对数据上训练专门设计的视觉重取样器,相比之下,LLaVA 采用了最简单的 LMM 架构设计,只需要在 60 万个图像-文本配对上训练一个简单的全连接投影层。我们的最终模型可以在一台 8 卡 A100 机器上用 1 天左右的时间完成训练,并在各种基准测试中取得最先进的结果。此外,与 Qwen-VL [2] 在训练中使用内部数据不同,LLaVA 仅使用公开数据。我们希望这些经过改进且易于重现的基准能够为开源 LMM 的未来研究提供参考。

2. Background

Instruction-following LMM.

常见的架构包括一个用于编码视觉特征的预训练视觉主干,一个用于理解用户指令并生成响应的预训练大型语言模型(LLM),以及一个用于将视觉编码器输出与语言模型相匹配的视觉-语言跨模态连接器。如图 1 所示,LLaVA [28] 可能是 LMM 最简单的架构。可选择使用视觉重采样器(如 Qformer [24])来减少视觉 batch 的数量 [2 , 9, 49]。指令遵循 LMM 的训练通常分为两个阶段。

  • 首先,视觉-语言对齐预训练阶段利用图像-文本对将视觉特征与语言模型的单词嵌入空间对齐。早期的研究利用相对较少的图像-文本对(如 600K 对 [28] 或 600 万对 [49]),而最近的一些研究则在大量图像-文本对(如 1.29 亿对 [9] 和 1.4B 对 [2])上对特定语言模型的视觉语言连接器进行预训练,以最大限度地提高 LMM 的性能。

  • 其次,视觉指令调优阶段对视觉指令模型进行调优,使模型能够满足用户对涉及视觉内容的指令的不同要求。

在这里插入图片描述

Multimodal instruction-following data.

在 NLP 领域,研究表明,指令遵循数据的质量在很大程度上会影响指令遵循模型的能力[48]。在视觉指令调优方面,LLaVA[28] 率先利用纯文本 GPT-4 将现有的 COCO[27] 边框和Caption数据集扩展为多模态指令遵循数据集,其中包含三种类型的指令遵循数据:

  • 对话式 QA
  • 详细描述
  • 复杂推理

LLaVA 的管道已被用于扩展到文本理解[45],百万尺度[46]和区域级对话[6]。InstructBLIP [9] 结合了面向学术任务的 VQA 数据集,进一步增强了模型的可视化能力。相反,[5] 发现这种天真的数据合并会导致模型倾向于过度拟合 VQA 数据集,从而无法参与自然对话。作者进一步建议利用 LLaVA 管道将 VQA 数据集转换为对话风格。虽然这对训练很有效,但却增加了数据扩展的复杂性。

3. Improved Baselines of LLaVA

Overview.

在这里插入图片描述

作为视觉指令调优的初始作品,LLaVA 在视觉推理能力方面表现出了令人称道的熟练程度,在现实生活中视觉指令遵循任务的各种基准测试中甚至超过了最新的模型,而在通常需要简短答案(如单词)的学术基准测试中仅有不足。后者是由于 LLaVA 没有像其他方法那样在大规模数据上进行预训练。在本说明中,我们首先在表 1 所选的三个数据集上研究了数据,模型和输入图像分辨率的缩放效应,然后在表 2 所列的 12 个不同基准集上将最终模型与现有 LMM 进行了比较。我们的研究表明,LLaVA 的架构在视觉指令调优方面功能强大,数据效率高,与所有其他方法相比,LLaVA 使用更少的计算和训练数据实现了最佳性能

在这里插入图片描述

Response formatting prompts.

我们发现,InstructBLIP [9] 等方法无法[5]在短式和长式 VQA 之间取得平衡的主要原因如下。

  • 首先,回答格式的提示含糊不清。例如,Q:{问题} A: {答案}。这样的提示没有明确指出理想的输出格式,即使是自然的视觉对话,也会使 LLM 过度适应简短的答案。
  • 第二,没有对 LLM 进行微调。InstructBLIP 只对 Qformer 进行指令微调,使得第一个问题更加严重。它需要 Qformer 的视觉输出标记来控制 LLM 输出的长度,使其成为长式或短式,就像前缀调优那样 [25],但 Qformer 与 LLaMA 等 LLM 相比,由于容量有限,可能无法正确地做到这一点。定性示例见表 6。

在这里插入图片描述

为解决这一问题,我们建议使用单个回答格式提示,明确指出输出格式,在提示简短回答时附加在 VQA 问题的末尾:Answer the question using a single word or phrase.。我们的经验表明,当 LLM 使用这种提示进行微调时,LLaVA 能够根据用户的指示正确调优输出格式,并且不需要使用 ChatGPT [5] 对 VQA 数据进行额外处理,从而进一步扩展到各种数据源。如表 1 所示,只需在训练中加入 VQAv2 [12],LLaVA 在 MME 上的性能就会显著提高(1323.8 vs 502.8),比 InstructBLIP 高出 111 分。

MLP vision-language connector.

受到从线性投影到 MLP 的自我监督学习性能提高的启发 [7, 8],我们发现,与最初的线性投影设计相比,使用双层 MLP 提高视觉语言连接器的表示能力可以提高 LLaVA 的多模态能力

Academic task oriented data.

如表 1 所示,我们进一步增加了面向学术任务的 VQA 数据集,用于 VQA,OCR 和区域级感知,以从不同方面增强模型的能力。我们首先纳入了 InstructBLIP 中使用的四个附加数据集:开放知识 VQA(OKVQA [33],A-OKVQA [37])和 OCR(OCRVQA [34],TextCaps [39])。A-OKVQA 被转换为多选题,并使用特定的回答格式提示:Answer with the option's letter from the given choices directly。LLaVA 仅使用了 InstructBLIP 所使用数据集的一个子集,就已经在表 1 中的所有三项任务中超过了 InstructBLIP,这表明 LLaVA 的设计非常有效。此外,我们发现进一步添加区域级 VQA 数据集(Visual Genome [18],RefCOCO [17 , 32])可以提高模型定位细粒度视觉细节的能力。

Additional scaling.

我们进一步提高了输入图像的分辨率,使 LLM 能够清晰地 "看到 " 图像的细节,并添加了 GQA 数据集作为额外的视觉知识源。我们还加入了 ShareGPT [38] 数据,并像 [2, 6, 31] 那样将 LLM 放大到 13B。MM-Vet 的结果表明,当 LLM 扩展到 13B 时,改进最为显著,这表明基础 LLM 在视觉对话方面的能力非常重要。我们将所有修改后的最终模型称为 LLaVA-1.5(表 1 中的最后两行),它的性能令人印象深刻,大大超过了最初的 LLaVA [28]。

4. Discussion

Comparison with SoTA.

我们在各种学术 VQA 基准和最近专门为指令遵循 LMM 提出的基准(共 12 项基准)上对 LLaVA-1.5 进行了基准测试。我们发现,尽管使用的预训练和指令调优数据比其他方法少很多[2, 9],但在 12 个基准中的 11 个基准上,LLaVA-1.5 实现了最佳性能。令人鼓舞的是,LLaVA-1.5 利用最简单的架构,学术计算和公共数据集实现了最佳性能,并为未来研究提供了一个完全可重现且经济实惠的基线。研究结果还表明,在提高 LMM 能力方面,视觉指令调优比预训练发挥着更重要的作用,并对 LMM 需要大量视觉语言对齐预训练的普遍观点提出了质疑[2, 9, 24],尽管视觉编码器(如 CLIP [36],OpenCLIP [16],EVA-CLIP [10] 等)已经在网络规模的图像-文本配对数据集上进行了预训练。LLaVA-1.5(甚至是 7B 模型)的表现优于 80B IDEFICS [15],后者是一种类似于 Flamingo 的 LMM,具有数十亿个用于跨模态连接的可训练参数。这也让我们重新思考了视觉采样器的优势以及额外的大规模预训练在多模态指令遵循能力方面的必要性。

Zero-shot format instruction generalization.

在这里插入图片描述

尽管 LLaVA-1.5 只在有限的几种格式指示下进行了训练,但它可以泛化到其他格式指示。首先,VizWiz [13] 要求模型在所提供的内容不足以回答问题时输出 “无法回答”,而我们的回答格式提示(表 8)有效地指示模型这样做(无法回答问题的回答率为 11.1% → 67.8%)。我们还提供了一些定性示例,说明如何指示 LLaVA-1.5 验证棘手问题(表 3)并以受限的 JSON 格式进行回复(表 4)。

在这里插入图片描述

在这里插入图片描述

Zero-shot multilingual capability.

虽然 LLaVA-1.5 完全没有针对多语言多模态指令遵循进行微调,但我们发现它能够跟踪多语言指令,这部分归功于 ShareGPT [38] 中的多语言指令。我们在 MMBenchCN [29]上定量评估了模型对中文的泛化能力,MMBench 的问题被转换为中文。值得注意的是,LLaVA-1.5 比 Qwen-VL-Chat 高出 7.3%(63.6% vs 56.7%),尽管 Qwen 对中文多模态指令进行了微调,而 LLaVA-1.5 没有。

Computational cost.

对于 LLaVA-1.5,我们使用了与 LCS-558K1 相同的预训练数据集,并保持与 LLaVA [28] 大致相同的训练迭代次数和批量大小进行指令调优。由于图像输入分辨率提高到 336px,LLaVA-1.5 的训练时间是 LLaVA 的 2 倍:使用 8 卡 A100s 进行 6 小时的预训练和 20 小时的视觉指令调优。

Limitations.

尽管 LLaVA-1.5 取得了令人鼓舞的成果,但我们必须承认它还存在一些局限性。

  • 首先,LLaVA 使用的是完整的图像patch,这可能会延长每次训练迭代的时间。虽然视觉重取样器 [2, 9, 24] 减少了 LLM 中视觉patch的数量,但目前在训练数据量相当的情况下,视觉重取样器无法像 LLaVA 那样高效收敛,这可能是由于重取样器中的可训练参数较多。开发具有样本效率的视觉重取样器,可以为未来扩大指令遵循多模态模型的规模铺平道路。
  • 其次,LLaVA-1.5 还不能处理多幅图像,原因是缺乏此类指令遵循数据,以及上下文长度的限制。
  • 第三,尽管 LLaVA1.5 能熟练地遵循复杂指令,但它在某些领域的问题解决能力仍然有限,这可以通过更强大的语言模型和高质量,有针对性的视觉指令调优数据来改善。
  • 最后,尽管 LLaVA-1.5 的幻觉倾向大大降低,但它也难免产生幻觉和偶尔传播错误信息,因此在关键应用(如医疗)中应谨慎使用。

Appendix

Data.

我们的最终训练数据包含多种数据集:

  • VQA [12 , 14, 33, 37]
  • OCR [34, 39]
  • region-level VQA [17, 18 , 32]
  • 视觉对话 [28]
  • 语言对话 [38]

我们采用多种策略来降低训练成本并提高效率,具体如下:

  1. 对于所有 VQA 数据集,来自同一训练图像的 QA 对都会合并为一个对话。
  2. 对于 ShareGPT [38],我们按照 [41]的方法过滤掉无效对话。与 Vicuna[41]不同的是,超过 2048 个词组的长对话会被截断,而不是拆分成多个对话。这样就会产生 40K 个对话。
  3. A-OKVQA [37] 中的每对 QA 都会被增强 k 次,其中 k 是每个问题的选项数,以抵消多选数据的不足。
  4. 从 OCRVQA [34] 中抽取 80K 个对话样本。
  5. 对于视觉基因组,我们对带有附加注释的图像抽取 10 个注释样本。
  6. 对于 RefCOCO,会话被分割成片段,每个片段包含少于 10 个会话。
  7. 我们发现语言对话往往比图像对话更长。在每一批训练中,我们只从一种模态中抽取对话样本,这样可以将训练速度提高 25%,而且不会影响最终结果。

所有数据分拆在一起,并以相同的概率进行抽样。我们在表 7 中列出了最终数据的答题格式提示,在表 8 中列出了每个评价基准所使用的答题格式提示。

在这里插入图片描述

Hyperparameters.

LLaVA-1.5 使用的超参数集与最初的 LLaVA 相同,只是由于使用了 MLP 投影层而不是最初的线性投影层设计,将预训练的学习率减半。表 5 显示了第一阶段视觉语言对齐预训练和第二阶段视觉指令调优的训练超参数。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/590454.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JavaScript的三种引入的方式

目录 (一).什么是JS1.1JS的特点1.2JS的组成 (二).JS引用的三种方式2.1标签引用(或嵌入式)2.2文件引用(外链式)2.3行内式 (三).JS三种引用方式的优缺点1.行内方式:2.标签引用(或嵌入式):3.文件引…

如何高效查询文件:Linux 下的多种方法详解

如何高效查询文件:Linux 下的多种方法详解 在日常工作中,我们经常需要查找文件,无论是寻找特定的代码文件、配置文件还是其他文档。Linux 提供了多种强大的命令和工具,通过巧妙地使用管道符,我们可以将这些命令组合起来…

连锁门店管理需要信息化系统

连锁门店管理的信息化系统可以提供以下功能,以满足连锁企业日常管理的需求: 1. 连锁线下收银:信息化系统可以提供线下收银功能,包括商品扫码、价格结算、支付方式选择等。通过系统记录每笔交易数据,方便对销售情况进行…

【基于VirtualBox及openEuler20.03 TLS SP1编译openGauss2.1.0源码】

【openEuler 20.03 TLS编译openGauss2.1.0源码】 一、安装环境二、安装步骤 一、安装环境 项目Value虚拟机virtualbox操作系统openEuler 20.03 TLSopenGauss2.1.0openGauss-third_party2.1.0 二、安装步骤 以下操作需要在root用户下执行 编辑/etc/selinux/config vim /etc/s…

C++程序编译

GCC编译器 文章目录 GCC编译器 源文件 为 Main.cpp 注意cpp文件 一定要用g命令 否则没办法执行 预处理(Pre-Processing):首先会经过预处理器将程序中的预编译指令进行处理,然后把源文件中的注释这些没用的东西都给扬了。 g -E Mai…

Qt6.5示例:QMainWindow集成QMenuBar菜单栏

欢迎关注公众号(20YC编程),有免费C视频课程哦! -今日内容- 1 QMenuBar简介 QMenuBar是Qt框架中的一个菜单栏类,它提供了一个可以包含一个或多个QAction对象或级联的QMenu对象的菜单栏。 QMenuBar通常被放置在主窗口的标题栏下方&#xff0…

消息队列LiteQueue

文章目录 一、简介二、设计2.1 队列结构设计2.2 队列接口设计 三、实现3.1 队列锁的实现3.2 创建队列3.3 写入队列3.4 读出数据3.5 判断队列是否为空3.6 判断队列是否为满3.7 清空队列3.8 删除队列 四、测试参考 一、简介 收到消息时先把接收到的消息放到队列中。在任务中从队…

63页!嵩山版Java开发手册分享

作为广受欢迎的编程语言之一,Java在软件开发领域扮演着重要的角色。然而,由于Java的灵活性和广泛应用,很容易出现代码质量低下、可读性差、维护困难等问题。为了解决这些问题,阿里巴巴集团发布了一份权威指南——阿里嵩山版Java开…

【2023年第十三届APMCM亚太地区大学生数学建模竞赛】A题 水果采摘机器人的图像识别 35页论文及python代码

【2023年第十三届APMCM亚太地区大学生数学建模竞赛】A题 水果采摘机器人的图像识别 1 题目 水果采摘机器人的图像识别 中国是世界上最大的苹果生产国,年产量约为3500万吨。与此同时,中国也是世界上最大的苹果出口国,世界上每两个苹果中就有…

iToF人脸识别

iToF(间接飞行时间)是一种测量光飞行时间的技术,主要应用于人脸识别。 iToF人脸识别技术在哪些场景下会用到 iToF人脸识别技术可以应用于许多场景,以下是一些常见的应用场景: 平安城市:在城市监控系统中,iToF人脸识别技术可以用于实时监控、目标检测和识别,以及异常行为…

WEB 3D技术 three.js通过光线投射 完成几何体与外界的事件交互

本文 我们来说 光线投射 光线投射技术是用于3维空间场景中的交互事件 我们先编写代码如下 import ./style.css import * as THREE from "three"; import { OrbitControls } from "three/examples/jsm/controls/OrbitControls.js";const scene new THRE…

添加 Android App Links

添加 Android App Links功能 介绍一个简单的效果Android配置Add Url intent filtersAdd logic to handle the intentAssociate website 搭建网页支持AppLinks 介绍 Android App Links 是指将用户直接转到 Android 应用内特定内容的 HTTP 网址。Android App Links 可为您的应用带…

机械过滤器(石英砂过滤器)和多介质过滤器的区别 工作原理动画

​ 1:机械过滤器多介质石英砂过滤器介绍 机械过滤器:预处理水质的关键设备 机械过滤器,也被称为压力式过滤器,是纯水制备过程中不可或缺的预处理设备。它在水处理系统中扮演着重要的角色,能够有效地去除水中的悬浮物…

《Python机器学习原理与算法实现》学习笔记

以下为《Python机器学习原理与算法实现》(杨维忠 张甜 著 2023年2月新书 清华大学出版社)的学习笔记。 根据输入数据是否具有“响应变量”信息,机器学习被分为“监督式学习”和“非监督式学习”。 “监督式学习”即输入数据中即有X变量&…

Linux服务器搭建笔记-006:拓展/home目录容量

一、问题说明 Ubuntu服务器在使用过程中创建的新用户,每位用户会在/home目录下生成一个属于其个人的主文件夹。如果不限制各个用户的使用空间,所有的用户都会共用/home所挂载的硬盘。在这种多用户情况下,会很快的填满/home目录,导…

uniapp 添加自定义图标

1. 下载自定义图标 在阿里图标库,选择喜欢的图标库 https://www.iconfont.cn/collections/index 建议按收藏数排序进行,能更快找到合适的图标 点开喜欢的图标库(如 Ant Design 官方图标库),将喜欢的图标添加到图标收集…

仿网易云音乐网站PHP源码,可运营的原创音乐分享平台源码,在线音乐库系统

源码介绍 使用PHP和MYSQL开发的原创音乐分享平台源码,仿网易云音乐网站。用户可以在网站上注册并上传自己的音乐作品,系统内置广告系统,为网站创造收入来源。 安装教程 1.导入sql.sql 2.修改 includes\config.php 数据库信息和网址都改成…

B2005 字符三角形(python)

a input() print( a) print( a a a) print(a a a a a)python中默认输入的是字符型,第一句就是输入了一个字符赋给a python中单引号内的也是字符串,用print输出需要连接的字符串时用加号加在后面即可

数据结构:基于数组的环形队列(循环队列)实现

1 前言 队列是一种先进先出的线性表,简称为FIFO。它只允许在队尾插入成员,在队头删除成员,就像现实生活中排队上车一样。 队列的实现可以通过链表或数组完成,一般来说都推荐使用链表来实现队列,使用数组实现队列时每次…

Casper Network 推出 “DevRewards” 计划:允许所有开发者赚取激励

Casper Association 是一个致力于推动区块链大规模采用的非营利组织,该组织在 Casper Network 系统中推出了一个被称为 “DevRewards ” 的奖励计划,旨在邀请开发者提交能够解决现有问题的创新技术方案,以帮助 Casper Network 系统进一步完善…