A Survey on Multimodal Large Language Models综述

论文题目:A Survey on Multimodal Large Language Models

论文地址:https://arxiv.org/pdf/2306.13549

话题:多模态LLMs综述

MLLMs Paper: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

1. 摘要

近期,以GPT-4V为代表的跨模态大型语言模型(MLLM)成为研究热点,它利用强大的大型语言模型(LLM)作为大脑执行跨模态任务。MLLM展现出如基于图像创作故事、OCR-free数学推理等令人惊讶的能力,这在传统跨模态方法中极为罕见,预示着通往通用人工智能的潜在路径。为此,学术界和产业界都在努力开发能与GPT-4V竞争甚至更好的MLLM,以惊人的速度推动研究极限。本文旨在追踪和总结MLLM的近期进展。首先,我们阐述了MLLM的基本公式及其相关概念,包括架构、训练策略和数据以及评估。接着,我们介绍了如何扩展MLLM以支持更多粒度、模态、语言和场景的研究主题。随后,我们探讨了跨模态幻觉和扩展技术,包括多模态ICL(M-ICL)、多模态CoT(M-CoT)和LLM辅助视觉推理(LAVR)。最后,我们讨论了现有挑战并指出有潜力的研究方向。鉴于MLLM时代才刚刚开始,我们将持续更新此综述,希望它能激发更多研究。

2. 引言

        近年来,大型语言模型(LLMs)在数据规模和模型规模上的扩展带来了显著的进步,包括指令遵循、情境学习(ICL)和思维链(CoT)等能力。尽管LLMs在大多数自然语言处理(NLP)任务上展示了令人惊讶的无/少量样本推理性能,但由于它们只能理解离散文本,因此对视觉信息是“盲”的。与此同时,大型视觉模型(LVMs)在视觉识别上表现良好,但在推理能力上通常落后。

        LLM(大型语言模型)和LVM(多模态模型)的结合催生了MLLM这一新领域。MLLM能够接收、推理和输出多模态信息,是基于LLM的模型。在MLLM之前,多模态研究分为判别式和生成式两种范式,具体代表是CLIP和OFA。CLIP是判别式范式的代表,它将视觉和文本信息投影到统一的空间,为下游多模态任务搭建桥梁。OFA是生成式范式的代表,它以序列到序列的方式统一多模态任务。MLLM在序列操作上与OFA类似,但有两个显著特点:一是基于具有亿级参数的LLM,二是采用新的训练范式,如多模态指令调整,以鼓励模型遵循新指令。由于这两个特点,MLLM展现出新的能力,如根据图像编写网站代码、理解梗的深层含义以及无OCR的数学推理。

        自GPT-4发布以来,多模态语言模型(MLLMs)因其多模态能力而引发了研究热潮。研究迅速发展,得益于学术界和工业界的努力。初步研究集中在基于文本提示和图像、视频、音频等模态的内容生成。后续工作扩展了能力或应用场景,包括:1)更细粒度的支持,通过框或点击来支持特定区域或对象;2)增强对输入和输出模态的支持,如图像、视频、音频和点云;3)改进语言支持,将MLLMs的成功扩展到其他语言;4)扩展到更多领域和用例,如医学图像理解和文档解析,以及开发多模态代理来辅助现实世界交互。图1展示了MLLMs的发展时间线。

        接着,深入讨论了MLLMs的一些重要问题,如如何进一步改进或扩展、以及如何缓解多模态幻觉问题。随后,介绍了三个关键技术,分别针对特定场景:M-ICL用于提升少样本性能,M-CoT用于复杂推理任务,以及一个开发基于LLM的系统来解决复合推理任务或处理常见用户查询的一般思路。最后,综述以总结和潜在的研究方向结束。

3. 结构

        典型的MLLM可以抽象为三个模块:预训练的模态编码器、预训练的LLM(大型语言模型)以及连接它们的模态接口。这些模块可以类比为人类感官系统,其中模态编码器(如图像/音频编码器)相当于人的眼睛和耳朵,接收并预处理光学/声学信号,而LLM则相当于大脑,理解和推理处理后的信号。模态接口的作用是协调不同模态。一些MLLM还包括一个生成器,除了文本外还能输出其他模态。图2展示了这种架构的图示。在这一节中,我们依次介绍了每个模块。

3.1 模态编码器(Modality Encoder)

        编码器将原始信息(如图像或音频)压缩成更紧凑的表示形式。为了提高效率,通常使用已经与其他模态对齐的预训练编码器,而不是从头开始训练。例如,CLIP通过在大规模图像-文本对上进行预训练,使其视觉编码器在语义上与文本对齐。因此,使用这种预先对齐的编码器通过对齐预训练更容易与LLM对齐。

        常用的图像编码器总结在表1中。除了基本的CLIP图像编码器外,一些研究也探索了使用其他变体。例如,MiniGPT-4使用了EVA-CLIP(ViT-G/14)编码器,并采用了改进的训练技术。Osprey则引入了基于卷积的ConvNext-L编码器,以利用更高分辨率和多级特征。还有一些工作探索了无编码器架构,例如Fuyu-8b直接将图像块投影到LLM之前,从而自然支持灵活的图像分辨率输入。

        在选择编码器时,通常考虑的因素包括分辨率、参数大小和预训练语料库许多研究表明,使用更高分辨率的图像可以显著提高性能。提高输入分辨率的方法可以分为直接缩放和块划分方法。直接缩放方法将高分辨率图像输入到编码器中,这通常需要进一步调整编码器或使用更高分辨率的预训练编码器。CogAgent使用双编码器机制,分别处理高分辨率和低分辨率图像,并通过交叉注意力将高分辨率特征注入到低分辨率分支。块划分方法将高分辨率图像切割成块,并复用低分辨率编码器。与输入分辨率相比,参数大小和训练数据组成的重要性较小。

        其他模态的编码器。例如,Pengi使用CLAP模型作为音频编码器,而ImageBind-LLM使用ImageBind编码器,它支持编码图像、文本、音频、深度、热成像和惯性测量单元(IMU)数据。这些强大的编码器使得ImageBind-LLM能够响应多种模态的输入。

3.2 Pre-trained LLM

        使用预训练的大型语言模型(LLM)的效率和实用性,因为它们已经通过大量的网络语料库预训练,包含了丰富的世界知识,并展现出强大的泛化和推理能力。表格2总结了常用的公共LLM,其中大多数属于因果解码器类别,遵循GPT-3。FlanT5系列是早期LLM,用于BLIP-2和InstructBLIP等工作中。LLaMA系列和Vicuna家族是具有代表性的开源LLM,吸引了学术界的关注。由于这两个LLM主要在英语语料库上预训练,因此在多语言支持方面有限,如中文。相比之下,Qwen是一个支持中文和英语的双语LLM。

        增加LLM的参数规模可以带来额外的收益,类似于提高输入分辨率的效果。例如,从7B到13B的参数规模提升在各种基准测试中带来了全面的改进。使用34B的LLM时,模型展示了零样本的中文能力,尽管训练数据中只有英语的多模态数据。Lu等人通过将LLM从13B扩展到35B和65B/70B也观察到了类似的现象,较大的模型在针对多语言LLM设计的基准测试中带来了持续的提升。同时,也有一些工作使用较小的LLM来促进在移动设备上的部署,例如MobileVLM系列使用缩放后的LLaMA(1.4B/2.7B)模型,使其能够在移动处理器上高效地进行推理

        最近,对于LLM中混合专家(MoE)架构的研究引起了越来越多的关注。与密集模型相比,稀疏架构通过选择性地激活参数,可以在不增加计算成本的情况下扩大总参数规模。实验上,MM1和MoE-LLaVA发现,MoE的实现几乎在所有基准测试中都比密集模型有更好的性能。

3.3 Modality interface

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/46816.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java版【植物大战僵尸+源码】

上期回顾: 今天给大家推荐一个Gtihub开源项目:PythonPlantsVsZombies,翻译成中就是植物大战僵尸。 《植物大战僵尸》是一款极富策略性的小游戏。可怕的僵尸即将入侵,每种僵尸都有不同的特点,例如铁桶僵尸拥有极强的抗…

用 LLM 构建企业专属的用户助手

TL;DR 本文主要介绍了 PingCAP 如何使用大型语言模型(Large Language Model,LLM)构建一个搭载企业专属知识库的智能客服机器人。除了采用行业内通行的基于知识库的问题解答方法,我们还尝试让模型在“小样本(Few-Shot&…

Leetcode 100361100367.切割蛋糕的最小总开销

Medium&#xff1a;动态规划搜索&#xff08;实际就是优化后的dfs&#xff09; class Solution { public: int f[25][25][25][25] {0};int dp(int row1, int col1, int row2, int col2, vector<int>& horizontalCut, vector<int>& verticalCut){if(row1 …

Autosar RTE配置-Assembly和Delegation的使用-基于ETAS软件

文章目录 前言Assembly和Delegation的含义Delegation的使用Assembly的使用总结 前言 RTE中的Compostion内部的SWC之间的连接使用Assembly Connector进行连接。这样的连接一般都是一个SWC的Pport对应另一个SWC的Rport。而Autosar软件中往往不只一个Composition(一般可以以核的数…

Ubuntu的磁盘扩容遇到的问题

1.先用终端上的命令查看磁盘的使用情况 #查看磁盘空间容量的占用情况 $ df -h #查看当前文件夹中&#xff0c;各个文件占用磁盘空间的情况 $ du -sh* 如果容量少的话&#xff0c;需要尽快扩容 2.开机前的扩容 2.1 VMware 扩展磁盘空间 关闭当前客户机&#xff0c;在编辑虚拟…

第三季度加密市场动荡:市场缺乏炒作题材,波动加剧

摘要 根据 Arkham 的数据&#xff0c;德国政府联邦刑事调查局 (BKA) 可能已完成抛售&#xff0c;其持有量从 6 月中旬的约 50,000 BTC&#xff08;35.5 亿美元&#xff09;减少到 7 月 12 日的数据为 0 BTC。市场担忧美国经济在今年晚些时候或 2025 年初陷入衰退&#xff0c;导…

Go Web开发框架之Gin

&#x1f49d;&#x1f49d;&#x1f49d;欢迎莅临我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

MATLAB quiver矢量图 设置colorbar

给三维矢量图按照不同高度设置箭头颜色 figure clf X surfaceuz(:,1); Y surfaceuz(:,2); Z surfaceuz(:,3); hold onzcolor jet; % qquiver3(X,Y,Z,X,Y,W) for i 1:length(surfaceuz)quiver3(X(i),Y(i),Z(i),X(i),Y(i), Z(i),...Color,zcolor(floor((Z(i) - -0.1) * 2…

ArgMed-Agents:通过多个智能体论证方案增强大模型,进行可解释的临床决策推理

ArgMed-Agents&#xff1a;通过多个智能体论证方案增强大模型&#xff0c;进行可解释的临床决策推理 提出背景ArgMed-Agents 框架目的解法拆解逻辑链 临床讨论的论证方案&#xff08;ASCD&#xff09;论证方案用于决策&#xff08;ASDM&#xff09;论证方案用于副作用&#xff…

宝塔面板以www用户运行composer

方式一 执行命令时指定www用户 sudo -u www composer update方式二 在网站配置中的composer选项卡中选择配置运行

【堆 优先队列 第k大】2551. 将珠子放入背包中

本文涉及知识点 堆 优先队列 第k大 LeetCode2551. 将珠子放入背包中 你有 k 个背包。给你一个下标从 0 开始的整数数组 weights &#xff0c;其中 weights[i] 是第 i 个珠子的重量。同时给你整数 k 。 请你按照如下规则将所有的珠子放进 k 个背包。 没有背包是空的。 如果第…

汇昌联信电商做拼多多运营如何提高效率?

汇昌联信电商做拼多多运营如何提高效率?在电商领域&#xff0c;效率的高低往往直接关系到企业的成败。拼多多作为国内领先的电商平台之一&#xff0c;吸引了大量商家入驻&#xff0c;竞争异常激烈。对于汇昌联信电商而言&#xff0c;提高在拼多多平台的运营效率&#xff0c;不…

逆向案例二十——请求头参数加密,某政府农机购置与应用补贴申请办理服务系统,sm3和sm4的加密

网址&#xff1a;农机购置与应用补贴申请办理服务系统 抓包分析&#xff0c;发现请求头参数有加密&#xff0c;表单有加密&#xff0c;返回的数据也是加密的。 请求头Source是固定的&#xff0c;其他的Sign,以及Timsestamp是加密的 请求载荷也是加密的 返回的数据也是加密的。…

Qt实现MDI应用程序

本文记录Qt实现MDI应用程序的相关操作实现 目录 1.MDM模式下窗口的显示两种模式 1.1TabbedView 页签化显示 1.2 SubWindowView 子窗体显示 堆叠cascadeSubWindows 平铺tileSubWindows 2.MDM模式实现记录 2.1. 窗体继承自QMainWindow 2.2.增加组件MdiArea 2.3.定义统一…

“解锁物流新纪元:深入探索‘沂路畅通‘分布式协作平台“

"解锁物流新纪元&#xff1a;深入探索沂路畅通分布式协作平台" 在21世纪的数字浪潮中&#xff0c;物流行业作为连接生产与消费的关键纽带&#xff0c;其重要性不言而喻。然而&#xff0c;随着市场规模的持续扩大和消费者需求的日益多样化&#xff0c;传统物流模式已…

深度强化学习Deep Rrinforcement Learning|MDP|POMDP

目录 一、深度强化学习概述&#xff08;DRL&#xff09; 1、DRL可以获得复杂网络优化的解决方案 2、DRL允许网络实体学习和构建有关通信和网络环境的知识 3、DRL提供自主决策 4、DRL显著提高了学习速度&#xff0c;特别是在具有大状态和大动作空间的问题中 5、通信和网络中…

7月5日,自然保护地总体规划智能编制系统,线上宣讲会(腾讯会议:638-228-003)

7月5日&#xff08;本周五&#xff09;下午2:30&#xff0c;国家林草局林草调查规划院胡理乐研究员&#xff0c;介绍自然保护地总体规划智能编制系统&#xff0c;欢迎大家线上参加&#xff01;&#xff08;腾讯会议号&#xff1a;638-228-003&#xff09; 系统主要特色&#x…

【python】pandas报错:UnicodeDecodeError详细分析,解决方案以及如何避免

✨✨ 欢迎大家来到景天科技苑✨✨ &#x1f388;&#x1f388; 养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; &#x1f3c6; 作者简介&#xff1a;景天科技苑 &#x1f3c6;《头衔》&#xff1a;大厂架构师&#xff0c;华为云开发者社区专家博主&#xff0c;…

OpenMesh入门,安装,运行示例Hello World

安装 环境 win10&#xff0c;qt5 源码下载编译 进入OpenMesh官网OpenMesh官网 https://www.graphics.rwth-aachen.de/software/openmesh/download/ 使用cmake gui 注意&#xff1a;先安装qt5 使用 CMake-Gui 构建 vs 2019 项目 注意 where is the source code 是<project…

PE73_E6_BLE

PE73_E6_BLE 产品参数 产品型号 PE73_E6_BLE 尺寸(mm) 180*130*13mm 显示技术 电子墨水屏 显示区域(mm) 163.2(H) * 97.92(V) 分辨率(像素) 800*480 像素尺寸(mm) 0.204*0.204 显示颜色 黑/白/红/黄/橙/蓝/绿 视觉角度 180 工作温度 0-50℃ …