MM1: Methods, Analysis Insights from Multimodal LLM Pre-training

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

相关链接:arxiv
关键字:多模态学习大型语言模型预训练视觉语言连接混合专家模型

摘要

本文讨论了构建高性能的多模态大型语言模型(MLLMs)。特别地,我们研究了各种架构组件和数据选择的重要性。通过对图像编码器、视觉语言连接器以及各种预训练数据选择进行仔细全面的消融实验,我们确定了几个关键的设计经验。例如,我们展示了对于使用精心混合的图像标题、交错的图像文本和纯文本数据进行的大规模多模态预训练,在多个基准测试中实现最先进的(SOTA)少样本结果至关重要,与其他已发布的预训练结果相比。此外,我们展示了图像编码器与图像分辨率和图像标记计数有重大影响,而视觉语言连接器设计的重要性相对较小。通过扩展这些方法,我们构建了MM1,一个多模态模型家族,参数量高达30B,包括密集模型和混合专家(MoE)变体,这些模型在预训练指标上是最先进的,并在一系列已建立的多模态基准测试中经过监督微调后取得了有竞争力的性能。得益于大规模预训练,MM1具有吸引人的特性,如增强的上下文学习能力、多图像推理,使得少样本链式思维提示成为可能。

核心方法

在这里插入图片描述

  1. 图像编码器和视觉语言连接器的设计:我们发现图像分辨率对性能影响最大,其次是模型大小和训练数据组成。而视觉语言连接器的架构设计对最终性能的影响相对较小。
  2. 预训练数据的选择:我们发现交错的图像文本数据和纯文本数据对于少样本和纯文本性能至关重要,而对于零样本性能,标题数据最为重要。
  3. 模型架构和训练过程:我们探索了不同的预训练图像编码器,并研究了如何将视觉特征桥接到LLM空间。我们还详细阐述了如何训练MLLM,包括超参数和训练模型的哪些部分。

实验说明

实验名称数据集指标结果备注
MM1-3B多种数据源准确率73.5包括图像标题、交错图像文本和纯文本数据
MM1-7B多种数据源F1分数61.0同上
MM1-30B多种数据源准确率54.6同上

实验结果表明,MM1模型在多个基准测试中取得了先进的性能,特别是在少样本学习方面。数据来源包括图像标题、交错的图像文本文档和纯文本数据。

结论

通过仔细的建模和数据选择消融实验,我们确定了重要的经验教训,这些经验教训产生了一个在一系列少样本评估中取得SOTA结果的预训练模型。在SFT之后,这个模型家族在广泛的基准测试中产生了有竞争力的性能,同时启用了多图像推理和少样本提示。我们希望这些确定的经验教训能够帮助社区构建强大的模型,超越任何单一的具体模型架构或数据策略。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/754955.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Qt5信号槽机制详解(最新,超级详细!!!)

Qt5信号槽机制详解 目录 信号槽机制的特征Qt4与Qt5中的connect函数讲解信号槽机制示例代码使用Lambda函数作为槽函数 1. 信号槽机制的特征 在Qt5中,信号(Signal)和槽(Slot)具有以下特征: 信号&#xff…

【鸿蒙HarmonyOS开发笔记】动画过渡效果之布局更新动画

概述 动画的原理是在一个时间段内,多次改变UI外观,由于人眼会产生视觉暂留,所以最终看到的就是一个“连续”的动画。UI的一次改变称为一个动画帧,对应一次屏幕刷新,而决定动画流畅度的一个重要指标就是帧率FPS&#x…

云原生(四)、Docker-Compose

Docker-Compose Docker Compose 是一个用于定义和运行多容器 Docker 应用程序的工具。它使用一个简单的 YAML 文件来配置应用程序的服务、网络和卷,从而使得在不同环境中轻松部署应用程序变得更加简单和可靠。 Docker Compose 主要由以下几个核心组件组成&#xf…

前端开发者如何开发自己的地图功能

地图开发 市面上有高德,百度属于常用的,以及小程序内置的腾讯地图,通常用这部分的功能,都需要申请对应的key,来进行使用,一般刚刚开始流量不大,到没什么,流量一大就需要付费。 如何…

数库据设计最佳实践

中老年程序员,从业生涯设计过很多数据库,有用上的也有没用上的,有精心设计花无数心思更改了无数次的也有敷衍了事能用就行的,有最糟糕的设计也有感觉还不错的。在设计和修改过程中有很多疑问和感悟,在此记录一下以方便…

HTML静态网页成品作业(HTML+CSS)——世博园介绍(2个页面)

🎉不定期分享源码,关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 🏷️本套采用HTMLCSS,未使用Javacsript代码,共有2个页面。 二、作品演示 三、代…

BUUCTF-Ezsql1

1.打开靶机 打开第一个链接 2.万能密码 使用万能密码:a or 1 # 密码为随意 第二个用kali打开 3.ssh连接靶机 ssh ctf284490d0-7600-4c65-9160-5ced02f45633.node5.buuoj.cn -p 28191 由题可知密码为123456 4.找到并修改index.php文件 找到index.php文件 #内容如…

spring启动自动执行方法

原文链接: Spring Boot 启动时,让方法自动执行的 4 种方法!-阿里云开发者社区 (aliyun.com) -------------------------------------------------------------------------------------------------------------------------------- 在springBoot中我…

Springboot整合支付宝沙箱支付

2.配置说明 要记住这几个重要的配置 appId 这个是appIdprivateKey 商户私钥publicKey 支付宝公钥, 即对应APPID下的支付宝公钥notifyUrl 支付成功后异步回调地址(注意是必须是公网地址)returnUrl #支付后回调地址signType 签名类型 一般写 RSA2charset utf-8format json #网关…

数据结构奇妙旅程之红黑树

꒰˃͈꒵˂͈꒱ write in front ꒰˃͈꒵˂͈꒱ ʕ̯•͡˔•̯᷅ʔ大家好,我是xiaoxie.希望你看完之后,有不足之处请多多谅解,让我们一起共同进步૮₍❀ᴗ͈ . ᴗ͈ აxiaoxieʕ̯•͡˔•̯᷅ʔ—CSDN博客 本文由xiaoxieʕ̯•͡˔•̯᷅ʔ 原创 CSDN …

印染厂区污水怎么处理

印染厂污水处理是一项十分重要且紧迫的环境问题。随着工业化的快速发展,印染厂所排放的大量废水不仅对环境造成了严重影响,也对人们的生活和健康带来了潜在的威胁。因此,寻找有效的印染厂污水处理方法显得尤为重要。 针对印染厂污水的特点&am…

通过Arthas修改并热发布代码

通过Arthas修改并热发布代码 主要使用jad、mc、retransform三个命令: jad --source-only com.example.demo.arthas.user.UserController > /tmp/UserController.javamc /tmp/UserController.java -d /tmpretransform /tmp/com/example/demo/arthas/user/UserCo…

tp8 mpdf 导出pdf

1. 安装mpdf composer require mpdf/mpdf 2. 然后 使用 use mpdf\Mpdf; 或者 require_once __DIR__ . /vendor/autoload.php; 官方文档 mPDF – mPDF 手册 文档里有很多东西 可以自己去研究 3. 编写代码 下载 (支持中文) $mpdf new Mpdf([mode > utf-8,"autoS…

【技术干货】MediaCrawler:一站式社交平台数据抓取利器,带你玩转小红书、抖音、快手、B站和微博数据分析

一、引言 大数据时代,社交媒体平台上的海量信息为我们提供了丰富洞察市场、研究用户行为的机会。然而,如何高效便捷地收集和整理这些分散在各平台的数据呢?今天,我们将为您揭秘一款专为小红书、抖音、快手、B站和微博打造的强大数…

用python实现视频异常检测

视频异常检测是一个复杂的任务,它涉及到对视频帧的分析和比较,以检测与正常模式不符的异常行为或事件。下面是一个基本的步骤指南,以及如何使用Python实现视频异常检测: 步骤指南 视频帧提取:首先,你需要…

实在智能与中国信通院联合牵头智能体(Agent)标准编制

近日,中国信息通信研究院(以下简称“信通院”)启动国内首个《智能体(Agent)技术要求与评估方法》系列标准编制,实在智能作为参编单位并牵头编制技术能力部分,深度参与该标准对智能体技术要求和评…

阿里云ecs服务器配置反向代理上传图片

本文所有软件地址: 链接:https://pan.baidu.com/s/12OSFilS-HNsHeXTOM47iaA 提取码:dqph 为什么要使用阿里云服务器? 项目想让别人通过外网进行访问就需要部署到我们的服务器当中 1.国内知名的服务器介绍 国内比较知名的一些…

机器学习复习(9)——自定义dataset

目录 第一种dataset(文件夹名即为标签) 用于将格式(1)转换为格式(2) 第二种dataset(标签在labels文件夹下的对应的txt文件里面) 第一种dataset(文件夹名即为标签) 数据组织格式(1) --data ----train …

续上篇 qiankun 微前端配置

上篇文章地址:微前端框架 qiankun 配置使用【基于 vue/react脚手架创建项目 】-CSDN博客 主应用: src/main.js 配置: import Vue from vue import App from ./App.vue import router from ./router import { registerMicroApps, start } …