【论文笔记】xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: xGen-MM (BLIP-3): A Family of Open Large Multimodal Models
作者: Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu
arXiv: https://arxiv.org/abs/2408.08872
项目主页: https://www.salesforceairesearch.com/opensource/xGen-MM/index.html

基本信息

摘要

本报告介绍了xGen-MM(也称为BLIP-3),这是一个用于开发大型多模态模型(LMMs)的框架。

该框架包括精心挑选的数据集、训练方案、模型架构以及一系列LMMs。

xGen-MM,即xGen-MultiModal,扩展了Salesforce xGen在基础AI模型上的计划。

我们的模型在各种任务中进行了严格的评估,包括单图和多图基准测试。

我们的预训练基础模型展现出强大的上下文学习能力,而指令微调模型在类似规模的开放源代码LMMs中表现出竞争力。

此外,我们引入了一个使用DPO进行安全微调的模型,旨在减轻如幻觉等有害行为并提高安全性。

我们将我们的模型、精心挑选的大规模数据集以及微调代码库开源,以促进LMM研究的进一步发展。

模型架构

模型架构

  • LLM: Phi-3-mini
  • Token Sampler: Perceiver Resampler
  • Vision Transformer: SigLIP ViT

训练

Pre-training

Pre-training Datasets

  • Interleaved Dataset Mixture
    • MINT-1T
    • OBELICS
  • Caption Dataset Mixture
    • BLIP3-KALE
    • BLIP3-OCR-200M
    • BLIP3-GROUNDING-50M
    • Other Public Datasets Mixture
      • Datacomp-1B image-text pairs
      • CC12M
      • CC3M
      • VG
      • SBU

BLIP3-OCR-200M

BLIP3-GROUNDING-50M

Supervised Fine-tuning (SFT)

多模态对话、图像描述、视觉问答、图表/文档理解、科学和数学。除了多模态图像-文本数据外,还混合了纯文本指令数据。共100万个公开可用的指令微调样本。

Interleaved Multi-Image Supervised Fine-tuning

多图/图文交错数据: MANTIS、MMDU
为了防止模型退化,混合了SFT阶段训练数据的子集。

Post-training

  • Improving Truthfulness by Direct Preference Optimization: VLFeedback
  • Improving Harmlessness by Safety Fine-tuning: VLGuard

主实验

Pre-training

Few-shot Pretraining Evaluation

Supervised Fine-tuning

Evaluation on single-image benchmarks

Evaluation on multi-image benchmarks

Example model outputs of xGen-MM-instruct-interleave

Post-training

Post-training results

消融实验

Pre-training Ablation

Scaling Pre-training Data

Pre-training Data Recipe

Visual Backbones

Number of Visual Tokens

SFT Ablation

Any-Resolution Vision Token Sampling & Instruction-Aware Vision Token Sampling

The impact of text-only SFT data

总结

我们引入了xGen-MM(BLIP-3),这是一个用于在精心挑选的大型数据集混合体上训练一系列开源大型多模态模型的综合框架。

xGen-MM(BLIP-3)展示了诸如多模态情境学习等新兴能力,并在多模态基准测试中取得了令人印象深刻的成果。

通过开源xGen-MM(BLIP-3)、我们的精选数据集以及我们的SFT微调代码库,我们希望赋予研究社区可访问的多模态基础模型和数据集,使从业者能够进一步探索并提升大型多模态模型(LMMs)的潜力和新兴能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/58039.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络编程_day3

#1024程序员节 #三次握手四次挥手#四次挥手#udp#recvfrom#sendto#服务器模型#客户端模型#Linux IO模型#阻塞式IO#非阻塞IO#设置非阻塞的方式 目录 【0】复习 【1】三次握手四次挥手 四次挥手 四次挥手既可以由客户端发起,也可以由服务器发起 【2】udp 1. 通信流程 2…

实验:使用Oxygen发布大型手册到Word格式

此前,我曾发表过一篇文章《结构化文档发布的故事和性能调优》,文中讨论了在将大型DITA手册转换为PDF格式时可能遇到的性能挑战及相应的优化策略。 近日,有朋友咨询,若将同样的大型手册输出为MS Word格式,是否也会面临…

Linux复习-C++

参考博客: https://blog.csdn.net/qq_45254369/article/details/126023482?ops_request_misc%257B%2522request%255Fid%2522%253A%252277629891-A0F3-4EFC-B1AC-410093596085%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&req…

[JAVAEE] 多线程的案例(一)-单例模式

目录 一. 单例模式 二. 单例模式的使用时机 三. 单例模式的关键代码 四. 单例模式的几种实现方式 4.1 饿汉方式(急) 4.2 懒汉模式(缓) a. 解决原子性的问题 b. 解决程序运行效率低下的问题 c. 解决指令重排序的问题(其次是为了解决内存可见性的问题) 五. 总结 一. …

HCIP-HarmonyOS Application Developer 习题(十七)

(判断)1、对于用户创建的一些临时卡片在遇到卡片服务框架死亡重启,此时临时卡片数据在卡片管理服务中已经删除,且对应的卡片ID不会通知到提供方,所以卡片使用方需要自己负责清理长时间未刚除的临时卡片数据。 答案&…

QT:MaintenanceTool 模块安装工具

QT的MaintenanceTool 工具对已安装的 Qt 进行卸载、修复等其他操作时提示At least one valid and enabled repository required for this action to succeed 解决方式:在设置中添加一个临时的仓库 https://mirrors.tuna.tsinghua.edu.cn/qt/online/qtsdkrepositor…

C++算法练习-day18——15.三数之和

题目来源:. - 力扣(LeetCode) 题目思路分析 题目描述: 给定一个包含 n 个整数的数组 nums,判断 nums 中是否存在三个元素 a,b,c ,使得 a b c 0 ?找出所有独特三元组…

Threejs 实现3D 地图(05)3d 地图进场动画和地图边缘动画

3d 地图进场特效以及地图边缘动画 代码仓库: King/threejs-3d-map 地图边缘动画核心代码: const initBorderPoint () > {// 获取地图边界的左边(通过https://datav.aliyun.com/portal/school/atlas/area_generator#2.51/104.299012/33…

常用 SQL 语句的大全

常用 SQL 语句的大全,涵盖了基本的查询、更新、删除以及数据库管理等操作,适用于不同的数据库系统(如 MySQL、PostgreSQL、SQL Server 等)。 1. 数据库操作 创建数据库 CREATE DATABASE database_name;删除数据库 DROP DATABAS…

6,000 个网站上的假 WordPress 插件提示用户安装恶意软件

黑客使用窃取的凭证感染 WordPress 网站,并向其发送虚假插件,通过虚假的浏览器更新提示向最终用户发送恶意软件和信息窃取程序。 该恶意活动基于ClickFix假浏览器更新恶意软件的新变种,自 2024 年 6 月以来已使用假 WordPress 插件感染了超过…

放大器和基本运放电路的公式推导

放大器和基本运放电路的公式推导 放大器全家谱运放的渊源和数学分析基本运放电路的公式推导预备知识基本特性跟随器特性比较器特性 基本运放电路反相放大器(反比例运算放大器)同相放大器(正比例运算放大器)反相加法器同相加法器减…

Python条形图 | 指标(特征)重要性图的绘制

在数据科学和机器学习的工作流程中,特征选择是一个关键步骤。通过评估每个特征对模型预测能力的影响,我们可以选择最有意义的特征(指标),从而提高模型的性能并减少过拟合。本文将介绍如何使用 Python 的 Seaborn 和 Ma…

Android 12.0进程保活白名单功能实现

在Android 12.0系统中,实现进程保活白名单功能是为了确保某些重要的应用程序即使进入后台也能长时间保持运行状态,不被系统自动杀死。这一功能的实现涉及多个核心类和文件,以下是具体的实现步骤和核心功能分析: 一、实现步骤 …

PG数据库之索引详解

PostgreSQL数据库中的索引是一种用于提高查询性能的重要数据结构。通过索引,数据库可以快速定位到表中的特定行,而无需进行全表扫描。PostgreSQL支持多种索引类型,每种类型都有其特定的应用场景和性能特点。下面将详细介绍PostgreSQL中的索引…

go 使用fyne实现桌面程序的计算器例子

使用Fyne工具包构建跨平台应用是非常简单的,在此之前我们需要做一些准备功能做,比如安装一些gcc基础图形依赖库,还有go语言本身的运行开发环境都是必要的。 在此之前我们希望你是go语言的已入门用户,掌握go的协程,管道…

鲁班猫的一些踩坑

有坑的地方 1、安装relasense: 错误:不要采用下面的二进制安装(在主机、Jetson可以使用),尽管也能安装并运行realsense-viwer,但是链接不到相机设备! sudo apt-key adv --keyserver keyserver…

Linux基础知识 - C(自学使用)

1.C语言基础知识 参考博客: https://blog.csdn.net/qq_45254369/article/details/126023482?ops_request_misc%257B%2522request%255Fid%2522%253A%252277629891-A0F3-4EFC-B1AC-410093596085%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%…

Xcode文件默认存储位置-使用c++file保存文件默认路径以及设置为路径为当前项目路径

Xcode文件默认存储位置-使用cfile保存文件默认路径以及设置为路径为当前项目路径 1.概述 使用Xcode工具开发时候,遇到C调用file创建文件后,在当前项目中找不到文件路径。这是由于xcode会将文件保存到默认设置的路径。下面是查看文件默认存储路径和修改…

DC-9靶场渗透

靶机:DC-9 DC: 9 ~ VulnHub 攻击机:kail linux 2024 1,将两台虚拟机网络连接都改为NAT模式,并查看DC-9的MAC地址 2,进行主机扫描,通过MAC地址发现靶机的IP地址 攻击机IP地址192.168.23.169,靶机IP地址192.1…

MySQL-存储过程/函数/触发器

文章目录 什么是存储过程存储过程的优缺点存储过程的基本使用存储过程的创建存储过程的调用存储过程的删除存储过程的查看delimiter命令 MySQL中的变量系统变量用户变量局部变量参数 if语句case语句while循环repeat循环loop循环游标cursor捕获异常并处理存储函数触发器触发器概…