4M-21:霸气侧漏高效的20+多模态AI模型

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。

4M-21证明了在21种不同的模态和任务上成功训练任意模型。这一成就是通过采用特定于模态的分词器将所有模态映射到离散的Token集,以及多模态Mask训练目标来实现。

与更专业的模型相比,该模型可在多个数据集中扩展到30亿个参数,而不会影响性能。由此产生的统一模型表现出强大的开箱即用功能,并为多模态交互、生成和检索开辟了新的途径。未来4M-21还需要进一步的探索迁移和涌现能力。

从4M看起

最近解决视觉中多任务学习挑战的尝试已经从组合密集的视觉任务发展到将众多任务集成到统一的多模态模型中。Gato、OFA、Pix2Seq、UnifiedIO和4M等方法将各种模态转换为离散Token,并使用序列或掩码建模目标训练Transformer。一些方法通过对不相交数据集的共同训练来实现更加广泛的任务,而其他方法(如 4M)则使用伪Token对的对齐数据集进行任意到任意模态的预测。

掩码(Mask)建模已被证明在学习跨模态表示方面是有效的,这对于多模态学习至关重要,并且在与Token相结合时可以实现生成式应用程序。

上图是4M例子,注意不是今天的4M-21!!小编来解释下:左边是一幅图的不同维度数据,例如RGB、标题、深度、表面法线、语义分割图、边界框和标记化CLIP特征图。选择这些模态是为了涵盖几个关键方面:语义信息(标题、语义分割、边界框、CLIP)、几何信息(深度、表面法线)和RGB的混合。当用作输入模态时,这些模态可用作有关场景几何及其语义内容的先验信息。当用作目标任务时,它们使模型能够控制学习何种表示。

这些模态在用于编码信息的格式方面是多种多样的。它们由密集的视觉模态(RGB、深度、表面法线、语义分割)、稀疏和/或基于序列的模态(标题、边界框)以及神经网络特征图(CLIP)组成。最后,这些模态允许与模型进行多样化和丰富的交互。

上图右边是一个典型的编码和解码的框架,4M预训练目标包括训练 Transformer编码器-解码器,训练是以一个随机Token子集预测从所有模态中随机采样的另一个子集。大白话输入和输出都是随机抽样,按照“填空游戏”进行训练模型。其实某种意义上就是另一种“BERT”。

4M-21

来自苹果公司和瑞士洛桑联邦理工学院(EPFL)的研究人员在多模态掩蔽预训练方案的基础上构建了他们的方法,通过对各种模态的训练显着扩展了其能力。该方法包含20多种模态,包括SAM片段、3D人体姿势、调色板以及各种元数据。通过使用特定于模态的离散分词器,该方法将不同的输入编码为统一的格式,从而能够在多个模态上训练单个模型,而不会降低性能。

下面的例子何其壮观。

4M-21 可以从任何给定的输入模态生成所有模态,并且可以从链式生成中获益。请注意,对于一个输入,所有模态的预测之间具有高度一致性。例子中的每一行都是同一场景的不同模态输入。

绿色突出显示的是 4M无法预测或接受作为输入的新输入/输出对。虽然此图显示了来自单个输入的预测,但 4M-21 可以从所有模态的任何子集生成任何模态。

4M-21采用4M预训练方案,将其扩展为处理多种模式。它使用特定于模态的分词器将所有模态转换为离散标记序列。训练目标包括使用从所有模态中随机选择的随机选择作为输入和目标,从另一个标记子集预测一个标记子集。它利用伪标签来创建一个具有多种对齐模式的大型预训练数据集。该方法包含多种模态,包括 RGB、几何、语义、边缘、特征图、元数据和文本。

项目主要采用三种主要类型的分词器:用于类图像模态的基于 ViT 的分词器,用于人体姿势和全局嵌入的 MLP 分词器,以及用于文本和其他结构化数据的 WordPiece 分词器。这种全面的标记化方法使模型能够有效地处理各种模态,从而降低计算复杂性并实现跨多个领域的生成任务。<是不是觉得很眼熟啊,这不就是自编码器先走一波么!>

霸气侧漏的功能

4M-21模型展示了广泛的功能,包括可操纵的多模态生成、多模态检索以及在各种视觉任务中的强大开箱即用性能。

该模型根据来至任何模态输入的全局嵌入(Embeddings)来进行多模态的检索操作(上图)。下图代表更多的例子,从一个标题可以检索出各种图片。

在开箱即用的评估中,4M-21在表面法线估计、深度估计、语义分割、实例分割、3D 人体姿态估计和图像检索等任务上取得了具有竞争力的表现。特别是4M-21 XL变体,在多种模式中表现出强大的性能,而不会牺牲任何单个领域的能力。

给出一副RGB的图片,4M-21能够预测所有的任务,而且保持高度的一致性。

研究人员检查了在大量模态上预训练任意到任意模型的缩放特征,比较了三种模型大小:B、L和XL。评估单模态(RGB)和多模态(RGB+深度)迁移学习场景。在单模态传输中,4M-21在任务上保持了与原始七种模式相似的性能,同时在3D对象检测等复杂任务上显示出改进的结果。随着尺寸的增加,该模型表现出更好的性能,该研究表明,在更广泛的模态下进行训练不会影响原有成熟任务,反而增强了新任务能力,尤其是在模型规模扩大的前提下。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/29638.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

软件设计不是CRUD(22):在流式数据处理系统中进行业务抽象落地——设计思考

(接上文《软件设计不是CRUD(21):在流式数据处理系统中进行业务抽象落地——需求分析》) 那么思考到这里我们就能做一些关于设计思路的总结: 每一个独立的数据处理流,就是数据采集系统中的一个功能。这个功能具备一个静态的控制逻辑(当然控制逻辑也可以是动态的,本文不…

嵌入式技术学习——c51单片机——蜂鸣器

一、蜂鸣器介绍 蜂鸣器时一种将电信号转化成声音信号的器件&#xff0c;常用来产生设备的按键音&#xff0c;报警音等提示信号。 蜂鸣器分为有源蜂鸣器&#xff0c;无源蜂鸣器 。 有源蜂鸣器&#xff1a;内部自带震荡源&#xff0c;将正负极街上直流电压即可持续发声&#x…

深度学习(十)——神经网络:非线性激活

一、Padding Layers简介 nn.ZeroPad2d&#xff1a;在输入的tensor数据类型周围用0进行填充 nn.ConstantPad2d&#xff1a;在输入的tensor数据类型周围用常数进行填充 这个函数的主要作用是对输入的图像进行填充&#xff0c;但里面所有功能都能用nn.Conv2d实现。 二、Non-li…

一文读懂OpenGVLab带来的最新视觉预训练框架

大模型技术论文不断&#xff0c;每个月总会新增上千篇。本专栏精选论文重点解读&#xff0c;主题还是围绕着行业实践和工程量产。若在某个环节出现卡点&#xff0c;可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技&#xff08;Mamba,xLSTM,KAN&#xff09;则…

.NET周刊【6月第3期 2024-06-18】

国内文章 记一次 .NET某游戏币自助机后端 内存暴涨分析 https://www.cnblogs.com/huangxincheng/p/18243233 文章讨论了程序中非托管内存暴涨的问题。作者描述了友人发现内存问题并请他帮助分析的背景&#xff0c;利用WinDbg工具分析Linux平台上的内存泄漏情况。文章介绍了如…

潮玩宇宙大逃杀APP系统开发成品案例分享指南

这是一款多人游戏&#xff0c;玩家需要选择一个房间躲避杀手。满足人数后&#xff0c;杀手会随机挑选一个房间杀掉里面所有的参与者&#xff0c;其他房间的幸存者将平均瓜分被杀房间的元宝。玩家在选中房间后&#xff0c;倒计时结束前可以自由切换不同房间。 软件项目开发成品…

LabVIEW开发为什么沟通需求非常重要

在LabVIEW开发项目中&#xff0c;需求沟通是项目成功的基石。以下是需求沟通的重要性及其原因&#xff1a; 明确项目目标&#xff1a; 定义清晰的目标&#xff1a;通过与用户的沟通&#xff0c;可以明确项目的目标和范围&#xff0c;确保开发团队理解用户的实际需求&#xff0c…

【Android-Compose】流式布局FlowRow 不能居中对齐的一种解决办法

问题描述&#xff1a; 在安卓Compose 开发中使用LazyColumn 流式布局 FlowRow 有时候比延迟网格布局更灵活&#xff0c;但是也可能出现自动流向下一行之后&#xff0c;末尾处留下一些小空白。如图&#xff1a; 问题解决&#xff1a; 为了尽可能居中对齐&#xff0c;我们可…

专业技能篇---计算机网络篇

文章目录 前言计算机网络基础一、网络分层模型 HTTP一、从输入URL到页面显示发生了什么&#xff1f;二、Http的状态码有哪些&#xff1f;三、 HTTP与HTTPS有什么区别&#xff1f;四、URI 和 URL 的区别是什么?五、Cookie和Session有什么区别&#xff1f;六、GET与POST 前言 主…

dmhs同步因目的端表自增列报错解决方法

dmhs同步因目的端表自增列报错解决方法 1 dmhs copy 装载数据时报错 HY000 CODE:-27232 配置源端捕获器cpt 1 dmhs copy 装载数据时报错 HY000 CODE:-2723 ERR:Only if specified in the column list and SET IDENTITY INSERT is ON, then identity column could be assigned …

洛谷 P3379:最近公共祖先(LCA)← RMQ+欧拉序

【题目来源】https://www.luogu.com.cn/problem/P3379【题目描述】 如题&#xff0c;给定一棵有根多叉树&#xff0c;请求出指定两个点直接最近的公共祖先。【输入格式】 第一行包含三个正整数 N,M,S&#xff0c;分别表示树的结点个数、询问的个数和树根结点的序号。 接下来 N−…

AI大模型的战场:通用大模型VS垂直大模型,谁会赢?

人不走空 &#x1f308;个人主页&#xff1a;人不走空 &#x1f496;系列专栏&#xff1a;算法专题 ⏰诗词歌赋&#xff1a;斯是陋室&#xff0c;惟吾德馨 目录 &#x1f308;个人主页&#xff1a;人不走空 &#x1f496;系列专栏&#xff1a;算法专题 ⏰诗词歌…

二、利用YOLOv8解决现实世界的问题

Ultralytics Solutions提供顶尖的YOLO模型应用&#xff0c;提供现实世界的解决方案如&#xff1a;目标记数&#xff0c;模糊和安全系统&#xff0c;提升效率和准确率在各种工业中。探索YOLOv8在实用性和有效性上的强大功能。 解决方案&#xff1a; 下面展示利用Ultralytics So…

使用vscode插件du-i18n处理前端项目国际化翻译多语言

前段时间我写了一篇关于项目国际化使用I18n组件的文章&#xff0c;Vue3 TS 使用国际化组件I18n&#xff0c;那个时候还没真正在项目中使用&#xff0c;需求排期还没有定&#xff0c;相当于是预研。 当时就看了一下大概怎么用&#xff0c;改了一个简单的页面&#xff0c;最近需…

【Python系列】Python 中的日期和时间处理

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

Vue3模拟国足18强赛抽签

Vue3国足18强赛抽签 国足遇到这个对阵&#xff0c;能顺利出现吗&#xff1f; 1、系统演示 Vue3模拟国足18强赛抽签 2、关键代码 开始抽签 <script setup> import FenDang from "/components/chouqian/FenDang.vue"; import {ref} from "vue";le…

看完轻松解决家里灰尘毛絮多难题?除粉尘的空气净化器品牌分享

家里的空气中弥漫着灰尘和毛絮&#xff0c;让人呼吸不畅&#xff0c;也影响着家人的健康。灰尘中含有各种有害物质&#xff0c;如细菌、病毒、花粉等&#xff0c;长期吸入会导致呼吸道疾病、皮肤过敏等问题。尤其是对于有宠物、孩子、过敏人群来说&#xff0c;空气质量更是至关…

关于办公软件的使用

第一部分&#xff1a; 常用函数的使用 在使用的地方&#xff0c;输入SUM(B2:F2)回车 第二部分&#xff1a; 自定义函数的使用 1、打开 宏编辑 2、 自定义函数方法 3、自定义函数的使用和常用函数一样&#xff1a; 在使用的地方&#xff0c;输入计算面积(A3&#xff0c;B3)…

游戏试玩站打码zq平台系统可运营的任务网源码

安装说明 1.恢复数据&#xff1b; 2.数据连接库配置路径&#xff1a;protected\config\mail.php 文件中修改第60行 &#xff08;记得不要用记事本修改&#xff0c;否则可能会出现验证码显示不了问题&#xff0c;建议用Notepad&#xff09; 3.浏览器访问输入 127.0.0.2 显示界…

Hype4.0 for Mac软件下载-Hype for Mac HTML5 创作工具下载附加详细安装步骤

Hype 4 Pro Mac正式版是款功能实用的动画创作工具。Hype 4 Pro Mac最新版可以帮您轻松创建令人惊叹的动画和交互式网页内容。并且Hype 4 Pro Mac还可被设计师用来创建动画&#xff0c;为网页、信息图形、演示文稿、数字杂志、广告、iBooks、教育内容、应用程序原型、作品集、动…