腾讯NUS推出下一代多模态智能,支持2/3D视觉、听觉、触觉、脑电

多模态感知一直是通用人工智能发展的关键领域。理想中的智能体能像人类一样感知多种模态信息,如视觉、听觉、嗅觉、触觉等,并与用户进行自然交互。然而,现有的大型模型虽然在图像和文字上表现出色,但对其他模态(如3D点云、触觉数据等)的泛化能力有限。

在本文中,NUS和腾讯的研究人员合作推出ViT-Lens-2,借助预训练的ViT提取各种模态表征,支持3D点云、深度、音频、触觉和EEG脑电,在各种表征任务中取得了SOTA结果。通过模态对齐和共享ViT参数实现了新兴下游功能,以零样本方式实现了任何模态生成文本和图像的能力。

image.png

论文题目:

ViT-Lens-2: Gateway to Omni-modal Intelligence

论文链接:

https://arxiv.org/abs/2311.16081

开源代码: 

GitHub - TencentARC/ViT-Lens: [Preprint] ViT-Lens: Towards Omni-modal Representations

开源模型:

https://huggingface.co/TencentARC/ViT-Lens/tree/main

项目主页: 

ViT-Lens

当海浪声在脑海中回响时,你是否想象过置身于金色沙滩和碧蓝大海交织的奇妙景象?当你触摸家居商店的沙发时,是否幻想过它如何放置在家中与新年的装饰相得益彰?这种像人类或其他动物一样感知各种模态并生成视觉画面的能力,出现在最近公布的智能模型中:01. TL;DR

ViT-Lens革新了多模态表征学习!这个方法不仅在多种模态的基准测试中取得了sota成绩,更可以无需额外训练,直接插入图文多模态大模型,激发全新功能。

ViT-Lens: 任意模态生成图片

01. TL;DR

ViT-Lens革新了多模态表征学习!这个方法不仅在多种模态的基准测试中取得了sota成绩,更可以无需额外训练,直接插入图文多模态大模型,激发全新功能。

02. 介绍

image.png
ViT-Lens刷榜理解任务,开启任意模态的图像生成

多模态感知一直是通用人工智能发展的关键领域。理想中的智能体能像人类一样感知多种模态信息,如视觉、听觉、嗅觉、触觉等,并与用户进行自然交互。

然而,现有的大型模型如LLaVA、InstructBLIP和SEED LLaMA等虽然在图像和文字上表现出色,但对其他模态(如3D点云、触觉数据等)的泛化能力有限,因为这些模态的训练数据相对稀缺。

有没有一种方法,不需要额外的海量数据,就能轻松提升模型在多种模态上的表现?NUS和腾讯的研究人员合作推出ViT-Lens,设计并采用Lens结构,借助预训练的ViT提取多模态数据特征,实现了多模态对齐学习。这种新方法不仅提升了模型性能,还能直接嵌入多模态大模型,开启一系列神奇功能:从任意模态信号进行问答交互,根据任意模态的数据生成“想象中”的图片(如根据沙发材料的触感生成沙发图片),甚至根据用户的编辑指令和模态输入数据生成符合条件的图片。

03. 方法

image.png
ViT-Lens训练示意图

ViT-Lens旨在实现多模态特征对齐,将其作为模型学习的目标。该方法利用匹配的锚数据(一般来源于常见的图片或文字)进行特征对齐。

针对需要学习的新模态数据,该方法引入可训练的ModEmbed和Lens模块,和固定参数的预训练的ViT层,将这些模块级联以学习新模态的特征提取。

对于锚数据,我们利用鲁棒的基础模型(如视觉基础模型、语言基础模型或CLIP)进行特征提取。随后,通过训练得到的新模态数据的特征与锚定数据的特征进行对齐,从而优化网络参数。

image.png
ViT-Lens嵌入图文多模态大模型

ViT-Lens的另一个优点是,训练好的Lens模块可以轻松地嵌入到图文多模态大模型中。这使得其中的大语言模型(LLM)能够理解新的模态。通常情况下,图文多模态大模型由视觉模型ViT、大语言模型LLM和二者之间连接的参数Abstractor组成。通过ViT-Lens的训练,我们可以直接将训练好的Lens模块整合到多模态大模型中,让新模型能够扩展原有图文多模态大模型的能力到新的模态。最激动人心的是,这样的扩展不需要构建新的数据用于大模型的训练,就能够达到令人满意的效果。

04. 实验

作者在多个模态数据上使用ViT-Lens进行了一系列实验,包括3D点云(3D Point Clouds),深度图(depth),音频(audio),触觉(tactile)和脑电图(EEG)。在多个理解任务中,ViT-Lens的性能均超越了先前的方法。

4.1 理解任务

image.png
3D物体点云零样本分类任务

在3D物体点云零样本分类任务中,ViT-Lens表现出众,在使用不同预训练数据训练时,均超越之前方法的性能。使用OpenShape提供的训练数据训练的ViT-Lens-G在3个数据集上达到了sota的结果。特别值得一提的是,当从训练数据中排除包含LVIS子集的数据时,ViT-Lens在Objaverse-LVIS数据集上仍然保持着出色的表现(50.1%),而其他方法在这个数据集上的性能则大幅下降。这表明了ViT-Lens能够充分利用模型所蕴含的知识,以一定程度上弥补训练数据不足的局面。

image.png
其他模态的理解任务

在其他模态的实验中,ViT-Lens的表现同样不俗。在音频、视频和深度理解任务中,使用Large规模的ViT模型,ViT-Lens即超越了ImageBind的Huge版本。在触觉和脑电图理解任务中,ViT-Lens的性能也均超越了先前的方法。

4.2 ViT-Lens应用展示

通过在多个模态上训练得到ViT-Lens模型,这个工作开启了许多有趣的应用。

image.png

图中展示了几个引人注目的例子。在 (A) 和 (B) 中的案例中,通过将训练好的Lens插入到InstructBLIP中,实现了大型语言模型对单一模态数据进行详细描述,并能够处理多种混合模态数据,并以此编写故事。在 (C)、(D) 和 (E) 中的案例中,我们将训练好的Lens嵌入到SEED-LLaMA中,无需额外训练即可生成任意模态到图片的转换。此外,还能够基于模态输入添加编辑属性,如“添加万圣节的节日氛围”或“合理地编排这两个物体到同一张图中”等。值得注意的是,无论是文字生成还是图片生成,ViT-Lens都展现了出色的细节捕捉能力。比如,对于 (A) 中钢琴“large in size”的描述以及在 (C)、(D) 中3D形状和细节的保留。下面给出更多的效果展示。

image.png
ViT-Lens+InstructBLIP与其他caption模型的对比
image.png
ViT-Lens+SEED-LLaMA更多生成结果

image.png

ViT-Lens还能与其他工作联动,为多模态数据在室内场景中的语义搜索提供可能。比如,听到马桶冲水声音信号,系统能迅速定位到马桶位置。

05. 全面开源

ViT-Lens项目已全面开源,包括训练代码、推理代码和模型。我们将持续更新更多模型和在线demo供大家探索。此外,开源的ViT-Lens提供了一键替换ImageBind的接口,感兴趣的小伙伴可以尝试使用!

更多细节请看 GitHub - TencentARC/ViT-Lens: [Preprint] ViT-Lens: Towards Omni-modal Representations

06. 结语

ViT-Lens提出了一种普适的多模态表征学习方法,充分利用预训练模型的丰富知识,提高模型性能。ViT-Lens展示了在多种模态理解任务上的显著提升,并将图文多模态大模型的能力扩展到了各种模态。让我们期待ViT-Lens为全模态智能发展注入新的活力,并启发更多创新研究和应用!


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/614343.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

操作系统 内存相关

0 内存 cpu和内存的关系 内存覆盖 内存的覆盖是一种在程序运行时将部分程序和数据分为固定区和覆盖区的技术。这种技术的主要目的是为了解决程序较大,无法一次性装入内存导致无法运行的问题。 具体来说,内存的覆盖技术将用户空间划分为以下两个部分&…

基于51单片机的数字时钟系统设计

标题:基于51单片机的数字时钟系统设计与实现 摘要: 本文主要研究和实现了基于STC89C51单片机的数字时钟系统,该系统具有显示实时日期和时间、设置调整时间和闹钟提醒等功能。论文首先对系统需求进行分析,然后详细介绍了系统的硬件…

c++一些使用频率较高的库函数

目录 memset() memset()接受三个参数: 注意 swap() reverse() reverse函数接收两个参数: reverse()反转整形向量元素顺序示例 …

Qt QSpinBox微调框控件

文章目录 1 属性和方法1.1 值1.2 步长1.3 循环1.4 加速1.5 前缀和后缀1.6 信号和槽 2 实例2.1 布局2.2 代码实现 微调框,允许用户按照一定的步长,来增加或减少其中显示的数值 修改微调框数值的方式包括: 单击右侧的向上/向下按钮按键盘的向上…

LINUX——动/静态库

加油加油~ 目录: 动/静态库是什么? .o文件是什么? 以gcc编译器为例,查看xxx.i xxx.s xxx.o文件 生成test.i文件(预处理) 生成test.s文件(编译) 生成test.o文件(汇编) 生成可执行程序(链接): 小结&#xff1a…

uniapp的H5如何实现全局组件加载,类似uni.showToast?

在项目components文件夹新建一个base-loading文件夹&#xff0c;文件包括两个文件 第一个文件base-loading.vue <template><u-overlay :show"visible" opacity"0.5"><view class"base-loading" v-show"visible">&…

Git 基础指令

Git 基础指令 本章涵盖了我们在使用 Git 完成各种操作时将会用到的各种基本命令。 在学习完本章之后&#xff0c;我们应该能够配置并初始化一个仓库&#xff08;repository&#xff09;、开始或停止跟踪&#xff08;track&#xff09;文件、暂存&#xff08;stage&#xff09;…

【开题报告】基于SpringBoot的运动会报名管理系统的设计与实现

1.选题背景 运动会是学校、社区或组织中重要的体育活动之一&#xff0c;它不仅能够促进身体健康&#xff0c;还能够培养团队合作精神和竞争意识。然而&#xff0c;传统的报名管理方式通常繁琐而复杂&#xff0c;容易出现信息丢失或错误&#xff0c;给组织者和参与者带来不便。…

模拟数字转换器

本节主要介绍以下内容&#xff1a; ADC简介 ADC功能框图详解 参考资料:《零死角玩转STM32》“ADC—电压采集”章节 一、ADC简介 ADC &#xff1a;Analog to Digital&#xff0c;模拟数字转换器 三个独立的ADC 1 / 2 / 3分辨率为12位每个ADC具有18个通道&#xff0c;其中…

代码随想录刷题笔记(DAY 10)

今日总结&#xff1a;快要期末考试了&#xff0c;现在在疯狂速成&#xff0c;今天稍微缓和了一点&#xff0c;应该能保证继续每天刷题&#xff0c;欠下的那些寒假补上。 Day 10 01. 用栈实现队列&#xff08;No. 232&#xff09; 题目链接 代码随想录题解 1.1 题目 请你仅…

AcWing1210-连号区间

文章目录 题目输入格式输出格式数据范围样例输入样例1输出样例1输入样例2输出样例2样例解释 思路代码 题目 输入格式 输出格式 数据范围 样例 输入样例1 4 3 2 4 1 输出样例1 7 输入样例2 5 3 4 2 5 1 输出样例2 9 样例解释 思路 固定L&#xff0c;遍历R在[L,R]区域中找到最大…

参数小,性能强!开源多模态模型—TinyGPT-V

安徽工程大学、南洋理工大学和理海大学的研究人员开源了多模态大模型——TinyGPT-V。 TinyGPT-V以微软开源的Phi-2作为基础大语言模型&#xff0c;同时使用了视觉模型EVA实现多模态能力。尽管TinyGPT-V只有28亿参数&#xff0c;但其性能可以媲美上百亿参数的模型。 此外&…

仿蓝奏云网盘 /file/list SQL注入漏洞复现

0x01 产品简介 仿蓝奏网盘是一种类似于百度网盘的文件存储和共享解决方案。它为用户提供了一个便捷的平台,可以上传、存储和分享各种类型的文件,方便用户在不同设备之间进行文件传输和访问。 0x02 漏洞概述 仿蓝奏云网盘 /file/list接口处存在SQL注入漏洞,登录后台的攻击…

Spring Boot - Application Events 的发布顺序_ApplicationEnvironmentPreparedEvent

文章目录 Pre概述Code源码分析 Pre Spring Boot - Application Events 的发布顺序_ApplicationEnvironmentPreparedEvent 概述 Spring Boot 的广播机制是基于观察者模式实现的&#xff0c;它允许在 Spring 应用程序中发布和监听事件。这种机制的主要目的是为了实现解耦&#…

RabbitMQ入门到实战——高级篇

消息的可靠性 生产者的可靠性&#xff08;确保消息一定到达MQ&#xff09; 生产者重连 这⾥除了enabled是false外&#xff0c;其他 initial-interval 等默认都是⼀样的值。 生产者确认 生产者确认代码实现 application中增加配置&#xff1a;&#xff08;publisher-returns…

《MySQL系列-InnoDB引擎06》MySQL锁介绍

文章目录 第六章 锁1 什么是锁2 lock与latch3 InnoDB存储引擎中的锁3.1 锁的类型3.2 一致性非锁定读3.3 一致性锁定读3.4 自增长与锁3.5 外键和锁 4 锁的算法4.1 行锁的三种算法4.2 解决Phantom Problem 5 锁问题5.1 脏读5.2 不可重复读5.3 丢失更新 6 阻塞7 死锁 第六章 锁 开…

深度解析Cron表达式:精确控制任务调度的艺术

深度解析Cron表达式&#xff1a;精确控制任务调度的艺术 希望我们都可以满怀期待的路过每一个转角 去遇见 那个属于自己故事的开始 去追寻那个最真实的自己 去放下 去拿起 安然&#xff0c;自得&#xff0c;不受世俗牵绊… 导言 在计算机科学领域&#xff0c;任务调度是一项关…

openssl3.2 - 官方dmeo学习 - server-cmod.c

文章目录 openssl3.2 - 官方dmeo学习 - server-cmod.c概述配置文件格式样例笔记END openssl3.2 - 官方dmeo学习 - server-cmod.c 概述 从配置文件中读参数, 建立TLS服务器, 死等客户端来连接. 客户端连接后, 打印客户端发来的内容. 配置文件格式有要求 配置文件格式样例 # …

MySQL 8.0中新增的功能(十)

XA语句的复制过滤 以前&#xff0c;在使用--replicate-do-db或--replicate-ignore-db时&#xff0c;无论binlog_format的值如何&#xff0c;XA START、XA END、XA COMMIT和XA ROLLBACK语句都会由默认数据库进行过滤&#xff0c;这可能会导致事务被忽略。从MySQL 8.0.31开始&am…

【PyQt5设计】:自动点击神器 - 解决重复性的点击和输入操作

文章目录 自动点击神器介绍测试窗口介绍自动点击神器的使用教程资源领取注意事项 自动点击神器介绍 本次使用PyQt5设计的【自动点击神器】旨在解决重复性的点击工作&#xff0c;解放双手&#xff0c;具有及时性和准确性&#xff0c;可选择坐标位置或图片两种方式实现鼠标的定位…