腾讯NUS推出下一代多模态智能,支持2/3D视觉、听觉、触觉、脑电

多模态感知一直是通用人工智能发展的关键领域。理想中的智能体能像人类一样感知多种模态信息,如视觉、听觉、嗅觉、触觉等,并与用户进行自然交互。然而,现有的大型模型虽然在图像和文字上表现出色,但对其他模态(如3D点云、触觉数据等)的泛化能力有限。

在本文中,NUS和腾讯的研究人员合作推出ViT-Lens-2,借助预训练的ViT提取各种模态表征,支持3D点云、深度、音频、触觉和EEG脑电,在各种表征任务中取得了SOTA结果。通过模态对齐和共享ViT参数实现了新兴下游功能,以零样本方式实现了任何模态生成文本和图像的能力。

image.png

论文题目:

ViT-Lens-2: Gateway to Omni-modal Intelligence

论文链接:

https://arxiv.org/abs/2311.16081

开源代码: 

GitHub - TencentARC/ViT-Lens: [Preprint] ViT-Lens: Towards Omni-modal Representations

开源模型:

https://huggingface.co/TencentARC/ViT-Lens/tree/main

项目主页: 

ViT-Lens

当海浪声在脑海中回响时,你是否想象过置身于金色沙滩和碧蓝大海交织的奇妙景象?当你触摸家居商店的沙发时,是否幻想过它如何放置在家中与新年的装饰相得益彰?这种像人类或其他动物一样感知各种模态并生成视觉画面的能力,出现在最近公布的智能模型中:01. TL;DR

ViT-Lens革新了多模态表征学习!这个方法不仅在多种模态的基准测试中取得了sota成绩,更可以无需额外训练,直接插入图文多模态大模型,激发全新功能。

ViT-Lens: 任意模态生成图片

01. TL;DR

ViT-Lens革新了多模态表征学习!这个方法不仅在多种模态的基准测试中取得了sota成绩,更可以无需额外训练,直接插入图文多模态大模型,激发全新功能。

02. 介绍

image.png
ViT-Lens刷榜理解任务,开启任意模态的图像生成

多模态感知一直是通用人工智能发展的关键领域。理想中的智能体能像人类一样感知多种模态信息,如视觉、听觉、嗅觉、触觉等,并与用户进行自然交互。

然而,现有的大型模型如LLaVA、InstructBLIP和SEED LLaMA等虽然在图像和文字上表现出色,但对其他模态(如3D点云、触觉数据等)的泛化能力有限,因为这些模态的训练数据相对稀缺。

有没有一种方法,不需要额外的海量数据,就能轻松提升模型在多种模态上的表现?NUS和腾讯的研究人员合作推出ViT-Lens,设计并采用Lens结构,借助预训练的ViT提取多模态数据特征,实现了多模态对齐学习。这种新方法不仅提升了模型性能,还能直接嵌入多模态大模型,开启一系列神奇功能:从任意模态信号进行问答交互,根据任意模态的数据生成“想象中”的图片(如根据沙发材料的触感生成沙发图片),甚至根据用户的编辑指令和模态输入数据生成符合条件的图片。

03. 方法

image.png
ViT-Lens训练示意图

ViT-Lens旨在实现多模态特征对齐,将其作为模型学习的目标。该方法利用匹配的锚数据(一般来源于常见的图片或文字)进行特征对齐。

针对需要学习的新模态数据,该方法引入可训练的ModEmbed和Lens模块,和固定参数的预训练的ViT层,将这些模块级联以学习新模态的特征提取。

对于锚数据,我们利用鲁棒的基础模型(如视觉基础模型、语言基础模型或CLIP)进行特征提取。随后,通过训练得到的新模态数据的特征与锚定数据的特征进行对齐,从而优化网络参数。

image.png
ViT-Lens嵌入图文多模态大模型

ViT-Lens的另一个优点是,训练好的Lens模块可以轻松地嵌入到图文多模态大模型中。这使得其中的大语言模型(LLM)能够理解新的模态。通常情况下,图文多模态大模型由视觉模型ViT、大语言模型LLM和二者之间连接的参数Abstractor组成。通过ViT-Lens的训练,我们可以直接将训练好的Lens模块整合到多模态大模型中,让新模型能够扩展原有图文多模态大模型的能力到新的模态。最激动人心的是,这样的扩展不需要构建新的数据用于大模型的训练,就能够达到令人满意的效果。

04. 实验

作者在多个模态数据上使用ViT-Lens进行了一系列实验,包括3D点云(3D Point Clouds),深度图(depth),音频(audio),触觉(tactile)和脑电图(EEG)。在多个理解任务中,ViT-Lens的性能均超越了先前的方法。

4.1 理解任务

image.png
3D物体点云零样本分类任务

在3D物体点云零样本分类任务中,ViT-Lens表现出众,在使用不同预训练数据训练时,均超越之前方法的性能。使用OpenShape提供的训练数据训练的ViT-Lens-G在3个数据集上达到了sota的结果。特别值得一提的是,当从训练数据中排除包含LVIS子集的数据时,ViT-Lens在Objaverse-LVIS数据集上仍然保持着出色的表现(50.1%),而其他方法在这个数据集上的性能则大幅下降。这表明了ViT-Lens能够充分利用模型所蕴含的知识,以一定程度上弥补训练数据不足的局面。

image.png
其他模态的理解任务

在其他模态的实验中,ViT-Lens的表现同样不俗。在音频、视频和深度理解任务中,使用Large规模的ViT模型,ViT-Lens即超越了ImageBind的Huge版本。在触觉和脑电图理解任务中,ViT-Lens的性能也均超越了先前的方法。

4.2 ViT-Lens应用展示

通过在多个模态上训练得到ViT-Lens模型,这个工作开启了许多有趣的应用。

image.png

图中展示了几个引人注目的例子。在 (A) 和 (B) 中的案例中,通过将训练好的Lens插入到InstructBLIP中,实现了大型语言模型对单一模态数据进行详细描述,并能够处理多种混合模态数据,并以此编写故事。在 (C)、(D) 和 (E) 中的案例中,我们将训练好的Lens嵌入到SEED-LLaMA中,无需额外训练即可生成任意模态到图片的转换。此外,还能够基于模态输入添加编辑属性,如“添加万圣节的节日氛围”或“合理地编排这两个物体到同一张图中”等。值得注意的是,无论是文字生成还是图片生成,ViT-Lens都展现了出色的细节捕捉能力。比如,对于 (A) 中钢琴“large in size”的描述以及在 (C)、(D) 中3D形状和细节的保留。下面给出更多的效果展示。

image.png
ViT-Lens+InstructBLIP与其他caption模型的对比
image.png
ViT-Lens+SEED-LLaMA更多生成结果

image.png

ViT-Lens还能与其他工作联动,为多模态数据在室内场景中的语义搜索提供可能。比如,听到马桶冲水声音信号,系统能迅速定位到马桶位置。

05. 全面开源

ViT-Lens项目已全面开源,包括训练代码、推理代码和模型。我们将持续更新更多模型和在线demo供大家探索。此外,开源的ViT-Lens提供了一键替换ImageBind的接口,感兴趣的小伙伴可以尝试使用!

更多细节请看 GitHub - TencentARC/ViT-Lens: [Preprint] ViT-Lens: Towards Omni-modal Representations

06. 结语

ViT-Lens提出了一种普适的多模态表征学习方法,充分利用预训练模型的丰富知识,提高模型性能。ViT-Lens展示了在多种模态理解任务上的显著提升,并将图文多模态大模型的能力扩展到了各种模态。让我们期待ViT-Lens为全模态智能发展注入新的活力,并启发更多创新研究和应用!


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/614343.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Qt QSpinBox微调框控件

文章目录 1 属性和方法1.1 值1.2 步长1.3 循环1.4 加速1.5 前缀和后缀1.6 信号和槽 2 实例2.1 布局2.2 代码实现 微调框,允许用户按照一定的步长,来增加或减少其中显示的数值 修改微调框数值的方式包括: 单击右侧的向上/向下按钮按键盘的向上…

LINUX——动/静态库

加油加油~ 目录: 动/静态库是什么? .o文件是什么? 以gcc编译器为例,查看xxx.i xxx.s xxx.o文件 生成test.i文件(预处理) 生成test.s文件(编译) 生成test.o文件(汇编) 生成可执行程序(链接): 小结&#xff1a…

Git 基础指令

Git 基础指令 本章涵盖了我们在使用 Git 完成各种操作时将会用到的各种基本命令。 在学习完本章之后,我们应该能够配置并初始化一个仓库(repository)、开始或停止跟踪(track)文件、暂存(stage)…

模拟数字转换器

本节主要介绍以下内容: ADC简介 ADC功能框图详解 参考资料:《零死角玩转STM32》“ADC—电压采集”章节 一、ADC简介 ADC :Analog to Digital,模拟数字转换器 三个独立的ADC 1 / 2 / 3分辨率为12位每个ADC具有18个通道,其中…

代码随想录刷题笔记(DAY 10)

今日总结:快要期末考试了,现在在疯狂速成,今天稍微缓和了一点,应该能保证继续每天刷题,欠下的那些寒假补上。 Day 10 01. 用栈实现队列(No. 232) 题目链接 代码随想录题解 1.1 题目 请你仅…

AcWing1210-连号区间

文章目录 题目输入格式输出格式数据范围样例输入样例1输出样例1输入样例2输出样例2样例解释 思路代码 题目 输入格式 输出格式 数据范围 样例 输入样例1 4 3 2 4 1 输出样例1 7 输入样例2 5 3 4 2 5 1 输出样例2 9 样例解释 思路 固定L,遍历R在[L,R]区域中找到最大…

参数小,性能强!开源多模态模型—TinyGPT-V

安徽工程大学、南洋理工大学和理海大学的研究人员开源了多模态大模型——TinyGPT-V。 TinyGPT-V以微软开源的Phi-2作为基础大语言模型,同时使用了视觉模型EVA实现多模态能力。尽管TinyGPT-V只有28亿参数,但其性能可以媲美上百亿参数的模型。 此外&…

仿蓝奏云网盘 /file/list SQL注入漏洞复现

0x01 产品简介 仿蓝奏网盘是一种类似于百度网盘的文件存储和共享解决方案。它为用户提供了一个便捷的平台,可以上传、存储和分享各种类型的文件,方便用户在不同设备之间进行文件传输和访问。 0x02 漏洞概述 仿蓝奏云网盘 /file/list接口处存在SQL注入漏洞,登录后台的攻击…

Spring Boot - Application Events 的发布顺序_ApplicationEnvironmentPreparedEvent

文章目录 Pre概述Code源码分析 Pre Spring Boot - Application Events 的发布顺序_ApplicationEnvironmentPreparedEvent 概述 Spring Boot 的广播机制是基于观察者模式实现的,它允许在 Spring 应用程序中发布和监听事件。这种机制的主要目的是为了实现解耦&#…

RabbitMQ入门到实战——高级篇

消息的可靠性 生产者的可靠性(确保消息一定到达MQ) 生产者重连 这⾥除了enabled是false外,其他 initial-interval 等默认都是⼀样的值。 生产者确认 生产者确认代码实现 application中增加配置:(publisher-returns…

《MySQL系列-InnoDB引擎06》MySQL锁介绍

文章目录 第六章 锁1 什么是锁2 lock与latch3 InnoDB存储引擎中的锁3.1 锁的类型3.2 一致性非锁定读3.3 一致性锁定读3.4 自增长与锁3.5 外键和锁 4 锁的算法4.1 行锁的三种算法4.2 解决Phantom Problem 5 锁问题5.1 脏读5.2 不可重复读5.3 丢失更新 6 阻塞7 死锁 第六章 锁 开…

深度解析Cron表达式:精确控制任务调度的艺术

深度解析Cron表达式:精确控制任务调度的艺术 希望我们都可以满怀期待的路过每一个转角 去遇见 那个属于自己故事的开始 去追寻那个最真实的自己 去放下 去拿起 安然,自得,不受世俗牵绊… 导言 在计算机科学领域,任务调度是一项关…

【PyQt5设计】:自动点击神器 - 解决重复性的点击和输入操作

文章目录 自动点击神器介绍测试窗口介绍自动点击神器的使用教程资源领取注意事项 自动点击神器介绍 本次使用PyQt5设计的【自动点击神器】旨在解决重复性的点击工作,解放双手,具有及时性和准确性,可选择坐标位置或图片两种方式实现鼠标的定位…

横版动作闯关游戏:幽灵之歌 GHOST SONG 中文版

在洛里安荒凉的卫星上,一件长期休眠的死亡服从沉睡中醒来。踏上发现自我、古老谜团和宇宙骇物的氛围2D冒险之旅。探索蜿蜒的洞穴,获得新的能力来揭开这个外星世界埋藏已久的秘密。 游戏特点 发现地下之物 探索这个广阔而美丽如画,充满密室和诡…

一个常用的项目架构图

给大家分享一个常用的架构图,需要使用的可以免费那走: 用户通过公网IP或者域名访问,穿过防火墙后,映射到nginx组件,在反向代理到各个模块;资源放在Nas盘,数据放在各个中间件;各个模块…

Android基于Matrix绘制PaintDrawable设置BitmapShader,以手指触点为中心显示原图像圆图,Kotlin

Android基于Matrix绘制PaintDrawable设置BitmapShader,以手指触点为中心显示原图像圆图,Kotlin 手指在上面的图上移动,“剪切”出上面图中以手指触点为中心的图(半径图),然后在下面的ImageView显示。 impor…

中国大学生计算机设计大赛—人工智能实践赛赛道—赛后感想

1.比赛介绍 中国大学生计算机设计大赛是我国高校面向本科生最早的赛事之一,是全国普通高校大学生竞赛排行榜榜单赛事之一。自2008年开赛至2019年,一直由教育部高校与计算机相关教指委等或独立或联合主办。大赛的目的是以赛促学、以赛促教、以赛促创&…

【技能拾遗】——如何寻找/制作电子书

📖 前言:无纸化学习已经越来越流行了,尤其是这几年大家上网课,把厚厚的课本和笔记装进pad里面,其便利性想必大家都深有感受。但是还有不少同学不知道该如何去找正规教材的PDF版本,下面就以我这两年的无纸化…

RTL编码(1)——概述

一、RTL级描述 RTL(Register Transfer Level)级:寄存器+组合逻辑,其功能与时序用Verilog HDL(以下简称Verilog)或VHDL代码描述。 RTL描述包含了同步数字电路最重要的三个特征:组合逻…

外贸自建站新手教程指南?海洋建站的技巧?

外贸自建站怎么做比较好?搭建外贸网站的参数有哪些? 外贸自建站成为许多企业迈向国际市场的重要一步。随着全球经济的不断发展,搭建一个专业而有效的外贸自建站对企业而言至关重要。海洋建站将为您提供一份详尽的新手教程指南,帮…