V-JEPA模型,非LLM另外的选择,AGI的未来:迈向Yann LeCun先进机器智能(AMI)愿景的下一步

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

- I-JEPA:基于Yann LeCun愿景的首个更人性化AI模型
- 庆祝FAIR十周年:通过开放研究推动技术前沿的十年
- 图灵奖颁给了Yann LeCun、Geoffrey Hinton和Yoshua Bengio

今天,我们向大家公开发布视频联合嵌入预测架构(V-JEPA)模型,这是推进机器智能并加深对世界理解的关键一步。作为一个早期的物理世界模型示例,V-JEPA擅长检测和理解对象间的高度详细互动。遵循负责任的开放科学精神,我们决定以创意共享非商业许可发布此模型,供研究人员进一步探索。

作为人类,我们通过观察学习到关于周围世界的许多知识——尤其是在生命早期阶段。就像牛顿的第三运动定律:即使是婴儿(或猫)在多次推落桌上物品并观察结果后也能直观地理解,凡是上升的都必须下落。你不需要几小时的指导或阅读成千上万本书就能得出这个结果。你的内在世界模型——基于世界的心理模型的上下文理解——为你预测了这些后果,而且非常高效。

“V-JEPA是朝着更深入理解世界迈出的一步,以便机器能够实现更广泛的推理和规划,”Meta的副总裁兼首席AI科学家Yann LeCun说道,他在2022年提出了最初的联合嵌入预测架构(JEPA)。“我们的目标是构建高级机器智能,能像人类一样学习,形成对周围世界的内部模型,以便高效地学习、适应并制定计划以完成复杂任务。”


聚焦视频JEPA

V-JEPA是一个非生成模型,通过预测视频中缺失或遮蔽部分的抽象表示空间学习。这类似于我们的图像联合嵌入预测架构(I-JEPA)如何比较图像的抽象表示(而不是直接比较像素本身)。与试图填补每个缺失像素的生成方法不同,V-JEPA具有丢弃不可预测信息的灵活性,这导致训练和样本效率提高了1.5到6倍。

由于采用自监督学习方法,V-JEPA完全使用未标记数据进行预训练。标签仅用于预训练后将模型适配到特定任务。与之前的模型相比,这种架构在所需标记示例数量和学习即使是未标记数据所需的总体努力方面更为高效。通过V-JEPA,我们在这两方面都看到了效率提升。

我们通过遮蔽视频的大部分内容,仅向模型展示一小部分上下文。然后我们让预测器填补缺失的部分——不是以实际像素的形式,而是作为这个表示空间中的更抽象的描述。


V-JEPA通过预测学习到的潜在空间中遮蔽的时空区域来训练视觉编码器。

遮蔽方法论

V-JEPA的训练并不是为了理解一种特定类型的行动。相反,它使用自监督训练在一系列视频上学习,并了解了世界运作方式的许多方面。团队还仔细考虑了遮蔽策略——如果你不遮蔽视频的大部分区域,而是在这里那里随机采样补丁,这会使任务变得太简单,你的模型就不会学到世界上特别复杂的任何事情。

同样重要的是要注意,在大多数视频中,事物随时间缓慢演变。如果你遮蔽视频的一部分,但只在特定瞬间,并且模型可以看到紧接之前和/或之后的情况,这也会使事情变得太简单,模型几乎肯定不会学到任何有趣的东西。因此,团队采用了一种在空间和时间上都遮蔽视频部分的方法,这迫使模型学习并发展对场景的理解。


高效预测

在抽象表示空间进行这些预测很重要,因为它允许模型专注于视频包含的高级概念信息,而不必担心那些对下游任务通常不重要的细节。毕竟,如果视频显示了一棵树,你可能不会关心每片单独叶子的微小运动。

我们对这一方向感到兴奋的原因之一是,V-JEPA是第一个擅长“冻结评估”的视频模型,这意味着我们在编码器和预测器上完成了所有自监督预训练,然后我们不再触碰模型的这

些部分。当我们想要将它们适配学习新技能时,我们只需在其上训练一个小型轻量级的专门层或小网络,这非常高效且快速。


低样本冻结评估:将V-JEPA与其他视频模型在Kinetics-400和Something-Something-v2上的冻结评估进行比较,我们变化了每个数据集可用于训练注意力探针的标记示例百分比。我们在几个低样本设置中训练探针:使用训练集的5%、10%或50%,并在每个设置中进行三次随机分割,以获得更稳健的指标,每个模型进行九次不同的评估实验。我们报告了K400和SSv2官方验证集上的平均值和标准偏差。V-JEPA比其他模型更节省标签——具体来说,减少每个类别可用的标记示例数量会增加V-JEPA与基准之间的性能差距。

以前的工作需要进行完全的微调,这意味着在预训练模型之后,当你希望模型在进行微调以承担该任务时真正擅长细粒度动作识别时,你必须更新模型中的参数或权重。然后那个模型总体上变得擅长执行那个任务,而不再适用于其他任何事情。如果你想教模型一个不同的任务,你必须使用不同的数据,并且必须为这个其他任务专门定制整个模型。如我们在这项工作中所展示的,通过V-JEPA,我们可以一次性预训练模型而不需要任何标记数据,固定它,然后重用模型的同一部分来完成几个不同的任务,如动作分类、精细物体交互识别和活动定位。


V-JEPA是一种自监督方法,用于从视频中学习表示,可以应用于各种下游图像和视频任务,而无需调整模型参数。V-JEPA在冻结评估中的图像分类、动作分类和时空动作检测任务上优于之前的视频表示学习方法。

未来研究的途径...

虽然“V”在V-JEPA中代表“视频”,但到目前为止它只考虑了视频的视觉内容。下一步显然是采取更多模态方法,所以我们正在仔细考虑如何将音频与视觉结合起来。

作为概念验证,当前的V-JEPA模型擅长于细粒度物体交互和区分随时间发生的详细物体对物体交互。例如,如果模型需要能够区分放下笔、捡起笔和假装放下笔但实际上没有放下笔之间的区别,V-JEPA相比之前的方法在这种高级别动作识别任务上做得相当好。然而,这些事情在相对较短的时间尺度上工作。如果你向V-JEPA展示几秒钟到10秒钟的视频剪辑,它在那方面做得很好。因此,我们的另一个重要步骤是考虑规划和模型在更长时间范围内进行预测的能力。


...以及通往AMI的道路

到目前为止,我们与V-JEPA的工作主要关于感知——理解各种视频流的内容,以获得一些关于我们周围世界的上下文。这个联合嵌入预测架构中的预测器充当了一个早期的物理世界模型:你不必看到画面中发生的一切,它可以告诉你那里概念上发生了什么。作为下一步,我们想展示我们如何能够使用这种预测器或世界模型进行规划或序列决策。

我们知道,可以在没有强监督的情况下对JEPA模型进行视频数据训练,它们可以像婴儿那样观看视频——被动地观察世界,学习很多有趣的东西,了解这些视频的上下文,以这样一种方式,仅需少量标记数据,你就可以迅速获得一项新的任务和能力,识别不同的动作。

V-JEPA是一个研究模型,我们正在探索许多未来的应用。例如,我们预期V-JEPA提供的上下文对我们的具身AI工作以及我们构建未来AR眼镜的上下文AI助手的工作将是有用的。我们坚信负责任的开放科学的价值,这就是为什么我们以CC BY-NC许可发布V-JEPA模型,以便其他研究人员可以扩展这项工作。

代码: GitHub - facebookresearch/jepa: PyTorch code and models for V-JEPA self-supervised learning from video.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/751001.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

EPICS和Arduino Uno之间基于串行文本协议的控制开发

Arduino Uno的串口服务程序设置如文本的串口通信协议设计以及在Arduino上的应用-CSDN博客中所示。通过在串口上发送约定的文本协议,它实现的功能如下: 实现功能: 读取三路0.0V~5.0V模拟量输入,读取端口A0~A2设置三路0.0V~5.0V的模…

typeof 与 instanceof 区别

文章目录 一、typeof二、instanceof三、区别 一、typeof typeof 操作符返回一个字符串,表示未经计算的操作数的类型 使用方法如下: typeof operand typeof(operand)operand表示对象或原始值的表达式,其类型将被返回 举个例子 typeof 1 /…

K8S之持久化存储

持久化存储 支持的持久化存储类型EmptyDirHostPathNFS 在K8S中部署的应用都是以pod容器的形式运行的,假如部署数据库服务 例如:MySQL、Redis等,需要对产生的数据做备份。如果pod不挂载数据卷,那pod被删除或重启后这些数据会随之消…

Windows server Database 2025 安装 i225/i226 网卡驱动

windows这比坏得很,intel消费级网卡不准在服务器系统上安装。你要说他是异构不支持?他就纯粹恶心人。 之前已经安装过一次,但是今天database预览版一更新,又给我把网卡驱动杀了,气死,写一篇教程。 1.去官网…

SQLite优化实践:数据库设计、索引、查询和分库分表策略

文章目录 一、数据库设计优化1.1 合理选择数据类型1.2 使用NOT NULL约束1.3 使用默认值1.4 避免使用过多的列 二、索引优化2.1 为经常用于查询条件的列创建索引2.2 为经常用于排序和分组的列创建索引2.3 避免过多的索引2.4 使用覆盖索引 三、查询优化3.1 使用预编译语句3.2 优化…

​​SQLiteC/C++接口详细介绍之sqlite3类(十一)

返回目录:SQLite—免费开源数据库系列文章目录 上一篇:​​SQLiteC/C接口详细介绍之sqlite3类(十) 下一篇:​​SQLiteC/C接口详细介绍之sqlite3类(十二)(未发表) 33.sq…

C语言学习过程总结(18)——指针(6)

一、数组指针变量 在上一节中我们提到了,指针数组的存放指针的数组,那数组指针变量是什么呢? 显而易见,数组指针变量是指针 同样类比整型指针变量和字符指针变量里面分别存放的是整型变量地址和字符变量地址,我们可以…

Helm的资源安装和基本使用

目录 一.Helm的出现 二.Helm工具 1.部署helm 2.helm可用命令介绍 三.chart 1.添加、查看、删除存储库 2.查找chart、查看chart信息、安装chart等 3.安装chart后产生的release 四.安装mysql举例 1.固定chart安装 2.自定义chart安装 一.Helm的出现 在前面的k8s部署po…

13. C++类的简单理解

全面理解C中的类 1. 类的访问属性:public,protect,private C中类的成员变量和函数都带有三种属性中的一种,假如没有特别声明,那么就默认是私有的(除了构造函数)。public表示是公开的&#xff…

[WUSTCTF2020]颜值成绩查询 --不会编程的崽

这题也是一个很简单的盲注题目,这几天sql与模板注入做麻了,也是轻松拿捏。 它已经提示,enter number,所有猜测这里后台代码并没有使用 " 闭合。没有明显的waf提示, 但是or,and都没反应。再去fuzz一…

二叉树OJ练习

本文旨在讲解有关二叉树的OJ题目,希望读完本文,能让读者都二叉树有更深一步的认识! 正文开始! 106. 根据二叉树创建字符串 算法思想: 根据题目的输出结果,可以观察出如下规律! 1.若左右结点都…

Spring Boot整合STOMP实现实时通信

目录 引言 代码实现 配置类WebSocketMessageBrokerConfig DTO 工具类 Controller common.html stomp-broadcast.html 运行效果 完整代码地址 引言 STOMP(Simple Text Oriented Messaging Protocol)作为一种简单文本导向的消息传递协议&#xf…

sqllab第二十七A关通关笔记

知识点: 双引号闭合union select 大小写绕过 Union Select这里不能进行错误注入,无回显 经过测试发现这是一个双引号闭合 构造payload:id1"%09and%091"1 页面成功回显 构造payload:id0"%09uNion%09SElect%091,2,3%09"1 页面成功…

在雄安新区买新房要注意什么?有哪些注意事项?

雄安新区新建住宅均价每平方米11735元起,二手房每平方米8950元起。 整体价格非常有优势。 雄安新区房价走势与区域发展直接相关。 而且,雄安新区已经成立五周年了。 2022年,雄安新区多项重点项目将陆续竣工。 雄安新区城市基础设施建设已初具…

Linux之shell循环

华子目录 for循环带列表的for循环格式分析示例shell允许用户指定for语句的步长,格式如下示例 不带列表的for循环示例 基于C语言风格的for循环格式示例注意 while循环格式示例 until循环作用格式示例 循环控制breakcontinue详细语法示例 循环嵌套示例 for循环 for循…

深度学习——SAM(Segment-Anything)代码详解

目录 引言代码目录segment-anything 代码详解build_sam.pypredictor.pyautomatic_mask_generator.py 引言 从去年年初至今,SAM(Segment Anything )已经问世快一年了,SAM凭借其强大而突出的泛化性能在各项任务上取得了优异的表现,广大的研究者…

源码编译部署LAMP

编译部署LAMP 配置apache [rootzyq ~]#: wget https://downloads.apache.org/apr/apr-1.7.4.tar.gz --2023-12-11 14:35:57-- https://downloads.apache.org/apr/apr-1.7.4.tar.gz Resolving downloads.apache.org (downloads.apache.org)... 88.99.95.219, 135.181.214.104…

BUUCTF-WEB1

[ACTF2020 新生赛]Exec1 1.打开靶机 是一个ping命令 2.利用管道符“|” ping一下本地主机并查看ls ping 127.0.0.1 | ls 可以看到回显的内容是一个文件 127.0.0.1 | cat index.php #查看主机下index.php 127.0.0.1 | ls / #查看主机根目录下的文件 看的一个flag文件 …

数据仓库数据分层详解

数据仓库中的数据分层是一种重要的数据组织方式,其目的是为了在管理数据时能够对数据有一个更加清晰的掌控。以下是数据仓库中的数据分层详解: 原始数据层(Raw Data Layer):这是数仓中最底层的层级,用于存…

jupyter闪退和自动跳转问题

1.闪退问题 当我们点击jupyter时,它会闪一下,然后无法进入,这个时候我们可以去prompt命令行输入jupyter notebook启动试试,如果还不行,我们可以根据报错去解决,一般csdn上都有对应情况,直接搜索…