OpenAI超级视频模型Sora登上央视,LeCun强推的「世界模型」雏形相继诞生,AGI如何能够以人类的理解方式看世界?

OpenAI超级视频模型Sora热度不减

Sora一经面世,瞬间成为顶流,话题热度只增不减,一度登上央视新闻报道。

强大的逼真视频生成能力,让许多人纷纷惊呼「现实不存在了」。

OpenAI官方技术报告

OpenAI官方Sora技术报告:Video generation models as world simulators

甚至,OpenAI技术报告中也强调,Sora能够深刻地理解运动中的物理世界,堪称为真正的「世界模型」。

Video generation models as world simulatorsWe explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that operates on spacetime patches of video and image latent codes. Our largest model, Sora, is capable of generating a minute of high fidelity video. Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulatorsOpenAI官方:“我们探索在视频数据上进行大规模生成模型的训练。具体来说,我们联合在变化时长、分辨率和宽高比的视频和图像上训练文本条件扩散模型。我们利用一个在视频和图像潜在编码的时空补丁上操作的变换器架构。我们最大的模型,Sora,能够生成一分钟的高保真视频。我们的结果表明,扩展视频生成模型是通往构建物理世界通用模拟器的有希望途径。”

什么是世界模型?

去年初,Meta 首席 AI 科学家 Yann LeCun 针对「如何才能打造出接近人类水平的 AI」提出了全新的思路。他勾勒出了构建人类水平 AI 的另一种愿景,指出学习世界模型(即世界如何运作的内部模型)的能力或许是关键。这种学到世界运作方式内部模型的机器可以更快地学习、规划完成复杂的任务,并轻松适应不熟悉的情况。

LeCun 根据动物的大脑运行机制,提出了一个端到端的仿生架构。该模型内部包含几个重要模块:感知模块、世界模型、短期记忆模块、执行者模块、代价模块(固定代价模块 & 批评家代价模块)以及配置模块。

该系统可以对世界进行分层表达,并在不同层级上实现最佳动作序列的规划和推理。在高层级可能会规划出一些粒度非常粗糙的任务,然后可以指导在低层级上产生更细粒度的子任务,达到一个自主拆解任务的目的。

该系统中有一个世界模型,它里面装了很多世界知识,能够帮助完成一些推理任务。该系统中还有一个记忆模块,他可以记录自己的第一反应和深度推理结果的差异,然后自我训练以达到不需要多思考就规划出优秀的动作序列的水平。

整个系统的驱动力是目标,也就是Cost模块让代价最小化。Cost模块里可以给智能体人工设置一些粗线条的规则可以称为机器人准则(是不可改变的准则),智能体未来在学习过程中,学出新的准则以指导自身的行动(新的准则也是根据机器人准则的自我衍生出来的,因此整个系统是安全的)。

LeCun 认为,构造自主 AI 需要预测世界模型,而世界模型必须能够执行多模态预测,对应的解决方案是一种叫做分层 JEPA(联合嵌入预测架构)的架构。该架构可以通过堆叠的方式进行更抽象、更长期的预测。

23年6 月 9 日,在 2023 北京智源大会开幕式的 keynote 演讲中,LeCun 又再次讲解了世界模型的概念,他认为基于自监督的语言模型无法获得关于真实世界的知识,这些模型在本质上是不可控的。

23年6月13日Meta 推出了首个基于 LeCun 世界模型概念的 AI 模型。该模型名为图像联合嵌入预测架构(Image Joint Embedding Predictive Architecture, I-JEPA),它通过创建外部世界的内部模型来学习, 比较图像的抽象表示(而不是比较像素本身)。

Meta官方:I-JEPA: The first AI model based on Yann LeCun’s vision for more human-like AI

https://ai.meta.com/blog/yann-lecun-ai-model-i-jepa/icon-default.png?t=N7T8https://ai.meta.com/blog/yann-lecun-ai-model-i-jepa/I-JEPA(Image Joint Embedding Predictive Architecture)是基于Yann LeCun愿景的第一个AI模型,旨在创建能够学习内部世界模型的机器,而更快地学习、规划复杂任务,并适应不熟悉的情况。I-JEPA通过创建外部世界的内部模型,使用图像的抽象表示(而非像素本身)进行学习,提高了多个计算机视觉任务的性能,同时比其他广泛使用的计算机视觉模型更为计算效率高。此模型代表了向能够像人类和动物那样通过观察和解释周围世界来学习的机器迈出的一步。

Sora 世界模型惹争议

转载推特上AI大V Jim Fan的观点,

如果您认为 OpenAI Sora 是像 DALLE 一样的创意玩具,...再想一想。 Sora 是一个 数据驱动的物理引擎。它是对许多世界的模拟,无论是真实的还是幻想的。模拟器通过一些去噪和梯度数学来学习复杂的渲染、“直观”物理、长期推理和语义基础。

如果 Sora 使用 虚幻引擎 5 对大量合成数据进行训练,我不会感到惊讶。它必须如此!

我们来分解一下下面的视频。提示:“两艘海盗船在一杯咖啡内航行时互相战斗的逼真特写视频。”

- 模拟器实例化了两种精美的 3D资产:具有不同装饰的海盗船。 Sora 必须在其潜在空间中隐式地解决文本到 3D 的问题

- 3D 对象在航行并避开彼此路径时始终保持动画效果。

- 咖啡的流体动力学,甚至是船舶周围形成的泡沫。流体模拟是 计算机图形学的一个完整子领域,传统上需要非常复杂的算法和方程。

- 照片写实主义,几乎就像 光线追踪渲染一样。

- 模拟器考虑到杯子与海洋相比尺寸较小,并应用 移轴摄影来营造“微小”的氛围。

- 场景的语义在现实世界中并不存在,但引擎仍然实现了我们期望的正确物理规则。

接下来:添加更多模式和条件,然后我们就有了一个完整的数据驱动的 Unreal Engine,它将取代所有手工设计的图形管道。

这次OpenAI的技术报告「视频生成模型作为世界模拟器」,直接就把 Scaling video generation 称为走向通用物理世界模拟器的 promising path。

在后面的OpenAI官方技术报告里也提到:从这一部分开始,Sora 所展现出的能力是超出原有预期的,属于「智能涌现」。

这些能力使得Sora能够模拟出一些来自物理世界的人、动物和环境的某些方面。

同时,OpenAI 也在强调,这些能力完全来自于 Scale。Scale Law 还在上分!

然而,在LeCun 看来,「仅根据文字提示生成逼真的视频,并不代表模型理解了物理世界。生成视频的过程与基于世界模型的因果预测完全不同」。

 接下来,LeCun更详细地解释道:

- 虽然可以想象出的视频种类繁多,但视频生成系统只需创造出「一个」合理的样本就算成功。

- 而对于一个真实视频,其合理的后续发展路径就相对较少,生成这些可能性中的具代表性部分,尤其是在特定动作条件下,难度大得多。

- 此外,生成这些视频后续内容不仅成本高昂,实际上也毫无意义。

- 更理想的做法是生成那些后续内容的「抽象表示」,去除与我们可能采取的行动无关的场景细节。

- 这正是JEPA(联合嵌入预测架构)的核心思想,它并非生成式的,而是在表示空间中进行预测。

然后,他用自家的研究VICReg、I-JEPA、V-JEPA以及他人的工作证明:

- 与重建像素的生成型架构,如变分自编码器(Variational AE)、掩码自编码器(Masked AE)、去噪自编码器(Denoising AE)等相比,「联合嵌入架构」能够产生更优秀的视觉输入表达。

- 当使用学习到的表示作为下游任务中受监督头部的输入(无需对主干进行微调),联合嵌入架构在效果上超过了生成式架构。

也就是在Sora模型发布的当天,Meta重磅推出一个全新的无监督「视频预测模型」——V-JEPA。

自2022年LeCun首提JEPA之后,I-JEPA和V-JEPA分别基于图像、视频拥有强大的预测能力。

号称能够以「人类的理解方式」看世界,通过抽象性的高效预测,生成被遮挡的部分。

论文地址:https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video

V-JEPA看到下面视频中的动作时,会说「将纸撕成两半」。

再比如,翻看笔记本的视频被遮挡了一部分,V-JEPA便能够对笔记本上的内容做出不同的预测。

Perplexity AI的首席执行官表示:

- Sora虽然令人惊叹,但还没有准备好对物理进行准确的建模。并且Sora的作者非常机智,在博客的技术报告部分提到了这一点,比如打碎的玻璃无法很好地建模。

Sora,以及V-JEPA真的能够理解世界吗?未来的通用智能(AGI)模型又将如何发展呢?

探索智能的边界,发现无限可能

欢迎加入智慧地球社区AIO通用智能(AGI)服务交流QQ群:949698745,共同探讨未来智能科技!

欢迎添加助理VX:AIEarth_Phoenixash或AIEarth_AIO,加入智慧地球社区Sora 世界模型vx交流群!

智慧地球(AI·Earth)社区AIO通用智能服务中心是您踏入人工智能世界的理想门户。我们致力于打造一个友好、开放、创新的平台,让每个人都能感受到AI技术的力量,享受科技进步带来的红利。加入我们,体验一站式AGI服务,成为智慧地球(AI·Earth)社区的一员,共同探索未来技术的边界!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/688165.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JMeter 配置元件之按条件读取CSV Data Set Config

实践环境 win10 JMeter 5.4.1 需求描述 需求是这样的,需要压测某个接口(取消分配接口),请求这个接口之前,需要先登录系统(物流WMS系统),并在登录后,选择并进入需要操作的仓库,然后请求接口,…

我的NPI项目之Android Camera (二) -- 核心部件之 Camera Sensor

说到Camera模组,我们比较关心的是用的什么样的sensor? sensor的分辨率多少,sensor的像素多大,sensor是哪家生产的等等一些问题。今天,我们就穿越时间,将sensor的历史扒一扒。 Wikipedia先看一下&#xff1…

MOSFET栅极应用电路分析汇总(驱动、加速、保护、自举等等)

概述 MOSFET是一种常见的电压型控制器件,具有开关速度快、高频性能、输入阻抗高、噪声小、驱动功率小、动态范围大、安全工作区域(SOA)宽等一系列的优点,因此被广泛的应用于开关电源、电机控制、电动工具等各行各业。栅极做为MOSFET本身较薄弱的环节&am…

【C++11新特性】详解智能指针 创建、使用、注意事项

创作不易&#xff0c;本篇文章如果帮助到了你&#xff0c;还请点赞 关注支持一下♡>&#x16966;<)!! 主页专栏有更多知识&#xff0c;如有疑问欢迎大家指正讨论&#xff0c;共同进步&#xff01; &#x1f525;c系列专栏&#xff1a;C/C零基础到精通 &#x1f525; 给大…

小白如何学鸿蒙开发?

在互联网技术不断发展的现在&#xff0c;鸿蒙操作系统的出现标志着是能技术领域的一次重大突破&#xff0c;鸿蒙作为华为推出的一代操作系统&#xff0c;鸿蒙不仅达代表了自主创新的力量&#xff0c;还因为独特的分布式架构和全场景适配能力而备受关注。随着鸿蒙生态的不断完善…

测试架构师必备技能 —— Nginx安装部署实战

Nginx("engine x")是一款是由俄罗斯的程序设计师Igor Sysoev所开发高性能的免费开源Web和 反向代理服务器&#xff0c;也是一个 IMAP/POP3/SMTP 代理服务器。在高并发访问的情况下&#xff0c;Nginx是Apache服务器不错的替代品。官网数据显示每秒TPS高达50W左右。本文…

左旋字符串解析

题目 实现一个函数&#xff0c;可以左旋字符串中的k个字符。 例如&#xff1a; ABCD左旋一个字符得到BCDA ABCD左旋两个字符得到CDAB 法1&#xff1a;一个个移动 #include<stdio.h> #include<string.h>//把一个字符串s,左移time个字符 void leftRound(char* s…

leetcode日记(26)有效的数独

用暴力解法解出来的&#xff0c;判断3*3那要写的比较多&#xff0c;判断竖列那花了点功夫。 不知道有没有更好的解法。 class Solution { public:bool isValidSudoku(vector<vector<char>>& board) {for(int i0;i<9;i){vector<char>cboard[i];for(i…

[Docker实战] 旭日X3派上Docker Openwrt +Samba 实现局域网NAS 开启AP模式

​ &#x1f308; 博客个人主页&#xff1a;Chris在Coding &#x1f3a5; 本文所属专栏&#xff1a;[旭日X3派] [Docker实战] ❤️ 前置学习专栏&#xff1a;[Linux学习] ⏰ 我们仍在旅途 …

创建补丁文件.patch

前言 在linux中&#xff0c;在工程实践中。 自己基于文件1进行了修改&#xff0c;得到文件2&#xff0c;文件1有线上仓库。时常会遇到以下两种情景&#xff1a; 由于文件过大&#xff0c;直接向组员分享文件2很麻烦。由于修改地方过多&#xff0c;每次更换环境都需要重新修改文…

【JAVA语言-第18话】集合框架(五)——Map、HashMap、LinkedHashMap、TreeMap集合

目录 双列集合Map 1.1 概述 1.2 特点 1.3 Map接口中的常用方法 1.3.1 练习 1.4 HashMap集合 1.4.1 概述 1.4.2 特点 1.5 LinkedHashMap集合 1.5.1 概述 1.5.2 特点 1.6 TreeMap集合 1.6.1 概述 1.6.2 特点 1.7 Map集合练习 1.8 HashMap、LinkedHashMap、Tre…

【EI会议征稿通知】第五届城市工程与管理科学国际会议(ICUEMS 2024)

【Scopus稳定检索】第五届城市工程与管理科学国际会议&#xff08;ICUEMS 2024&#xff09; 2024 5th International Conference on Urban Engineering and Management Science 第五届城市工程与管理科学国际会议&#xff08;ICUEMS 2024&#xff09;将于2024年5月31日-6月2日…

GitKraken Create Repository and Clone不可点击

问题 GitKraken Create Repository and Clone不可点击 详细问题 笔者第一次使用GitKraken&#xff0c;在创建仓库时&#xff0c;填写完成仓库初始化后。发现Create Repository and Clone不可点击。 解决方案 选择Where to clone to位置 产生原因 在创建仓库时&#xff0…

洛谷: P1479 宿舍里的故事之五子棋

题目链接: https://www.luogu.com.cn/problem/P1479 思路: 这道题目可以打表或者搜索。每个位置有选择/不选择两种情况。搜索的时候我们一行一行的搜索&#xff0c;直到使用的棋子达到n为止。b[i]为五子连线的数量&#xff0c;b[i] 1表示五子连线的数量可以取i&#xff0c;在…

day6:继承与多态

思维导图 2.编程题&#xff1a; 以下是一个简单的比喻&#xff0c;将多态概念与生活中的实际情况相联系&#xff1a;比喻&#xff1a;动物园的讲解员和动物表演 想象一下你去了一家动物园&#xff0c;看到了许多不同种类的动物&#xff0c;如狮子、大象、猴子等。现在&#xff…

如何引导llm为自己写prompt生成剧本

如何使用写prompt让你自己生一个狗血修仙穿越短剧&#xff0c;且短剧有趣生动让人流连忘返 好的&#xff0c;我会尝试编写一个狗血修仙穿越短剧的prompt&#xff0c;以激发你的想象力&#xff0c;让你创作出一个既有趣又生动的短剧。以下是我的prompt&#xff1a; 标题&#x…

简洁高效的短链接:优化互联网体验

title: 简洁高效的短链接&#xff1a;优化互联网体验 date: 2024/2/18 13:24:24 updated: 2024/2/18 13:24:24 tags: 短链接长网址缩短美观简洁分享优化点击率提升数据统计用户体验 在互联网时代&#xff0c;我们经常遇到需要分享长网址的情况。长网址不仅不美观&#xff0c;而…

Mysql开启bin-log日志

目录 一、安装配置 二、mysqlbinlog命令 一、安装配置 yum -y install mariadb mariadb-server#安装mysql数据库#默认配置文件/etc/my.cnfvim /etc/my.cnflog-binmariadb-bin #开启二进制日志 systemctl restart mariadb#会在/car/lib/mysql/产生二进制日志文件&#xff0…

防火墙(三) -----------------关于iptables规则的保存

一、关于iptables规则的保存 之前写的iptables的设置&#xff0c;但是都是临时生效的&#xff0c;一旦电脑重启&#xff0c;那么就会失效&#xff0c;如何永久保存&#xff0c;需要借助iptables-save命令&#xff0c;开机生效需要借助iptables-restore命令&#xff0c;并写入规…

AB测试最小样本量

1.AB实验过程 常见的AB实验过程&#xff0c;分流-->实验-->数据分析-->决策&#xff1a;分流&#xff1a;用户被随机均匀的分为不同的组实验&#xff1a;同一组内的用户在实验期间使用相同的策略&#xff0c;不同组的用户使用相同或不同的策略。数据收集&#xff1a;…