Sora不懂物理世界,翻车神图全网爆笑!LeCun马斯克DeepMind大佬激辩世界模型

大火的Sora,让许多动画、影视行业的人大为恐慌。

不过,今天网上广为流传的这张图,让大家倒是放心了不少。

可以看到,在这个视频中,玻璃杯碎裂的方式十分诡异——

它被抬到半空中时,桌子上就忽然出现了一滩平整的红色玻璃,随后玻璃杯被摔到桌子上,和这滩玻璃融为一体。

为什么Sora做出的视频是这样的呢?

很显然,Sora混淆了玻璃破碎和液体溢出的顺序,也并不能推理时间和因果关系。

而这也说明,Sora目前还无法理解物理世界!

再比如,Sora团队Aditya Ramesh自豪地放出的这个视频,「蚂蚁巢穴内爬行的POV镜头」,粗看似乎很惊艳,仔细一看,却令人啼笑皆非——

蚂蚁怎么只有四条腿?!

Sora这「人工智障」的表现,也让大家着实松了一口气。

虽说确实生成一些足够惊艳的视频,但Sora离「扔进一部小说,生成一部电影」,应该还差得远呢。

跑步方向完全相反

椅子未被建模为刚性物体,居然能飘浮

「一只大鸭子走过波士顿的街道」,在第9秒,鸭子把人踩没了

Sora不懂人类的物理世界?AI专家混战

LeCun和马库斯这对「宿敌」,这次却站在了统一战线上,齐喷Sora所谓的「物理引擎」。

LeCun留言表示:嗨,Aditya,蚂蚁有6条腿,不是吗?

马库斯也表示,Sora会造成可怕的后果——

「我们即将有整整一代儿童接受虚假视频的教育,这些视频对于天真的观众是完全合理的,然而在生物学上却错误百出。」

今天它弄错的可能是一只蚂蚁,明天就是月球的轨道。诈骗犯会做出许多虚假视频,普通用户会被蒙蔽,再也不知道什么是真实,什么是虚假。

对于玻璃杯错误摔碎的视频,马库斯表示这是一个绝妙的例子。

我们需要认识到,并非Sora生成的所有视频都来自其训练集。Sora也并不总是遵循物理学、生物学和文化的规律。

我最近讨论的7*7棋盘、4条腿的蚂蚁,和碎裂的杯子一样,都证明了Sora是一个鲁莽的野兽,而非迭代的、基于定律的物理引擎。

OpenAI所引以为傲的对象的一致性,在这些demo中都没有成功。因为模型在训练数据中从未见过,从未被物理引擎产生过。

其实,Sora只是泛化了像素的模式,而并非世界上物体的模式。

对此,英伟达高级研究科学家Jim Fan表示,我们可以从两个角度来解释这个问题:

(1)可能是因为这个模型根本没有掌握物理知识,它仅仅是在无序地拼凑图像像素;

(2)模型确实尝试构建了一个内部的物理引擎,但这个引擎的表现还不尽人意。就像是第一代虚幻引擎在处理流体动力学和物体变形等问题上,与V5相比有着明显的不足。同样地,V1的渲染效果也远不如V5,并且缺乏物理上的准确性。

至于为什么更倾向于是第二种解释,来自谷歌DeepMind的Nando de Freitas给出了更详细的说明。

生命,以其惊人的复杂结构为例,其实质是在日益增加的宇宙混沌中创造出秩序。类似地,在训练过程中,神经网络通过消耗能量来减少混乱,从而更有效地进行预测和泛化。我们甚至将这种能量损失称为「负熵」。

就像生命一样,网络也是更广阔环境的一部分,这个环境为它提供数据和反馈。同时,这一过程也会为宇宙带来更多的混乱(例如TPU和GPU产生的热量)。总的来说,我们已经具备了智能(生命的一种衍生属性)的所有要素,包括对物理学的理解。

一个规模有限的神经网络能够预测任何情况发生的唯一方式,是通过学习能够促进这种预测的内部模型,包括对物理定律的直观理解。

基于这种直觉,我找不到任何反对Jim Fan观点的理由。

随着我们获得更多高质量的数据、电力、反馈(也就是微调和基础化),以及能够高效吸收数据以降低熵的并行神经网络模型,我们很可能会拥有比人类更擅长推理物理的机器,并且希望它们能教会我们新知。

顺带一提,我们也构成了神经网络的环境,通过消耗能量来创造秩序(比如提升神经网络训练数据集的质量)。

关于生命和「熵」:https://newscientist.com/article/2323820-is-life-the-result-of-the-laws-of-entropy/

Sora「世界模型雏形」陷入重重争议

其实,Sora初一面世,OpenAI声称「扩展视频生成模型是构建物理世界通用模拟器的一条可行之路」的说法,就得到了诸多专家的质疑。

前谷歌、Facebook技术主管Hongcheng表示——

「模型不大可能通过被动看训练数据视频,就能掌握物理定律。」

再聪明的智能体,也不大可能通过看太阳东升西落的视频,就能悟出地球围着太阳转。人类看了几千年苹果掉到地上,也是直到牛顿的时代才发现了引力。

多位业内人士表示,说Sora是数据驱动的物理引擎的说法很愚蠢。

它的荒谬性,就好比我们收集了行星运动的数据,输入到模型中,模型预测出行星位置,就说这个模型在内部复现了广义相对论一样。

像Sora这样的Diffusion Transformer,底层是基于机器学习的随机梯度下降加上反向传播。

这就意味着:Sora并没有逻辑推理能力!

本质上,它只是在将训练的数据压缩成模型的权重罢了。只是按照某种规则更新参数,以达到最小误差的配置,并不进行逻辑推理。

梯度下降加上反向传播,往往会找到似乎有效但实际上脆弱的解决方案,因此它很容易崩溃。

就像苍蝇寻找气味源头一样,它总是朝着气味最浓的方向去寻找,就像梯度下降算法根据梯度的方向更新参数,以逐步接近损失函数的最小值。

基于这种模式,是无法学会物理规律的。

而对于Sora「没有在学习物理,只是在二维空间中处理像素」的说法,英伟达高级科学家Jim Fan表示自己不能苟同。

这种观点,就好像说「GPT-4不学习编码,只是采样字符串」一样。要是这么说的话,我们还可以说「Transformer所做的只是处理一系列整数(token ID)」,「神经网络所做的只是对浮点数进行处理」。

Sora的软物理模拟,是大规模扩展文本到视频训练时的一项「涌现特性」。

- 为了能够生成可执行的Python代码,GPT-4必须掌握特定形式的语法、语义和数据结构。不过,GPT-4并不直接保存Python语法树。

- 同样地,Sora需要掌握将文字描述转化为3D图像、进行3D转换、光线追踪渲染以及应用物理规律的技巧,从而尽可能准确地对视频像素建模。它需要像学习游戏引擎开发那样,掌握这些技能。

- 如果我们暂时不考虑交互性,那么UE5可以被看作是一个复杂的视频像素生成过程。Sora也是用于生成视频像素的,但它是基于端到端处理的Transformer技术。它们在概念上是处于同一层面的。

- 不同之处在于,UE5是通过人工精心设计且精确的,而Sora则完全依靠数据学习得到,更加依赖直观的理解。

谷歌深度学习专家、Keras创始人François Chollet表示,这个话题其实是老生常谈了。

从2016年以来,关于视频生成模型和神经辐射场是否融入了对物理规律的理解,就有不少讨论。

的确,这些系统具备根据给定物理场景预测未来发展的能力,它们实际上是基于一套物理模型工作的。

问题在于,这套模型的准确度如何?能否应用于未曾训练的新情境中?

这些问题,标着着两个世界的分水岭,这两个世界之间,有着截然不同的可能性。

在一个世界里,生成的图像仅用于媒体制作,看上去似乎真实,实际上却并非真实世界的反映。

而在另一个世界中,这些图像能作为现实世界的模拟,帮我们对未来作出可靠预测,这对科学研究意义重大。

不过,当前模型存在一些基本限制,无法捕捉到物体恒存性这样的视觉现实基本原理,这个概念即使两岁孩童也能理解。

当然,人类研究者是有办法对之改进的。

如果能通过增加模型训练数据的采样密度,在更广泛、更深入的数据上进行训练,就能提高模型性能。

到那一天,我们就能来预测天气、创建风洞模拟器、预测太阳活动了!

但如果我们想将模型应用于游戏引擎和视频上,是想构建广泛泛化的现实世界模型,就行不通了,模型不是这么用的。

Sora的技术并不新

此外,还有很多大佬表示,Sora的技术其实并不新。

LeCun转发了华人学者谢赛宁的推文,认为Sora基本上是基于谢赛宁等人在去年被ICCV 2023收录的论文提出的框架设计而成的。

而和谢赛宁一起合著这篇论文的William Peebles之后也加入了OpenAI,领导了开发Sora的技术团队。

时空patch,是Sora创新的核心。

它建立在Google DeepMind早期对NaViT和ViT(视觉Transformer)的研究之上。而这项研究,又是基于一篇2021年的论文「An Image is Worth 16x16 Words」。

这其中Sora所做的,就是把Diffusion和Transformer架构结合在一起,创建了diffusion transformer模型。

马毅教授也表示,Sora与之前不同的地方,就是用Transformer实现了diffusion和denosing。

而这其实就是马毅团队去年在NeurIPS White-box Transformer论文所预示和证明了的——

假设数据分布是mixed Gaussians,那Transformer blocks就是在实现diffusion/扩散和denoising/压缩 。

不过,当时团队苦于没有足够的数据和算力,无法在diffusion model上验证,只能在Masked VAE,DINO,BERT,以及GPT-2上做了验证。

而这次Sora的发布更加证明了,在相同条件下,白盒的Transformer CRATE构架在性能上已经能超越传统的Transformer,而且完全可解释和更加可控,因此会提升视频和文本的生成技术。

有趣的是,连马斯克也跳出来说,特斯拉早在一年前就掌握了类似OpenAI的视频生成技术,它的真实世界模拟和视频生成是是全世界最好的。

并且,特斯拉视频生成超越OpenAI的地方就在于,他预测了极其精确的物理场景,这对自动驾驶至关重要。

那么,特斯拉怎么让OpenAI抢了先呢?

马斯克表示,自己早就想用特斯拉做视频游戏了,但不幸的是,他们必须在发布无监督的FSD后才能制作游戏。

动画师:Sora距离替代人类,还早呢

无独有偶,一位动画师也表示,自己完全没有对Sora感到害怕。

他的理由是,因为动画制作需要反复修改,尤其是面对客户的需求时。

面对反复的修改要求,人类动画师是能轻松应对的,而AI则很可能选择重新出一幅作品。

哪位客户会喜欢这种方式呢?

因此,目前AI无法给客户又完整又高质量的作品。

可能很多人觉得,过于关注细节是吹毛求疵,但客户要的就是吹毛求疵。

对于他们珍爱的IP或作品,他们可不希望每次修改都伴随着角色、设计、构图、背景的大改动。

所以,目前Sora还端不了谁的饭碗,除了展现一下AI的潜能外,实际的应用价值并不大。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/690063.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PWM功能介绍 和配置

泰山派默认提供了3组PWM的GPIO , 为了检测PWM的输出,我们可以配合逻辑分析仪来查看效果,或者搭配STC8的LED灯 PWM 测试 列举所有的PWM设备: # 查找所有有pwm名称的文件 find / -name "pwm" # pwm4: pwmfe6e0000 edp屏幕…

【图像分割 2023 WACV】HiFormer

【图像分割 2023 WACV】HiFormer 论文题目:HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation 中文题目:HiFormer:基于Transformer的分层多尺度表示医学图像分割 论文链接: 论文代码&a…

解决updatexml和extractvalue查询显示不全

报错注入是一种常见的SQL 注入方式,通过注入代码,触发数据库的错误响应,并从错误信息中获取有用的信息。 updatexml和extractvalue updatexml和extractvalue 是常用的两个报错注入函数 http://localhost/sqli/Less-5/?id1%27and%20updat…

Maxwell - 增量数据

前言 今天来学习一个新的大数据小工具 Maxwell ,它和 Sqoop 很像。Sqoop主要用于在 Hadoop (比如 HDFS、Hive、HBase 等)和关系型数据库之间进行数据的批量导入和导出,而 Maxwell 则主要用于监控数据库的变化(通过监控…

如何使用Docker部署Drupal并结合cpolar实现固定公网地址访问

文章目录 前言1. Docker安装Drupal2. 本地局域网访问3 . Linux 安装cpolar4. 配置Drupal公网访问地址5. 公网远程访问Drupal6. 固定Drupal 公网地址 前言 Dupal是一个强大的CMS,适用于各种不同的网站项目,从小型个人博客到大型企业级门户网站。它的学习…

2024年及以后在您的项目中使用的最佳CSS框架

在过去几年中,CSS已经取得了长足的进步。在过去,您可能会使用CSS来创建依赖于HTML表格和CSS浮动作为其布局系统的简单外观的Web应用程序。而现在,您可以设计复杂的交互式用户界面,具有优雅的设计。 尽管CSS变得越来越先进&#x…

虚拟机centos7 网络IP冲突

修改其中一个虚拟机IP 1: 设置虚拟机网络配置器的模式为NAT模式,操作方式如下图所示 2:点击虚拟网络编辑器 3:点击NAT设置 4:点击DHCP配置 5: 修改配置文件来指定IP并可以连接到外网,在roo…

【通讯录案例-数据存储总结 Objective-C语言】

一、我们简单的把“数据存储”总结一下, 1.上午,我们说的三种存储方式, 1)plist 2)Preference(偏好设置) 3)NSKeyedArchiver(归档、解档) 三种存储方式, 2.什么能做plist存储, 1)writeToFile:方法, 实际上,这个东西,才是关键, 有一个对象,可以去写w…

ETL数据集成工具DataX、Kettle、ETLCloud特点对比

ETL数据集成工具 对于数据仓库,大数据集成类应用,通常会采用ETL工具辅助完成。ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract) 、交互转换(transform) 、加载(load)至的端的过程当前的很多应…

spring @Transactional注解参数详解

事物注解方式: Transactional 当标于类前时, 标示类中所有方法都进行事物处理 , 例子: 1 Transactional public class TestServiceBean implements TestService {}当类中某些方法不需要事物时: Transactional public class TestServiceBean implements TestService {private…

Vue24 收集表单数据 实例

实例 <!DOCTYPE html> <html><head><meta charset"UTF-8" /><title>收集表单数据</title><script type"text/javascript" src"../js/vue.js"></script></head><body><!-- 收集…

SpringCloud-Feign:负载均衡(基于服务端)

7.Feign&#xff1a;负载均衡(基于服务端) 7.1 Feign简介 Feign是一个开源的声明式HTTP客户端&#xff0c;它可以简化HTTP API的调用过程。Feign的设计目标是使得使用者可以像调用本地方法一样调用远程服务&#xff0c;使得编写和维护HTTP客户端变得更加简单。类似controller…

2045第六题 拯救花园 (flowers)

题目大意&#xff1a; 有n只兔子&#xff0c;每只兔子抓回去的时间为ti,回来的时间也是ti,则抓一只兔子要2*ti的时间&#xff0c;di则为每只兔子一个时间单位能吃多少草&#xff0c;用最优方法做的话它们一共吃了多少草&#xff08;最少&#xff09; 贪心标准&#xff1a; 我们…

[深度学习] 卷积神经网络“卷“在哪里?

​ &#x1f308; 博客个人主页&#xff1a;Chris在Coding &#x1f3a5; 本文所属专栏&#xff1a;[深度学习] ❤️ 热门学习专栏&#xff1a;[Linux学习] ⏰ 我们仍在旅途 目录 1.卷积的定义 2.卷积的"卷"在哪里 3.什么又是卷积神…

C++学习Day06之多继承基本语法

目录 一、程序及输出二、分析与总结 一、程序及输出 多继承的基本语法如下&#xff1a; class Base1 { // Base1 class definition }; class Base2 { // Base2 class definition }; class Derived : public Base1, protected Base2 { // Derived class definition }; #include…

OpenAI划时代大模型——文本生成视频模型Sora作品欣赏(一)

Sora介绍 Sora是一个能以文本描述生成视频的人工智能模型&#xff0c;由美国人工智能研究机构OpenAI开发。 Sora这一名称源于日文“空”&#xff08;そら sora&#xff09;&#xff0c;即天空之意&#xff0c;以示其无限的创造潜力。其背后的技术是在OpenAI的文本到图像生成模…

MySQL-锁(LOCK)

文章目录 1. 锁是什么&#xff1f;2. 全局锁2.1 相关语法2.2 特点 3. 表级锁3.1 表锁3.1.1 共享读锁&#xff08;S&#xff09;3.1.2 排它写锁&#xff08;X&#xff09; 3.2 元数据锁&#xff08;MDL&#xff09;3.2 意向锁&#xff08;IS、IX&#xff09; 4. 行级锁4.1 行锁 …

Python学习(16)|列表_遍历_排序_max_min_sum

列表的遍历&#xff1a; a [10,20,30,40] for obj in a: #obj 是临时变量名称&#xff0c;随意起名print(obj) 执行结果&#xff1a; 复制列表所有的元素到新列表对象&#xff1a; list1 [30,40,50] list2 list1 #只是将list2也指向了列表对象。也就是说list…

Springboot返回给前端的日期变成时间戳问题处理

问题&#xff1a; 解决方案 在对应的Entity类中&#xff0c;给对应属性添加JsonFormat​注解 ​JsonFormat​注解用于将Date日期格式化为指定格式的字符串。由于在序列化时间时是按照国际标准时间GMT进行格式化的&#xff0c;最后接受到的数据会早8个小时&#xff0c;所以应该…

CF778A String Game 题解

文章目录 CF778A String Game 题解题面翻译Input DataOutput DataInput Sample 1Output Sample 1题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 样例 #2样例输入 #2样例输出 #2 提示算法&#xff1a;二分代码&#xff1a; CF778A String Game 题解 link 题面翻译 …