Video generation models as world simulators-视频生成模型作为世界模拟器

原文地址:Video generation models as world simulators

我们探索在视频数据上进行大规模生成模型的训练。具体来说,我们联合训练文本条件扩散模型,同时处理不同持续时间、分辨率和长宽比的视频和图像。我们利用一个在视频和图像潜在编码的时空块上运行的转换器结构。我们最大的模型Sora能够生成一分钟高保真度视频。我们的结果表明,扩展视频生成模型是建立物理世界通用目的模拟器的一个有前途的途径。

这份技术报告着重介绍了两个方面:(1) 我们将各种类型的视觉数据转化为统一表示形式的方法,从而实现生成模型的大规模训练;和 (2) 对Sora的能力和局限性进行定性评估。报告中不包括模型和实施细节。

许多先前的研究都使用各种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归变换器和扩散模型。这些工作通常聚焦于狭窄类别的视觉数据、较短的视频或固定大小的视频。Sora是一种视觉数据的通用模型,它能够生成跨越不同持续时间、长宽比和分辨率的视频和图像,达到高清晰度视频长达一分钟。

将视觉数据转化为块

我们受到大型语言模型的启发,这些模型通过在互联网规模的数据上进行训练获得了通用能力。语言模型的成功在一定程度上归功于优雅地统一了文本、代码、数学和各种自然语言等多种形式的令牌。在这项工作中,我们考虑如何将视觉数据的生成模型继承这些好处。而语言模型使用文本令牌,Sora使用视觉块。之前已经证明,块对于视觉数据的模型是一种有效的表示形式。我们发现,块是一种高度可扩展且有效的表示形式,适用于训练各种类型的视频和图像的生成模型。

 

在高层次上,我们首先将视频压缩成较低维的潜在空间,然后将表示分解为时空块。

视频压缩网络 

我们训练了一个网络来降低视觉数据的维度。该网络接收原始视频作为输入,并输出一个在时间和空间上都进行了压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并生成视频。我们还训练了一个相应的解码器模型,将生成的潜在表示映射回像素空间。

时空潜在块 

给定一个压缩的输入视频,我们提取一系列时空块作为变换器的令牌。这个方案也适用于图像,因为图像只是具有单帧的视频。我们基于块的表示形式使得Sora能够在分辨率、持续时间和长宽比可变的视频和图像上进行训练。在推理时,我们可以通过将随机初始化的块按适当大小的网格排列来控制生成的视频的大小。

扩展变换器用于视频生成 

Sora是一个扩散模型;在给定噪声块输入(以及像文本提示这样的条件信息)的情况下,它被训练来预测原始的“清晰”块。重要的是,Sora是一个扩散变换器。变换器在各种领域展示了显著的扩展性能,包括语言建模、计算机视觉和图像生成。

 

在这项工作中,我们发现扩散变换器同样可以有效地扩展为视频模型。下面,我们展示了在训练进行中使用固定种子和输入的视频样本比较。随着训练计算力的增加,样本质量显著提高。

可变的持续时间、分辨率和长宽比 

先前的图像和视频生成方法通常将视频调整大小、裁剪或修剪为标准尺寸,例如256x256分辨率的4秒视频。我们发现,相反,以原始大小训练数据具有几个优势。

采样灵活性 

Sora可以对宽屏1920x1080p视频、竖屏1080x1920视频以及介于两者之间的视频进行采样。这使Sora能够直接以各种设备的原生长宽比创建内容。它还使我们能够在较低尺寸快速原型化内容,然后再使用相同的模型生成全分辨率内容。

改善构图和组成   

我们在实践中发现,以视频的原生长宽比进行训练可以改善构图和组成。我们将Sora与将所有训练视频裁剪为正方形的模型版本进行了比较,这是训练生成模型时常见的做法。在正方形裁剪训练的模型(左侧)有时会生成主体仅部分在视野中的视频。相比之下,Sora生成的视频(右侧)具有改进的构图。

语言理解 

训练文本到视频生成系统需要大量带有相应文本标题的视频。我们将引入 DALL·E 3 中的重新标注技术应用到视频中。我们首先训练一个高度描述性的标题模型,然后使用它为我们训练集中的所有视频生成文本标题。我们发现,使用高度描述性的视频标题进行训练不仅提高了文本的准确性,还改善了视频的整体质量。

类似于DALL·E 3,我们还利用GPT将用户的简短提示转化为更加详细的长篇说明,并将其发送给视频模型。这使得Sora能够生成高质量的视频,准确地遵循用户的提示。

通过图像和视频发出提示 

以上所有结果以及我们的主页展示的都是文本到视频的样本。但是Sora也可以通过其他输入进行提示,例如预先存在的图像或视频。这种能力使得Sora能够执行各种图像和视频编辑任务,比如创建完美循环的视频、为静态图像添加动画效果、向后或向前延伸视频等。

为DALL·E图像添加动画效果 

Sora能够根据提供的图像和提示生成视频。以下是基于DALL·E 2和DALL·E 3图像生成的示例视频。

延长生成的视频 

Sora还可以延长视频的时间,可以向前或向后延长。以下是四个视频,它们都是从一个生成的视频片段开始向时间倒退延伸。因此,这四个视频的开头各不相同,但最终都导向同样的结尾。

我们可以使用这种方法向前和向后延伸视频,以生成一个无缝的无限循环。

视频到视频的编辑 

扩散模型为从文本提示编辑图像和视频提供了众多方法。下面我们将其中一种方法,SDEdit,应用到Sora上。这种技术使得Sora能够零-shot转换输入视频的风格和环境。

连接视频 

 我们还可以使用Sora逐渐插值两个输入视频之间,创建在完全不同主题和场景组合之间无缝过渡的视频。在下面的示例中,中间的视频是左侧和右侧对应视频之间插值产生的结果。

图像生成能力 

Sora还具备生成图像的能力。我们通过在时间轴上以一帧的时间跨度将高斯噪声块排列在空间网格中来实现这一点。该模型可以生成不同大小的图像,分辨率高达2048x2048。

新兴的仿真能力 

我们发现,当视频模型在大规模训练时,它们表现出一些有趣的新兴能力。这些能力使得Sora能够从物理世界中模拟出人、动物和环境的某些方面。这些特性的出现并没有任何针对3D、物体等显式归纳偏好,它们纯粹是规模现象所产生的。

3D一致性  Sora可以生成具有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中以一致的方式移动。

长程连贯性和物体持久性  对视频生成系统的一个重要挑战是在采样长视频时保持时间一致性。我们发现,尽管不总是如此,Sora通常能够有效地模拟短期和长期依赖关系。例如,我们的模型可以在人们、动物和物体被遮挡或离开画面时仍然保持它们的存在。同样地,它可以在单个样本中生成同一角色的多个镜头,并在整个视频中保持他们的外观。

与世界互动  Sora有时可以模拟一些影响世界状态的简单动作。例如,一位画家可以在画布上留下新的笔触,并随着时间推移而保留下来,或者一个人可以吃掉一个汉堡并留下咬痕。

模拟数字世界  Sora还能够模拟人工过程,一个例子是视频游戏。Sora可以同时使用基本策略控制《Minecraft》中的玩家,并以高保真度呈现世界及其动态。通过提供包含“Minecraft”关键词的描述性标题,这些能力可以从零开始引出。

这些能力表明,继续扩展视频模型是发展高能力物理世界和数字世界模拟器的有前途的道路,并模拟其中生活的物体、动物和人类。

讨论 

目前,Sora作为一个模拟器还存在许多限制。例如,它无法准确地模拟许多基本交互的物理性质,比如玻璃破碎。其他交互,比如吃东西,也不总是产生正确的物体状态变化。我们在我们的首页上列举了模型出现的其他常见故障模式,比如长时间样本中出现的不连贯性或物体的突然出现。

我们相信,Sora如今所展现的能力表明,继续扩展视频模型是发展具有能力的物理世界和数字世界模拟器,并模拟其中生活的物体、动物和人类的有前途的道路。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/697531.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AGI|AI到底如何生成视频?Sora究竟为何能引爆科技圈?

目录 一、AI生成视频引发新浪潮 二、生成方法及难点 三、Sora的突破进展 (一)可生成不同尺寸视频 (二)可生成1分钟时长视频 (三)图片生成视频 (四)场景一致性 (五…

Window部署Exceptionless

Exceptionless Elasticsearch 版本: Exceptionless:8.1.0 Elasticsearch:7.17.5 JDK:11.0.10 目录 一、Elasticsearch运行 二、 Exceptionless 一、Elasticsearch运行 bin目录下elasticsearch.bat 直接运行 访问 http://lo…

使用gstreamer和opencv实时识别LED数码管数字的测试demo(QT)

效果演示: 效果1:静态识别 效果2:动态实时识别 可以看到,虽然不太稳定,但是好歹还是识别出来了的,就是需要调参,然鹅我不是专业的,目前还没有调好。。。 T_T 先这样吧。以后再说。 觉得文章质量可以的,请点个赞哦,谢谢。 前言 最近需要完成使用op…

ElementUI组件的安装和使用

Element UI 是一款基于 Vue 2.0 的桌面端组件库,主要用于快速构建网站的前端部分。它提供了丰富的组件,如按钮、输入框、表格、标签页等,以及一些布局元素,如布局容器、分割线等。Element UI 的设计风格简洁,易于上手&…

【前端素材】推荐优质后台管理系统Airmin平台模板(附源码)

一、需求分析 系统定义 后台管理系统是一种用于管理和监控网站、应用程序或系统的在线工具。它通常是通过网页界面进行访问和操作,用于管理网站内容、用户权限、数据分析等。后台管理系统是网站或应用程序的控制中心,管理员可以通过后台系统进行各种管…

第四十二回 假李逵翦径劫单身 黑旋风沂岭杀四虎-python读写csv和json数据

李逵答应了宋江三件事:不可吃酒,独自前行,不带板斧。李逵痛快答应了,挎一口腰刀,提着朴刀,带了一锭大银子,三五个小银子就下山去了。 宋江放心不下,于是请同乡朱贵也回家一趟&#…

arcgisPro制图输出

1、设置地图底图 2、导入数据 3、 设置图形颜色,如下:右键“浙江省”数据层,选择符号系统 4、在右侧可看到打开的符号系统栏,进行如下设置: 5、移除“其他所有值”项,如下: 6、设置图形轮廓,如下…

【MATLAB】CEEMD_ MFE_SVM_LSTM 神经网络时序预测算法

有意向获取代码,请转文末观看代码获取方式~也可转原文链接获取~ 1 基本定义 CEEMD_MFE_SVM_LSTM神经网络时序预测算法是一种结合了多种先进技术的复杂预测方法,旨在提高时序预测的准确性和稳定性。下面是对该算法的详细介绍: CEEMD&#xff…

ES项目应用

配置: ES存储了2-3亿条,几百GB ES集群有5 个节点 2主2副 ES返回数据量窗口大小设置 index.max_result_window 深度翻页 1.from size 方式 2.scroll相当于维护了一份当前索引段的快照信息,这个快照信息是你执行这个scroll查询时的快照。在这个查询后的任…

kali虚拟机桥接模式快速设置

第一步:选择 虚拟机 > 设置 > 虚拟机设置,设置桥接模式 不选择复制物理网络连接状态选项: 如果采用DHCP的方式来分配IP地址,当电脑网络从有线或无线网络之间进行移动时,DHCP会重新分配ip地址,即虚拟机…

泰迪智能科技大模型数据智能实验室

自2022年11月ChatGPT问世以来,大模型开始备受关注,科技巨头们纷纷推出大模型实验室解决方案。大模型的价值不知在于互联网场景,而在于大模型能力垂直化,能够与具体的业务需求深度融合。 大模型实验室是在学校现有的实验室建设基础…

leetcode hot100 买卖股票的最佳时机1

本题之前采用贪心算法来解决,现在可以采用动态规划来解决,通过dp数组记录每次的状态从而获取到最大的利润。 这里dp数组定义为二维数组 dp[price.length][2],其中price.length表示第i天,[2]其中有0/1两种状态,[0]表示…

六、回归与聚类算法 - 欠拟合和过拟合

目录 1、定义 2、原因及解决方法 2.1 正则化 线性回归欠拟合与过拟合线性回归的改进 - 岭回归分类算法:逻辑回归模型保存与加载无监督学习:K-means算法 1、定义 2、原因及解决方法 2.1 正则化

电路设计(26)——速度表的multisim仿真

1.设计要求 设计一款电路,能够实时显示当前速度。 用输入信号模拟行驶的汽车,信号频率的1hz代表汽车速度的1m/s。最后速度显示,以km/h为单位。 2.电路设计 当输入信号频率为40HZ时,显示的速度应该为144KM/h,仿真结果为…

HTTP基本概念-HTTP 常见的状态码有哪些?

资料来源 : 小林coding 小林官方网站 : 小林coding (xiaolincoding.com) HTTP 常见的状态码有哪些? 1xx 类状态码属于提示信息,是协议处理中的一种中间状态,实际用到的比较少。 2xx 类状态码表示服务器成功处理了客户端的请求,也是我们最愿…

第一个 Angular 项目 - 添加服务

第一个 Angular 项目 - 添加服务 这里主要用到的内容就是 [Angular 基础] - service 服务 提到的 前置项目在 第一个 Angular 项目 - 动态页面 这里查看 想要实现的功能是简化 shopping-list 和 recipe 之间的跨组件交流 回顾一下项目的结构: ❯ tree src/app/…

Linux freezer机制

一、概述 系统进入suspended或进程被加入到cgroup冻结或解冻分组,用户进程和部分内核线程被冻结后,会剥夺执行cpu资源,解冻或唤醒后恢复正常。 二、进程冻结与解冻原理 2.1 进程冻结 用户进程和内核线程冻结的基本流程: 内核态…

2024开年,手机厂商革了自己的命

文|刘俊宏 编|王一粟 2024开年,AI终端的号角已经由手机行业吹响。 OPPO春节期间就没闲着,首席产品官刘作虎在大年三十就迫不及待地宣布,OPPO正式进入AI手机时代。随后在开年后就紧急召开了AI战略发布会,…

GaussDB SQL调优:建立合适的索引

背景 GaussDB是华为公司倾力打造的自研企业级分布式关系型数据库,该产品具备企业级复杂事务混合负载能力,同时支持优异的分布式事务,同城跨AZ部署,数据0丢失,支持1000扩展能力,PB级海量存储等企业级数据库…

昨天Google发布了最新的开源模型Gemma,今天我来体验一下

前言 看看以前写的文章,业余搞人工智能还是很早之前的事情了,之前为了高工资,一直想从事人工智能相关的工作都没有实现。现在终于可以安静地系统地学习一下了。也是一边学习一边写博客记录吧。 昨天Google发布了最新的开源模型Gemma&#xf…