Sora技术报告——Video generation models as world simulators

文章目录

  • 1. 视频生成模型,可以视为一个世界模拟器
  • 2. 技术内容
    • 2.1 将可视数据转换成patches
    • 2.2 视频压缩网络
    • 2.3 Spacetime Latent Patches
    • 2.4 Scaling transformers 用于视频生成
    • 2.5 可变的持续时间,分辨率,宽高比
    • 2.6 抽样的灵活性
    • 2.7 改进框架和构图
    • 2.8 为视频生成字幕,作为训练集
  • 3. 应用
    • 3.1 动画DALL·E图像 (输入图片输出视频)
    • 3.2 扩展生成视频
    • 3.3 Video-to-video编辑 (改变视频风格或场景)
    • 3.4 拼接视频
    • 3.5 图像生成功能
  • 4. 新兴的模拟能力
    • 4.1 3d一致性
    • 4.2 长程相干性和对象持久性
    • 4.3 与世界互动
    • 4.4 模拟数字世界
  • 5. 讨论
  • 6. 参考文献
  • 第三方的猜想与讨论

欢迎关注公众号,后续将继续更新
在这里插入图片描述

1. 视频生成模型,可以视为一个世界模拟器

我们在视频数据上探索生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型

我们利用一个transformer 架构来操作视频和图像潜在代码的时空补丁(spacetime patches of video and image latent codes)。我们最大的模型Sora能够生成一分钟的高保真视频。我们的研究结果表明,缩放视频生成模型(scaling video generation models)是构建物理世界通用模拟器的有希望的途径。

本技术报告侧重于

  • 我们将所有类型的视觉数据转换为统一表示的方法,从而能够大规模训练生成模型,
  • 对Sora的能力和局限性进行定性评估。

模型和实现细节不包括在本报告中。许多先前的工作已经使用各种方法研究了视频数据的生成建模,包括循环网络、生成对抗网络、autoregressive transformers和扩散模型。这些作品通常集中在一个狭窄的视觉数据类别上,在较短的视频上,或者在固定大小的视频上。

Sora是一个通用的视觉数据模型,它可以生成跨越不同持续时间、宽高比和分辨率的视频和图像,甚至可以生成一分钟的高清视频。

2. 技术内容

2.1 将可视数据转换成patches

我们从大型语言模型中获得灵感,这些模型通过对互联网规模数据的训练获得了全面的能力。LLM范式的成功在一定程度上是由于使用了token,这些token优雅地统一了文本代码、数学和各种自然语言的各种形式。在这项工作中,我们考虑了视觉数据的生成模型如何继承这些好处。

llm有文本令牌,而Sora有visual patches。patches先前已被证明是视觉数据模型的有效表示。我们发现,对于在不同类型的视频和图像上训练生成模型,patch是一种高度可扩展的有效表示。
在这里插入图片描述
在高层次上,我们首先将视频压缩到一个较低维度的潜在空间[19],然后将其分解为spacetime patches,从而将视频转化为patches。

2.2 视频压缩网络

我们训练一个网络来降低视觉数据的维数。该网络将原始视频作为输入,并输出经过时间和空间压缩的潜在表示。Sora在这个压缩的潜在空间中训练并随后生成视频。我们还训练了一个相应的解码器模型,该模型将生成的潜在映射回像素空间。

2.3 Spacetime Latent Patches

给定一个压缩的输入视频,我们提取一个spacetime patches序列,作为transformer tokens。这个方案也适用于图像,因为图像只是单帧的视频。我们基于patches的表示使Sora能够在不同分辨率、持续时间和宽高比的视频和图像上进行训练。

在推理时,我们可以通过在适当大小的网格中安排随机初始化的patches来控制生成视频的大小。

2.4 Scaling transformers 用于视频生成

Sora为扩散模型[21,22,23,24,25],给定输入的噪声块(以及文本提示之类的条件信息),它被训练来预测原始的“干净”块。重要的是,Sora是一个diffusion transformer。Transformer已经在许多领域展示了显著的缩放特性,包括语言建模[13,14]、计算机视觉[15,16,17,18]和图像生成[27,28,29]
在这里插入图片描述
在这项工作中,我们发现diffusion transformers也可以有效地缩放为视频模型。下面,我们展示了随着训练的进行,具有固定种子和输入的视频样本的比较。随着训练计算量的增加,样本质量显著提高。
在这里插入图片描述

2.5 可变的持续时间,分辨率,宽高比

过去的图像和视频生成方法通常是调整大小,裁剪或修剪视频到标准尺寸

例如,4秒的视频在256x256分辨率。

但是我们发现在原始大小的数据上进行训练提供了几个好处。

2.6 抽样的灵活性

Sora可以采样宽屏1920x1080p视频,垂直1080x1920视频以及介于两者之间的所有视频。这让Sora可以直接以不同设备的原始宽高比为其创建内容。它还允许我们在生成全分辨率的内容之前,以较小的尺寸快速创建内容原型prototype ——所有内容都使用相同的模型。

2.7 改进框架和构图

我们从经验上发现,在视频的原始长宽比上进行训练可以改善构图和框架。

我们将Sora与我们模型的一个版本进行比较,该版本将所有训练视频裁剪为方形,这是训练生成模型时的常见做法。在正方形裁剪(左图)上训练的模型有时会生成仅部分显示主题的视频。相比之下,来自Sora(右)的视频有改进的帧。

左图 右图

在这里插入图片描述

2.8 为视频生成字幕,作为训练集

训练文本到视频生成系统需要大量带有相应文本说明的视频。我们将DALL·E 3 [30]中介绍的字幕重配技术应用到视频中。

我们首先训练一个高度描述性的字幕模型(highly descriptive captioner model),然后使用它为我们训练集中的所有视频生成文本字幕。我们发现,对高度描述性的视频字幕进行训练可以提高文本保真度以及视频的整体质量。与DALL·E 3类似,我们还利用GPT将简短的用户提示转换为更长的详细字幕,并将其发送到视频模型。
在这里插入图片描述

3. 应用

上面的所有结果和我们的登陆页面都显示了文本到视频的示例。但Sora也可以通过其他输入进行提示,比如预先存在的图像或视频。这种功能使Sora能够执行广泛的图像和视频编辑任务-创建完美的循环视频,动画静态图像,向前或向后扩展视频等。

3.1 动画DALL·E图像 (输入图片输出视频)

Sora能够在提供图像和提示作为输入的情况下生成视频。下面我们展示了基于DALL·E 2 [31]和DALL·E 3 [30]图像生成的示例视频。
在这里插入图片描述

展示略

3.2 扩展生成视频

Sora还能够在时间上向前或向后扩展视频。下面是四个视频,它们都是从一个生成的视频片段开始向后扩展的。因此,这四个视频的开始都不同,但四个视频的结局都是一样的。

我们可以使用这种方法来向前和向后扩展视频,以产生无缝的无限循环。

3.3 Video-to-video编辑 (改变视频风格或场景)

扩散模型已经启用了大量的方法来根据文本提示 编辑图像和视频。下面我们将其中一种方法SDEdit [32]应用于Sora。这项技术使Sora能够转换零拍摄输入视频的风格和环境。
在这里插入图片描述

3.4 拼接视频

我们还可以使用Sora在两个输入视频之间逐渐插入,在具有完全不同主题和场景构图的视频之间创建无缝过渡。在下面的例子中,中间的视频在左边和右边对应的视频之间插入。
在这里插入图片描述
在这里插入图片描述

3.5 图像生成功能

Sora还能生成图像。我们通过在一个时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成可变大小的图像,最高可达2048 × 2048分辨率。

在这里插入图片描述

4. 新兴的模拟能力

我们发现视频模型在大规模训练时表现出许多有趣的新兴能力。这些功能使Sora能够从现实世界中模拟人、动物和环境的某些方面。这些属性的出现没有任何明确的3D、物体等的归纳偏差——它们纯粹是尺度现象。

4.1 3d一致性

Sora可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终如一地移动。

4.2 长程相干性和对象持久性

视频生成系统面临的一个重大挑战是在长视频采样时保持时间一致性。我们发现Sora经常(虽然不是总是)能够有效地为短期和长期依赖关系建模。例如,我们的模型可以保存人物、动物和物体,即使它们被遮挡或离开了框架。同样,它可以在单个样本中生成同一角色的多个镜头,在整个视频中保持其外观。

4.3 与世界互动

Sora有时可以用简单的方式模拟影响世界状态的行为。例如,画家可以在画布上留下新的笔触,随着时间的推移,或者一个人吃汉堡时留下咬痕。
在这里插入图片描述

4.4 模拟数字世界

Sora还能够模拟人工过程,比如视频游戏。Sora可以在高保真度渲染世界及其动态的同时,用基本策略控制《我的世界》中的玩家。这些功能可以通过向Sora提示“我的世界”的字幕而获得zero-shot。

这些功能表明,视频模型的持续缩放(continued scaling of video models)是发展物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有希望的道路。

5. 讨论

作为一个模拟器,Sora目前显示出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理过程,比如玻璃破碎。其他的交互,比如吃东西,并不总是在对象状态中产生正确的变化。我们在登陆页面中列举了模型的其他常见故障模式,例如在长时间样本中发展的不一致性或对象的自发出现

我们相信,Sora今天所拥有的能力表明,视频模型的持续缩放是一条很有前途的道路,可以开发出物理和数字世界的模拟器,以及生活在其中的物体、动物和人。

6. 参考文献

[13] Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems 30 (2017).

[14] Brown, Tom, et al. “Language models are few-shot learners.” Advances in neural information processing systems 33 (2020): 1877-1901.

[15] Dosovitskiy, Alexey, et al. “An image is worth 16x16 words: Transformers for image recognition at scale.” arXiv preprint arXiv:2010.11929 (2020).

[16] Arnab, Anurag, et al. “Vivit: A video vision transformer.” Proceedings of the IEEE/CVF international conference on computer vision. 2021.

[17] He, Kaiming, et al. “Masked autoencoders are scalable vision learners.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

[18] Dehghani, Mostafa, et al. “Patch n’Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution.” arXiv preprint arXiv:2307.06304 (2023).

[19] Rombach, Robin, et al. “High-resolution image synthesis with latent diffusion models.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

[21] Sohl-Dickstein, Jascha, et al. “Deep unsupervised learning using nonequilibrium thermodynamics.” International conference on machine learning. PMLR, 2015.

[22] Ho, Jonathan, Ajay Jain, and Pieter Abbeel. “Denoising diffusion probabilistic models.” Advances in neural information processing systems 33 (2020): 6840-6851.

[23] Nichol, Alexander Quinn, and Prafulla Dhariwal. “Improved denoising diffusion probabilistic models.” International Conference on Machine Learning. PMLR, 2021.

[24] Dhariwal, Prafulla, and Alexander Quinn Nichol. “Diffusion Models Beat GANs on Image Synthesis.” Advances in Neural Information Processing Systems. 2021.

[25] Karras, Tero, et al. “Elucidating the design space of diffusion-based generative models.” Advances in Neural Information Processing Systems 35 (2022): 26565-26577.

[27] Chen, Mark, et al. “Generative pretraining from pixels.” International conference on machine learning. PMLR, 2020.

[28] Ramesh, Aditya, et al. “Zero-shot text-to-image generation.” International Conference on Machine Learning. PMLR, 2021.

[29] Yu, Jiahui, et al. “Scaling autoregressive models for content-rich text-to-image generation.” arXiv preprint arXiv:2206.10789 2.3 (2022): 5.

[30] Betker, James, et al. “Improving image generation with better captions.” Computer Science. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8

[31] Ramesh, Aditya, et al. “Hierarchical text-conditional image generation with clip latents.” arXiv preprint arXiv:2204.06125 1.2 (2022): 3.

[32] Meng, Chenlin, et al. “Sdedit: Guided image synthesis and editing with stochastic differential equations.” arXiv preprint arXiv:2108.01073 (2021).

第三方的猜想与讨论

施工中

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/684837.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Invalid DataSize: cannot convert ‘30Mb‘ to Long

Invalid DataSize: cannot convert 30Mb to Long servlet:multipart:max-file-size: 30MBmax-request-size: 30MB

【研究生复试】计算机软件工程人工智能研究生复试——资料整理(速记版)——计算机网络

1、JAVA 2、计算机网络 3、计算机体系结构 4、数据库 5、计算机租场原理 6、软件工程 7、大数据 8、英文 自我介绍 2. 计算机网络 1. TCP如何解决丢包和乱序? 序列号:TCP所传送的每段数据都有标有序列号,避免乱序问题发送端确认应答、超时…

反向迭代器------封装的力量

目录 一、list封装中模板参数Ref和Ptr的理解 二、反向迭代器的实现 一、list封装中模板参数Ref和Ptr的理解 对于反向迭代器,是我们在前面STL模拟实现中留下的一个问题。在之前的文章中,我们极大程度上的利用了模板,从而减少了许多的代码&…

09、全文检索 -- Solr -- SpringBoot 整合 Spring Data Solr (生成DAO组件 和 实现自定义查询方法)

目录 SpringBoot 整合 Spring Data SolrSpring Data Solr的功能(生成DAO组件):Spring Data Solr大致包括如下几方面功能:Query查询(属于半自动)代码演示:1、演示通过dao组件来保存文档1、实体类…

SpringCloud之Feign发送Http请求

文章目录 http客户端Feign使用步骤自定义Feign的配置Feign的性能优化Feign的性能优化-连接池配置 Feign的最佳实践 http客户端Feign Feign的介绍: Feign是一个声明式的http客户端,官方地址:https:/github.com/OpenFeign/feign 其作用就是帮助…

laravel_进程门面_简单介绍

文章目录 Facade是什么?Facade能干什么Facade有哪些方法?怎么使用Facade呢?详细的代码解释Symfony Process是什么?介绍Symfony总结 Facade是什么? 在 Laravel 框架中,Facade 是一种设计模式。 它提供了一…

476. Number Complement(数字的补数)

问题描述 对整数的二进制表示取反(0 变 1 ,1 变 0)后,再转换为十进制表示,可以得到这个整数的补数。 例如,整数 5 的二进制表示是 “101” ,取反后得到 “010” ,再转回十进制表示…

java8默认方法

口什么是默认方法 口如何以一种兼容的方式改进API 口默认方法的使用模式 口 解析规则 传统上,Java程序的接口是将相关方法按照约定组合到一起的方式。实现接口的类必须为接口中定义的每个方法提供一个实现,或者从父类中继承它的实现。但是,一…

NLP_Transformer架构

文章目录 Transformer架构剖析编码器-解码器架构各种注意力的应用Transformer中的自注意力Transformer中的多头自注意力Transformer中的编码器-解码器注意力Transformer中的注意力掩码和因果注意力 编码器的输入和位置编码编码器的内部结构编码器的输出和编码器-解码器的连接解…

计网物理层

通信基础 基本概念 物理层解决如何在连接各种计算机的传输媒体上传输数据比特流,而不是指具体的传输媒体。 其主要任务是确定与传输媒体接口有关的一些特性,即定义标准。 机械特性:定义物理连接的特性,规定物理连接时所采用的…

模型 4R(关联、反应、关系、回报)理论

系列文章 分享 模型,了解更多👉 模型_总纲目录。重在提升认知。以关系促营销。 1 4R(关联、反应、关系、回报)理论的应用 1.1 4R模型在小米客户关系管理中的应用 小米公司是一家以生产智能手机和消费电子产品而闻名的公司,它在客户关系管理…

VMware Workstation 17.0 虚拟机安装MS-DOS 7.1完整详细步骤图文教程

VMware Workstation 17.0 虚拟机安装MS-DOS 7.1完整详细步骤图文教程 一、配置MS-DOS虚拟机机器环境二、安装MS-DOS磁盘操作系统 一、配置MS-DOS虚拟机机器环境 1.打开VMware Workstation Pro 2.新建虚拟机 3.建议选择【典型】,之后点击【下一步】 关于【自定义…

在spring中操作Redis

目录 创建项目 ​编辑 配置Redis 创建类 StringRedisTemplate set / get list set Hash zset 新年快乐!!!! 创建项目 选中maven项目,然后选择java8,输入名称之后,点击next。 随后选择…

C++多重继承

C多重继承 C中的多重继承是指一个类可以从多于一个的基类派生出来,这允许在一个派生类中继承多个基类的特性和行为。多重继承增加了C的灵活性和表达能力,但同时也带来了一些复杂性,如菱形继承问题和潜在的命名冲突。 基本用法 定义一个多重…

C++中类的6个默认成员函数 【拷贝构造函数】

文章目录 拷贝构造函数的使用拷贝构造对于自定义类型【浅拷贝】深拷贝拷贝构造函数典型调用场景 拷贝构造函数的使用 在前几章学习对象的时候,我们有的时候需要一个与已存在对象一某一样的新对象 那在创建对象时,可否创建一个与已存在对象一某一样的新对…

(02)Hive SQL编译成MapReduce任务的过程

目录 一、架构及组件介绍 1.1 Hive底层架构 1.2 Hive组件 1.3 Hive与Hadoop交互过程 二、Hive SQL 编译成MR任务的流程 2.1 HQL转换为MR源码整体流程介绍 2.2 程序入口—CliDriver 2.3 HQL编译成MR任务的详细过程—Driver 2.3.1 将HQL语句转换成AST抽象语法树 词法、语…

C# CAD SelectionFilter下TypedValue数组

SelectionFilter是用于过滤AutoCAD实体的类,在AutoCAD中,可以使用它来选择具有特定属性的实体。构造SelectionFilter对象时,需要传入一个TypedValue数组,它用于定义选择规则。 在TypedValue数组中,每个元素表示一个选…

VScode中配置 C/C++ 环境 | IT拯救者

文章目录 0 引言1. 下载编辑器VScode2. 下载编译器MinGW并解压3. 将MinGW添加至环境变量4. 配置VScode插件5. 运行代码6. 调整和优化7. 提示8. 例行格式条款9. 例行格式条款 0 引言 由于VScode毛毛张使用不习惯,因此配置教程记不住,不过毛毛张看到一篇不…

「递归算法」:两两交换链表中的节点

一、题目 给你一个链表,两两交换其中相邻的节点,并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题(即,只能进行节点交换)。 示例 1: 输入:head [1,2,3,4] 输出&#xf…

计算机二级数据库之数据模型(三层相关的结构)

数据模型 模型的概念 模型的介绍模型是对现实世界特征的模拟和抽象, 数据模型的概念: 数据模型是对现实世界中数据特征的抽象,描述的是数据的共性。 数据模型是用来在数据库中抽象、表示和处理现实世界中的数据和信凹。 其相关的共同特…