文档链接:https://openai.com/research/video-generation-models-as-world-simulators
文章目录
- Video generation models as world simulators
- Turning visual data into patches
- Video compression network
- Spacetime latent patches
- Scaling transformers for video generation
- Variable durations, resolutions, aspect ratios
- Sampling flexibility
- Improved framing and composition
- Language understanding
- Prompting with images and videos
- Image generation capabilities
- Emerging simulation capabilities
- 3D consistency
- Long-range coherence and object permanence
- Interacting with the world
- Simulating digital worlds
- Discussion
Video generation models as world simulators
探索在视频数据上生成模型的大规模训练。具体而言,在可变持续时间,分辨率和宽高比的视频和图像上共同训练文本条件扩散模型;利用在视频和图片的隐空间的spacetime patches执行计算的Transformer架构。最大的模型Sora能够生成一分钟的高保真视频;结果表明,扩展视频生成模型是建立物理世界的通用模拟器的有前途的途径。
技术报告集中在以下两个方向:
- 如何将所有类型的视觉数据转换为统一表示的方法,用于大规模训练生成模型
- Sora能力和局限性的定性评估
许多先前的工作已经使用各种方法研究了视频数据的生成建模,包括递归网络、生成对抗性网络、自回归Transformers和扩散模型。这些工作基本关注狭义的视觉数据,关注较短的视频,或固定大小的视频。Sora是一个通用的视觉数据模型,它可以生成不同持续时间、宽高比和分辨率的视频和图像,最高可达一分钟的高清视频。
Turning visual data into patches
从大型语言模型中获得灵感,这些模型通过对互联网规模的数据进行训练来获得通用能力。LLM范式的成功在一定程度上得益于tokens的使用,这些tokrnd优雅地统一了文本的各种形式——代码、数学和各种自然语言。在这项工作考虑视觉数据的生成模型如何继承这些优势。LLMs有文本tokens,Sora有视觉patches。patches在先前已被证明是视觉数据模型的有效表示。本工作发现对于在各类视频、图片上训练生成模型,patches是一种高扩展、有效的表征。
在高维度上,首先将视频压缩到较低维度的潜在空间中,随后将视频表征分解为spacetime patches。
Video compression network
训练一个降低视觉数据维度的网络。该网络将原始视频作为输入,并输出在时间和空间上都被压缩的潜在表征。Sora与LDM相似,在潜在空间进行训练、生成视频;同时训练了一个对应的解码模型,将生成的隐向量映射回像素空间。
Spacetime latent patches
给定压缩输入视频,提取了一系列spacetime patches,此序列相当于transformer tokens。该方案也适用于图像,因为图像是带有单个帧的视频。基于patches的表示使Sora可以在可变分辨率,持续时间和纵横比的视频、图像上训练。推理时,可以通过在适当尺寸的网格中安排随机定位的patches来控制生成的视频的大小。
Scaling transformers for video generation
Sora是一个扩散模型,给定noisy patches或带有文本控制信息的patches,其通过预测原始clean patches的方式进行训练。重要的是,Sora是基于transformer的扩散模型。Transformer 在多个领域展示了卓越的扩展特性,包括语言建模、计算机视觉和图像生成。
这项工作发现扩散transformers也可以有效地缩放为视频模型。
Variable durations, resolutions, aspect ratios
之前的图像和视频生成方法通常会调整,裁剪或修剪视频的大小,例如256x256分辨率的4秒视频。本工作发现,相反,以其原始大小的数据进行训练会有更多优势。
Sampling flexibility
Sora 可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频。 这使得 Sora 可以直接以其原生宽高比为不同设备创建内容;还使得能够在以全分辨率生成之前快速以较低尺寸制作原型内容
Improved framing and composition
根据经验发现,对视频的原始纵横比进行训练可以改善构图和框架。将 Sora 与将所有训练视频裁剪为正方形(训练生成模型时的常见做法)的模型版本进行比较。 在方形数据上训练的模型有时会生成仅部分可见主体的视频。 相比之下,Sora的视频的取景效果有所改善。
Language understanding
训练文本到视频生成系统需要大量带有相应文本字幕的视频。 将 DALL·E 3 中引入的re-captioning技术应用于视频。首先训练一个高度描述性的字幕生成器模型,然后使用它为训练集中的所有视频生成文本字幕。 发现,对高度描述性视频字幕进行训练可以提高文本保真度以及视频的整体质量。
与 DALL·E 3 类似,还利用了 GPT 将简短的提示词转换为较长的详细字幕,然后发送到视频模型。 这使得 Sora 能够生成准确遵循提示词的高质量视频。
Prompting with images and videos
除文本外,Sora 也可以通过其他输入进行提示,例如预先存在的图像或视频。 此功能使 Sora 能够执行各种图像和视频编辑任务 - 创建完美的循环视频、动画静态图像、向前或向后扩展视频等。
- Animating DALL·E images:能够以给定的视频和提示词作为输出生成视频
- Extending generated videos:能够在时间上向前或向后扩展视频
- Video-to-video editing:扩散模型实现了多种根据文本提示编辑图像和视频的方法
- Connecting videos:在两个输入视频之间逐渐进行插值,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡
Image generation capabilities
Sora 还能够生成图像,通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种尺寸的图像,分辨率高达 2048x2048。
Emerging simulation capabilities
本工作发现,视频模型在大规模训练时表现出许多有趣的新兴功能。这些功能使 Sora 能够模拟现实世界中人、动物和环境的某些方面。在没有引入对 3D、物体等任何明确的归纳偏差情况下涌现了这些属性——它们纯粹是尺度现象。
3D consistency
Sora 可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人和场景元素在三维空间中一致移动。
Long-range coherence and object permanence
视频生成系统面临的一个重大挑战是在采样长视频时保持时间一致性。本工作发现 Sora 通常(尽管并非总是)能够有效地对短期和长期依赖关系进行建模。例如,Sora可以保留人、动物和物体,即使它们被遮挡或离开框架。同样,它可以在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观。
Interacting with the world
Sora有时可以用简单的方式模拟影响世界状况的动作。例如,画家可以在画布上留下新的笔触,并随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。
Simulating digital worlds
Sora 还能够模拟人工过程——一个例子是视频游戏。 Sora 可以同时通过基本策略控制《我的世界》中的玩家,同时以高保真度渲染世界及其动态。这些能力可以通过用带“Minecraft”的caption提示 Sora 触发。
这些功能表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有前途的道路。
Discussion
Sora目前作为模拟器显示出许多限制。例如,它没有准确模拟许多基本交互的物理,比如玻璃破碎。其他交互,比如吃东西,不总是会产生正确的物体状态变化。模型的其他常见故障模式还包括在长时间样本中出现的不一致性或物体的自发出现。
Sora目前具备的能力表明,继续扩展视频模型是通向开发能够模拟物理世界、数字世界以及其中的物体、动物和人类的有能力模拟器的一个有前景的路径。