视频生成模型作为世界模拟器

  我们探索了在视频数据上大规模训练生成模型。具体来说,我们联合训练文本条件扩散模型,处理不同持续时间、分辨率和宽高比的视频和图像。我们利用一种在时空补丁上操作视频和图像潜码的transformer架构。我们最大的模型,Sora,能够生成高保真度的一分钟视频。我们的结果表明,扩大视频生成模型的规模是通向构建物理世界通用模拟器的一条有前景的路径。

  这份技术报告集中于(1)我们将所有类型的视觉数据转换为统一表示的方法,该方法使得生成模型的大规模训练成为可能;以及(2)对Sora能力和限制的定性评估。模型和实现细节不包含在此报告中。

  之前的许多工作已经研究了使用各种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归transformer和扩散模型。这些工作通常专注于狭窄的视觉数据类别、较短的视频,或者固定大小的视频。Sora是一个视觉数据的通用模型——它能够生成跨越不同持续时间、宽高比和分辨率的视频和图像,最长可达一分钟的高清视频。

一.将视觉数据转换为补丁

  我们从大型语言模型中获得灵感,这些模型通过在互联网规模的数据上训练获得通用能力。大型语言模型成功的部分原因在于使用了能够优雅地统一文本的多种模态(代码、数学和各种自然语言)的令牌。在这项工作中,我们考虑视觉数据的生成模型如何继承这些好处。大型语言模型有文本令牌,Sora有视觉补丁。之前的研究已经显示,补丁是视觉数据模型的一种有效表示。我们发现,补丁是一种高度可扩展且有效的表示形式,用于在不同类型的视频和图像上训练生成模型。


  在高层次上,我们通过首先将视频压缩到一个低维潜在空间,然后将表示分解为时空补丁,来将视频转换为补丁。

二.视频压缩网络

  我们训练了一个减少视觉数据维度的网络。这个网络以原始视频为输入,并输出一个在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并随后生成视频。我们还训练了一个相应的解码器模型,该模型将生成的潜在表示映射回像素空间。

三.时空潜在补丁

  给定一个压缩的输入视频,我们提取一系列时空补丁,这些补丁作为transformer令牌。这个方案也适用于图像,因为图像只是单帧的视频。我们基于补丁的表示使得Sora能够训练不同分辨率、持续时间和宽高比的视频和图像。在推理时,我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成视频的大小。

四.扩展transformer用于视频生成

  Sora是一个扩散模型;给定输入的噪声补丁(和条件信息,如文本提示),它被训练来预测原始的“干净”补丁。重要的是,Sora是一个扩散transformer。transformer在包括语言建模、计算机视觉和图像生成等多个领域展示了显著的扩展特性。


  在这项工作中,我们发现扩散transformer作为视频模型也能有效地扩展。下面,我们展示了训练进展时,使用固定种子和输入的视频样本比较。随着训练计算量的增加,样本质量显著提高。

五.可变持续时间、分辨率、宽高比

  过去对图像和视频生成的方法通常会将视频调整大小、裁剪或修剪到标准尺寸——例如,256x256分辨率的4秒视频。我们发现,直接在数据的原始尺寸上进行训练提供了几个好处。

1.采样灵活性

  Sora能够采样宽屏1920x1080p视频、垂直1080x1920视频以及介于两者之间的所有内容。这使Sora能够直接以不同设备的原生宽高比创建内容。它还允许我们在生成全分辨率内容之前,快速原型较小尺寸的内容——所有这些都使用同一个模型。

2.改善取景和构图

  我们通过实证发现,对视频按其原生宽高比进行训练可以改善构图和取景。我们将Sora与一个版本的模型进行比较,这个版本的模型将所有训练视频裁剪为正方形,这是训练生成模型时的常见做法。在正方形裁剪上训练的模型(左侧)有时会生成主题只部分在视野中的视频。相比之下,来自Sora的视频(右侧)有改善的取景。

六.语言理解

训练文本到视频生成系统需要大量带有相应文本标题的视频。我们将在DALL·E 3中介绍的重新标注技术应用于视频。我们首先训练一个高度描述性的标注模型,然后使用它为我们训练集中的所有视频生成文本标题。我们发现,训练高度描述性的视频标题可以提高文本的准确性以及视频的整体质量。

类似于DALL·E 3,我们也利用GPT将简短的用户提示转换为更长的详细标题,这些标题被发送到视频模型。这使得Sora能够生成高质量的视频,准确地遵循用户的提示。

七.通过图像和视频提示

  上述所有结果以及我们的登录页面显示的都是文本到视频的样本。但是Sora也可以通过其他输入进行提示,比如现有的图像或视频。这项能力使Sora能够执行广泛的图像和视频编辑任务——创建完美循环的视频,为静态图像添加动画,向时间前后扩展视频等。

1.为DALL·E图像添加动画

  Sora能够基于图像和提示作为输入生成视频。下面我们展示了基于DALL·E 2和DALL·E 3图像生成的示例视频。

2.扩展生成的视频

  Sora还能够将视频向前或向后扩展时间。下面是四个视频,它们都是从生成视频的一个片段开始向后扩展的。结果是,这四个视频的开始各不相同,但所有四个视频都有相同的结尾。

  我们可以使用这种方法将一个视频向前和向后扩展,以产生一个无缝的无限循环。

3.视频到视频编辑

  扩散模型已经使得从文本提示编辑图像和视频的方法大量出现。下面我们将其中一种方法,SDEdit,应用于Sora。这种技术使Sora能够零样本转换输入视频的风格和环境。

4.连接视频

  我们还可以使用Sora逐渐在两个输入视频之间插值,创建在完全不同的主题和场景构图之间的无缝过渡。在下面的示例中,中间的视频在左右对应的视频之间插值。

八.图像生成能力

  Sora也能够生成图像。我们通过在具有一个帧的时间范围的空间网格中排列高斯噪声补丁来实现这一点。模型可以生成不同大小的图像——分辨率高达2048x2048。

九.新兴的模拟能力

  我们发现,当在大规模上训练时,视频模型展现出许多有趣的新兴能力。这些能力使Sora能够模拟物理世界中的一些人、动物和环境的方面。这些属性是在没有任何针对3D、物体等明确归纳偏差的情况下自然出现的——它们纯粹是规模现象。

  3D一致性。Sora能够生成具有动态相机运动的视频。随着相机的移动和旋转,人物和场景元素在三维空间中一致地移动。

  长期连贯性和物体持久性。对视频生成系统来说,一个重大挑战一直是在采样长视频时保持时间上的连贯性。我们发现,Sora通常(虽然不总是)能够有效地模拟短期和长期依赖。例如,我们的模型可以持续模拟人物、动物和物体,即使它们被遮挡或离开画面。同样,它可以在单个样本中生成同一角色的多个镜头,整个视频中保持他们的外观。

  与世界互动。Sora有时可以模拟以简单方式影响世界状态的行为。例如,画家可以在画布上留下随时间持续的新笔触,或者一个人可以吃汉堡并留下咬痕。

  模拟数字世界。Sora也能够模拟人工过程——一个例子是视频游戏。Sora可以同时使用基本策略控制Minecraft中的玩家,同时以高保真度渲染世界及其动态。这些能力可以通过用提到“Minecraft”的标题提示Sora零样本地引出。

  这些能力表明,继续扩展视频模型是通往开发高度能够模拟物理和数字世界及其中的物体、动物和人的有力路径。

十.讨论

  Sora目前作为模拟器展示了许多限制。例如,它不能准确地模拟许多基本互动的物理,如玻璃破碎。其他互动,如吃食物,不总是产生正确的物体状态变化。我们在我们的登录页面列举了模型的其他常见失败模式——如在长时间样本中发展的不连贯性或物体的突然出现。

  我们相信,Sora今天所拥有的能力表明,继续扩展视频模型是开发能够模拟物理和数字世界及其中的物体、动物和人的有能力的模拟器的有希望的路径。

参考文献

视频生成模型作为世界模拟器:https://openai.com/research/video-generation-models-as-world-simulators

Srivastava, Nitish, Elman Mansimov, and Ruslan Salakhudinov. “Unsupervised learning of video representations using lstms.” International conference on machine learning. PMLR, 2015.↩︎

Chiappa, Silvia, et al. “Recurrent environment simulators.” arXiv preprint arXiv:1704.02254 (2017).↩︎

Ha, David, and Jürgen Schmidhuber. “World models.” arXiv preprint arXiv:1803.10122 (2018).↩︎

Vondrick, Carl, Hamed Pirsiavash, and Antonio Torralba. “Generating videos with scene dynamics.” Advances in neural information processing systems 29 (2016).↩︎

Tulyakov, Sergey, et al. “Mocogan: Decomposing motion and content for video generation.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.↩︎

Clark, Aidan, Jeff Donahue, and Karen Simonyan. “Adversarial video generation on complex datasets.” arXiv preprint arXiv:1907.06571 (2019).↩︎

Brooks, Tim, et al. “Generating long videos of dynamic scenes.” Advances in Neural Information Processing Systems 35 (2022): 31769-31781.↩︎

Yan, Wilson, et al. “Videogpt: Video generation using vq-vae and transformers.” arXiv preprint arXiv:2104.10157 (2021).↩︎

Wu, Chenfei, et al. “Nüwa: Visual synthesis pre-training for neural visual world creation.” European conference on computer vision. Cham: Springer Nature Switzerland, 2022.↩︎

Ho, Jonathan, et al. “Imagen video: High definition video generation with diffusion models.” arXiv preprint arXiv:2210.02303 (2022).↩︎

Blattmann, Andreas, et al. “Align your latents: High-resolution video synthesis with latent diffusion models.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.↩︎

Gupta, Agrim, et al. “Photorealistic video generation with diffusion models.” arXiv preprint arXiv:2312.06662 (2023).↩︎

Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems 30 (2017).↩︎↩︎

Brown, Tom, et al. “Language models are few-shot learners.” Advances in neural information processing systems 33 (2020): 1877-1901.↩︎↩︎

Dosovitskiy, Alexey, et al. “An image is worth 16x16 words: Transformers for image recognition at scale.” arXiv preprint arXiv:2010.11929 (2020).↩︎↩︎

Arnab, Anurag, et al. “Vivit: A video vision transformer.” Proceedings of the IEEE/CVF international conference on computer vision. 2021.↩︎↩︎

He, Kaiming, et al. “Masked autoencoders are scalable vision learners.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.↩︎↩︎

Dehghani, Mostafa, et al. “Patch n’Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution.” arXiv preprint arXiv:2307.06304 (2023).↩︎↩︎

Rombach, Robin, et al. “High-resolution image synthesis with latent diffusion models.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.↩︎

Kingma, Diederik P., and Max Welling. “Auto-encoding variational bayes.” arXiv preprint arXiv:1312.6114 (2013).↩︎

Sohl-Dickstein, Jascha, et al. “Deep unsupervised learning using nonequilibrium thermodynamics.” International conference on machine learning. PMLR, 2015.↩︎

Ho, Jonathan, Ajay Jain, and Pieter Abbeel. “Denoising diffusion probabilistic models.” Advances in neural information processing systems 33 (2020): 6840-6851.↩︎

Nichol, Alexander Quinn, and Prafulla Dhariwal. “Improved denoising diffusion probabilistic models.” International Conference on Machine Learning. PMLR, 2021.↩︎

Dhariwal, Prafulla, and Alexander Quinn Nichol. “Diffusion Models Beat GANs on Image Synthesis.” Advances in Neural Information Processing Systems. 2021.↩︎

Karras, Tero, et al. “Elucidating the design space of diffusion-based generative models.” Advances in Neural Information Processing Systems 35 (2022): 26565-26577.↩︎

Peebles, William, and Saining Xie. “Scalable diffusion models with transformers.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.↩︎

Chen, Mark, et al. “Generative pretraining from pixels.” International conference on machine learning. PMLR, 2020.↩︎

Ramesh, Aditya, et al. “Zero-shot text-to-image generation.” International Conference on Machine Learning. PMLR, 2021.↩︎

Yu, Jiahui, et al. “Scaling autoregressive models for content-rich text-to-image generation.” arXiv preprint arXiv:2206.10789 2.3 (2022): 5.↩︎

Betker, James, et al. “Improving image generation with better captions.” Computer Science. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8↩︎↩︎

Ramesh, Aditya, et al. “Hierarchical text-conditional image generation with clip latents.” arXiv preprint arXiv:2204.06125 1.2 (2022): 3.↩︎

Meng, Chenlin, et al. “Sdedit: Guided image synthesis and editing with stochastic differential equations.” arXiv preprint arXiv:2108.01073 (2021).↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/687209.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

树状菜单(利用映射-bootstrap+jQuery实现折叠功能)

效果&#xff08;默认全部展开&#xff09;&#xff1a; <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, initial-scale1.0" /><…

CSS的background 背景图片自动适应元素大小,实现img的默认效果 background-size:100% 100%;

CSS的background 背景图片自动适应元素大小,实现img的默认效果 background-size:100% 100%; 关键是background-size:100% 100%; background-size:100% 100%; background-size:100% 100%; background-size:contain; 保持纵横比, 容器部分可能空白background-size:cover; 保…

解锁Spring Boot中的设计模式—02.解释器模式:探索【解释器模式】的奥秘与应用实践!

解释器模式 1.简介 解释器模式&#xff08;Interpreter Pattern&#xff09;是一种行为设计模式&#xff0c;它用于定义语言的文法&#xff0c;并且解释语言中的表达式。在Java中&#xff0c;解释器模式可以用于构建解释器以解析特定的语言或表达式&#xff0c;如数学表达式、…

C++面试宝典第28题:寻找丢失的数字

题目 给定一个包含n个整数的数组nums,其中nums[i]在区间[1, n]内。请找出所有在[1, n]范围内,但没有出现在nums中的数字,并以数组的形式返回结果。 示例1: 输入:nums = [4, 3, 2, 7, 8, 2, 3, 1] 输出:[5, 6] 示例2: 输入:nums = [1, 1] 输出:[2] 解析 初看这道题,…

【lesson57】信号量和生产者消费者模型(环形队列版)

文章目录 信号量概念信号量接口初始化销毁等待发布 基于环形队列的生产者消费者模型编码Common.hLockGuard.hppTask.hppsem.hppRingQueue.hppConProd.cc 信号量概念 POSIX信号量和SystemV信号量作用相同&#xff0c;都是用于同步操作&#xff0c;达到无冲突的访问共享资源目的…

【测试】JUnit

目 录 一.注解二.断言三.用例的执行顺序四.参数化五.测试套件 自动化就是 selenium 脚本来实现的 junit 是 java 的单亓测试工具&#xff0c;只不过我们在实现自动化的时候需要借用一下下 junit 库里面提供的一些方法 引入依赖 Junit 5 <!-- https://mvnrepository.com/a…

自然语言编程系列(二):自然语言处理(NLP)、编程语言处理(PPL)和GitHub Copilot X

编程语言处理的核心是计算机如何理解和执行预定义的人工语言&#xff08;编程语言&#xff09;&#xff0c;而自然语言处理则是研究如何使计算机理解并生成非正式、多样化的自然语言。GPT-4.0作为自然语言处理技术的最新迭代&#xff0c;其编程语言处理能力相较于前代模型有了显…

电子元器件基础5---二极管

除了电阻、电容和电感等线性元器件之外,还有二极管、三极管这些常用的非线性器件广泛应用于日常生活中。那么今天我们来介绍以下二极管这一常用的电子元器件。 一、二极管概念 二极管是用半导体材料(硅、硒、锗等)制成的一种电子器件 。二极管有两个电极,正极,又叫阳极;负…

django报错:Cannot use ImageField because Pillow is not installed

1、问题概述 ERRORS: accounts.User.avatar: (fields.E210) Cannot use ImageField because Pillow is not installed. HINT: Get Pillow at https://pypi.org/project/Pillow/ or run command "python -m pip install Pillow". System check identified 1 …

JDK1.8安装教程

目录 下载安装环境配置打开系统高级设置环境配置 验证安装是否成功 下载 https://www.oracle.com/java/technologies/downloads/#java8-windows 安装 打开安装包&#xff0c;点击下一步。 选择好自己熟悉的目的安装目录&#xff0c;点击下一步。 等待安装 选择好jre的安装目…

ubuntu22.04@laptop OpenCV Get Started: 013_contour_detection

ubuntu22.04laptop OpenCV Get Started: 013_contour_detection 1. 源由2. 应用Demo2.1 C应用Demo2.2 Python应用Demo 3. contour_approx应用3.1 读取图像并将其转换为灰度格式3.2 应用二进制阈值过滤算法3.3 查找对象轮廓3.4 绘制对象轮廓3.5 效果3.6 CHAIN_APPROX_SIMPLE v.s…

java中的枚举

枚举 枚举类型的概述 关键字&#xff1a;enum 你可以把枚举类型理解成是一个自定义的常量的序列 枚举的语法结构 定义的枚举类型文件 package com.it.xiaosi.demo01;/*** Classname : direction* Description : TODO 枚举* Author : lin_refuelqq.com*/ public enum direct…

springboot第56集:微服务框架,物联网IOT,SQL数据库MySQL底层,AOP收集业务操作日志架构周刊...

单点登录 1.配置代理信息 /*请求登陆的方法*/ "/modelLogin": {//本地服务接口地址&#xff0c;这是测试环境&#xff0c;正式环境需要更改下地址target: "http://127.0.0.1:6776/xxx-auth/",changeOrigin: true,pathRewrite: {"^/modelLogin": …

在ubuntu中制作ubuntu的U盘启动盘

概要&#xff1a; 本篇演示在ubuntu22.04中制作ubuntu22.04的U盘启动盘 一、下载ubuntu22.04的iso文件 访问ubuntu官网https://ubuntu.com自行下载ubuntu官网 二、制作U盘启动盘 打开系统自带软件Startup Disk Creator 软件会自动检测iso文件和U盘 点击Make Startup Disk…

【Java EE初阶十二】网络原理(二)

2. 传输层 2.2 TCP协议 2.2.2 关于可靠传输 4.滑动窗口 前面的三个机制&#xff0c;都是在保证 tcp 的可靠性&#xff1b; TCP 的可靠传输,是会影响传输的效率的.(多出了一些等待 ack 的时间,单位时间内能传输的数据就少了)&#xff1b; 滑动窗口,就让可靠传输对性能的影响,更…

MySQL数据库⑪_C/C++连接MySQL_发送请求

目录 1. 下载库文件 2. 使用库 3. 链接MySQL函数 4. C/C链接示例 5. 发送SQL请求 6. 获取查询结果 本篇完。 1. 下载库文件 要使用C/C连接MySQL&#xff0c;需要使用MySQL官网提供的库。 进入MySQL官网选择适合自己平台的mysql connect库&#xff0c;然后点击下载就行…

Day-02-02

Httpclient测试 安装HTTP Client插件 使用IDEA自带的http接口测试工具——HTTP Client Open in HTTP Client 生成测试用例 点击绿色箭头可以运行测试用例&#xff0c;控制台会输出结果。 保存和修改测试用例 在模块下新建一个api-test包用来存放测试用例&#xff0c;将生…

Packet content transfer stopped (received 8 bytes)

esp32烧录程序时报错&#xff1a;A fatal error occurred: Packet content transfer stopped (received 8 bytes) 解决方法&#xff1a; 降低上传速度&#xff0c;使用115200&#xff1b;更换flash模式&#xff0c;使用DIO方式重试如果还不行&#xff0c;检查flash连接情况&am…

failing dimm dimm location (uncorrectable memory component found)

开机界面出现这个 failing dimm dimm location (uncorrectable memory component found)“DIMM DIMM location. Uncorrectable memory component found” 是一条硬件故障信息&#xff0c;表明在服务器的某个特定双列直插式内存模块&#xff08;Dual In-line Memory Module, DI…

【漏洞复现】蓝网科技临床浏览系统信息泄露漏洞

Nx01 产品简介 蓝网科技临床浏览系统是一个专门用于医疗行业的软件系统&#xff0c;主要用于医生、护士和其他医疗专业人员在临床工作中进行信息浏览、查询和管理。 Nx02 漏洞描述 蓝网科技临床浏览系统存在信息泄露漏洞&#xff0c;攻击者可以利用该漏洞获取敏感信息。 Nx03…