OpenAI 生成视频模型 Sora 论文翻译

系列文章目录


前言


视频生成模型作为世界模拟器

本技术报告的重点是 (1) 将所有类型的视觉数据转换为统一表示,以便对生成模型进行大规模训练的方法,以及 (2) 对索拉的能力和局限性的定性评估。 该报告不包括模型和实现细节。

许多先前的工作使用各种方法研究了视频数据的生成建模,包括循环网络,[1][2][3] 生成对抗网络,[4][5][6][7] 自回归变压器,[8][9] 和扩散模型。[10][11][12] 这些工作通常侧重于视觉数据的一个狭窄类别、较短的视频或固定尺寸的视频。Sora 是一种通用的视觉数据模型——它可以生成时长、纵横比和分辨率各异的视频和图像,最长达一分钟的高清视频。

将视觉数据转化为补丁

我们从通过在互联网规模的数据上训练获得泛用能力的大语言模型中汲取灵感。[ ^ 13][ ^ 14] 大型语言模型范式成功的一部分原因是,它使用了巧妙地统一了文本、代码、数学和各种自然语言等不同模态的标记。在这项工作中,我们将探讨视觉数据生成模型如何能够继承这些好处。虽然大型语言模型有文本标记,但索拉有视觉补丁。以前已经证明,补丁对于视觉数据模型是一种有效的表示方法。[ ^ 15][ ^ 16][ ^ 17][ ^ 18] 我们发现,补丁是训练用于不同类型视频和图像的生成模型的高度可扩展且有效的方法。

在高层次上,我们首先通过压缩视频到低维潜空间中[^19],然后分解表示为时空块来将视频转换为块。

视频压缩网络

我们训练了一个网络来降低视觉数据的维度。 [20X20] 这个网络接受原始视频作为输入,并输出一个压缩了时间和空间的潜在表示。 Soray 被训练在压缩潜在空间中生成视频。 我们还训练了一个相应的解码器模型,该模型将生成的潜在值映射回像素空间。

时空潜伏图块

给定一个压缩输入视频,我们提取一系列时空图块作为变压器标记。由于图像只是单帧视频,所以此方案也适用于图像。我们的基于图块的表示使索拉能够针对具有不同分辨率、持续时间和宽高比的视频和图像进行训练。在推理时,我们可以根据大小适当的网格来排列随机初始化的图块以控制生成视频的尺寸。

视频生成中的可扩展转换器

Sora 是一个扩散模型;给定输入噪声块(以及诸如文本提示之类的条件信息),它被训练为预测原始“干净”的块。重要的是,Sora 是一个扩散变压器。变压器在各种领域展示了显著的扩展性,包括语言建模、计算机视觉和图像生成。

在这项工作中,我们发现扩散转换器在 视频模型中也有效地进行缩放。 下面,我们将固定种子和输入的视频样本与训练进度进行比较。 随着计算量的增加,样本质量明显提高。

可变时长、分辨率、宽高比

过去的方法通常是将图像和视频调整大小、裁剪或修剪为标准尺寸——例如,分辨率设置为 256x256 的 4 秒长的视频。我们发现训练原始尺寸的数据有几个好处。

抽样灵活性

Sora 可以对宽屏 1920x1080p 视频、纵向 1080x1920 视频以及介于两者之间的任何视频进行取样。 这使得 Sora 能够在不同设备上直接生成原生宽高比的内容。 它还让我们能够在全分辨率渲染之前,使用相同的模型快速原型化低分辨率的内容。

改进了框架和构图

我们发现,在原始宽高比下训练视频可以提高构图和框架。 我们将索拉模型与一个版本进行比较,该版本会将所有用于训练的视频裁剪为正方形,这是在训练生成模型时常见的做法。 在正方形裁剪(左)上训练的模型有时会生成只有部分主体可见的视频。相比之下,来自索拉的视频(右)具有更好的框架。

语言理解

训练文本到视频生成系统需要大量带有相应文本字幕的视频。我们在视频上应用了 DALL-E 3 中介绍的重新打标签技术。我们首先训练了一个高度描述性的标题模型,然后使用它为训练集中的所有视频生成文本标题。我们发现,在高度描述性的视频标题上进行训练可以提高文本保真度以及视频的整体质量。

与 DALL-E 3 类似,我们还使用 GPT 将短用户提示转换为更长、更详细的字幕,然后发送给视频模型。 这使得索拉能够生成高质量的视频,准确地遵循用户的提示。

在愉快地散步中度过时光

用图片和视频提示

上面所有结果和我们的登录页面都展示了 文本到视频 的示例。 但是,Sora 还可以接受其他输入,比如现有图像或视频。 这种能力使 Sora 能够执行各种图像和视频编辑任务——制作循环视频、让静态图片动起来、延长视频时间等。

动画DALL-E图像

Sora 可以通过输入图像和提示来生成视频。下面我们将展示基于 DALL-E 2 [^31] 和 DALL-E 3 [^30] 图像生成的示例视频。

一只戴着贝雷帽和黑色高领毛衣的柴犬。

怪物插图。 以扁平设计风格描绘了多种多样的怪物家庭。 这个群体包括一只毛茸茸的棕色怪兽、一只光滑的黑色怪兽,带有天线、一只长满斑点的绿色怪兽和一只微小的斑点怪兽,它们都生活在充满趣味性的环境中。

一张写有“SORA”的现实风格云彩的照片。

在一个华丽的历史大厅里,一股巨大的海浪峰峦叠嶂地冲向岸边。两位冲浪者抓住时机,在巨浪上熟练地驾驭着。

生成视频的延长

Sora 还可以向前或向后扩展视频。以下是四个从生成的视频片段开始,时间都向后推移的视频。因此,这四段视频中的每一部都有不同的开头,但最终都会走向相同的结局。

我们可以用这种方法在前、后两个方向上扩展视频,以产生一个无缝的无限循环。

视频到视频编辑

扩散模型使我们能够使用文本提示编辑图像和视频的方法变得丰富。在下面,我们将其中一种方法应用于 Soras ,即 SDEdit [ ^ 32 ] 。 这种技术使 Soras 能够零样本转换输入视频的风格和环境。

连接视频

我们还可以使用索拉 在两个输入视频之间进行渐进插值,创建完全不同的主题和场景构成之间的视频无缝过渡。在下面的例子中,居中的视频 插值于左侧和右侧的对应视频。

图像生成能力

Sora 还可以生成图像。我们通过在时域上具有一个帧长的空间网格中排列高斯噪声来实现这一点。该模型可以生成不同分辨率大小的图像——高达 2048x2048 分辨率。

特写镜头中一位女性在秋天,极端细节,浅景深

充满生机的珊瑚礁,五彩斑斓的鱼儿和海洋生物

以苹果树下的年轻老虎为主题的数字艺术,采用油画风格呈现,并包含华丽的细节。

一个有舒适小屋和北极光展示的雪景村庄,高清细节,逼真的DSLR相机,50毫米f / 1.2。

新兴模拟能力

我们发现,当 视频模型 在大范围内进行训练时,它们会表现出许多有趣的涌现性能力。 这些能力使索拉能够模拟物理世界中的人、动物和环境的一些方面。这些属性没有明确的 三维、物体 等归纳偏见——它们纯粹是规模现象。

三维一致。索拉可以生成具有动态相机运动的视频。随着相机的移动和旋转,人物和场景元素在三维空间中保持一致地移动。

长程连贯性和物体永存性。 生成视频系统面临的一个重大挑战是在采样长视频时保持时间一致性。 我们发现,Sora 往往能够有效地捕获短期和长期依赖关系——尽管并非总是如此。 例如,即使人物、动物或物体被遮挡或离开画面,我们的模型也能持久地跟踪它们。 同样,它可以在单个样本中为同一角色生成多个镜头,并在视频中保持其外观。

与世界互动。索拉有时可以简单地模拟影响世界状态的动作。例如,画家可以在画布上留下新的笔触,这些笔触会随着时间的推移而保留下来,或者一个人可以吃汉堡并留下咬痕。

模拟数字世界。索拉还可以模拟人工过程——例如,电子游戏。索拉可以同时根据基本策略控制我的世界中的玩家,同时以高保真度渲染世界及其动态。这些能力可以通过提示索拉“我的世界”标题来零样本诱导。

这些能力表明,视频模型的持续扩展是开发高度模拟物理世界、数字世界及其内部生物体、动物和人类等对象的有希望的方法。

讨论

Sora 目前作为模拟器存在许多局限性。例如,它无法准确模拟许多基本交互的物理,比如玻璃破碎。其他交互,如吃食物,并不总是导致正确的对象状态更改。我们在主页上列举了模型的其他常见故障模式——例如长时间样本中出现的不连贯或物体自发出现——在我们的着陆页中。

我们相信索拉今天所展示的能力,证明了对视频模型的持续扩展是走向能够模拟物理世界和数字世界的潜在途径。以及生活在其中的物体、动物和人类。

参考文献

  1. Srivastava, Nitish, Elman Mansimov, and Ruslan Salakhudinov. "Unsupervised learning of video representations using lstms." International conference on machine learning. PMLR, 2015.↩︎

  2. Chiappa, Silvia, et al. "Recurrent environment simulators." arXiv preprint arXiv:1704.02254 (2017).↩︎

  3. Ha, David, and Jürgen Schmidhuber. "World models." arXiv preprint arXiv:1803.10122 (2018).↩︎

  4. Vondrick, Carl, Hamed Pirsiavash, and Antonio Torralba. "Generating videos with scene dynamics." Advances in neural information processing systems 29 (2016).↩︎

  5. Tulyakov, Sergey, et al. "Mocogan: Decomposing motion and content for video generation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.↩︎

  6. Clark, Aidan, Jeff Donahue, and Karen Simonyan. "Adversarial video generation on complex datasets." arXiv preprint arXiv:1907.06571 (2019).↩︎

  7. Brooks, Tim, et al. "Generating long videos of dynamic scenes." Advances in Neural Information Processing Systems 35 (2022): 31769-31781.↩︎

  8. Yan, Wilson, et al. "Videogpt: Video generation using vq-vae and transformers." arXiv preprint arXiv:2104.10157 (2021).↩︎

  9. Wu, Chenfei, et al. "Nüwa: Visual synthesis pre-training for neural visual world creation." European conference on computer vision. Cham: Springer Nature Switzerland, 2022.↩︎

  10. Ho, Jonathan, et al. "Imagen video: High definition video generation with diffusion models." arXiv preprint arXiv:2210.02303 (2022).↩︎

  11. Blattmann, Andreas, et al. "Align your latents: High-resolution video synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.↩︎

  12. Gupta, Agrim, et al. "Photorealistic video generation with diffusion models." arXiv preprint arXiv:2312.06662 (2023).↩︎

  13. Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).↩︎↩︎

  14. Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.↩︎↩︎

  15. Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020).↩︎↩︎

  16. Arnab, Anurag, et al. "Vivit: A video vision transformer." Proceedings of the IEEE/CVF international conference on computer vision. 2021.↩︎↩︎

  17. He, Kaiming, et al. "Masked autoencoders are scalable vision learners." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.↩︎↩︎

  18. Dehghani, Mostafa, et al. "Patch n'Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution." arXiv preprint arXiv:2307.06304 (2023).↩︎↩︎

  19. Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.↩︎

  20. Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013).↩︎

  21. Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics." International conference on machine learning. PMLR, 2015.↩︎

  22. Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." Advances in neural information processing systems 33 (2020): 6840-6851.↩︎

  23. Nichol, Alexander Quinn, and Prafulla Dhariwal. "Improved denoising diffusion probabilistic models." International Conference on Machine Learning. PMLR, 2021.↩︎

  24. Dhariwal, Prafulla, and Alexander Quinn Nichol. "Diffusion Models Beat GANs on Image Synthesis." Advances in Neural Information Processing Systems. 2021.↩︎

  25. Karras, Tero, et al. "Elucidating the design space of diffusion-based generative models." Advances in Neural Information Processing Systems 35 (2022): 26565-26577.↩︎

  26. Peebles, William, and Saining Xie. "Scalable diffusion models with transformers." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.↩︎

  27. Chen, Mark, et al. "Generative pretraining from pixels." International conference on machine learning. PMLR, 2020.↩︎

  28. Ramesh, Aditya, et al. "Zero-shot text-to-image generation." International Conference on Machine Learning. PMLR, 2021.↩︎

  29. Yu, Jiahui, et al. "Scaling autoregressive models for content-rich text-to-image generation." arXiv preprint arXiv:2206.10789 2.3 (2022): 5.↩︎

  30. Betker, James, et al. "Improving image generation with better captions." Computer Science. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8↩︎↩︎

  31. Ramesh, Aditya, et al. "Hierarchical text-conditional image generation with clip latents." arXiv preprint arXiv:2204.06125 1.2 (2022): 3.↩︎

  32. Meng, Chenlin, et al. "Sdedit: Guided image synthesis and editing with stochastic differential equations." arXiv preprint arXiv:2108.01073 (2021).↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/686346.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

斯坦福大学全能家政服务机器人Mobile ALOHA以及“小群体大智慧”Zooids集群机器人

斯坦福大学成功研发出低成本自主进化克隆人类行为和任务的能力全能型家政服务机器人。 原文标题: 【Mobile ALOHA-Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation】 论文链接:【Mobile ALOHA (mobile-aloha.github.io)】。 以及由斯坦福大学…

【Linux】进程信号的保存 | 自定义捕捉

文章目录 三、信号的阻塞(信号的保存)1. 信号相关其他常见概念2. 在内核中的表示3. sigset_t类型4. 信号集操作函数函数列表注意事项 5. 读取/修改block位图 - sigprocmask6. 读取pending位图 - sigpending 四、信号捕捉1. 信号捕捉的初步认识自定义捕捉…

A股上市公司绿色化转型指数(2007-2022)

数据来源:上市公司年报、上市公司网站信息、上市公司社会责任报告 时间跨度:2007-2022年 数据范围:中国A股上市公司 数据指标 参考Loughran & Mcdonald(2011)的研究,利用年报中披露的文本信息测量企业…

Java之通过Jsch库连接Linux实现文件传输

Java之通过JSch库连接Linux实现文件传输 文章目录 Java之通过JSch库连接Linux实现文件传输1. JSch2. Java通过Jsch连接Linux1. poxm.xml2. 工具类3. 调用案例 1. JSch 官网:JSch - Java Secure Channel (jcraft.com) JSch是SSH2的纯Java实现。 JSch 允许您连接到 ss…

sqlserver exists存在

在 SQL Server 中,EXISTS 是一个用于检查子查询是否返回结果的关键字。它用于在条件中检查子查询的结果,如果子查询返回结果集,EXISTS 将返回 TRUE,否则返回 FALSE。这在编写复杂的查询时非常有用,可以帮助我们根据条件…

心律守护 基于机器学习的心脏病预测

心律守护 基于机器学习的心脏病预测 心律守护 基于机器学习的心脏病预测项目背景与意义项目数据与特征数据分析与预处理机器学习模型建立与评估结语 心律守护 基于机器学习的心脏病预测 在当今数字化时代,机器学习的应用已经渗透到了医疗保健领域的各个层面。其中&…

什么是PAGA系统

PAGA系统是一种公共广播和通用报警系统,它在船舶、海上钻井平台、石油化工、天然气开采等行业的应用非常广泛。当遇到紧急情况或其他特殊情况时,PAGA系统能够在大范围内进行喊话广播或报警。这种系统通过自动电话系统(如PABX,即自…

【Python--网络编程之Ping命令的实现】

🚀 作者 :“码上有前” 🚀 文章简介 :Python开发技术 🚀 欢迎小伙伴们 点赞👍、收藏⭐、留言💬 Python网络编程之Ping命令的实现 往期内容代码见资源,效果图如下一、实验要求二、协…

巴伦周刊:全球最赚钱对冲基金的成功秘诀是什么?

对冲基金界的明星们过去常常大起大落,有时甚至会实现大满贯式的全面成功,比如约翰•保尔森(John Paulson)在2007-09年金融危机前做空美国房地产市场赚了200亿美元。 但摇摆不定的对冲基金近年来并不是大赢家,相反最好的回报来自于多策略、多…

配置Vite+React+TS项目

初始化 执行npm create vite并填写项目名、用那个框架。。 配置 路径别名 在vite.config.ts里面配置: import { defineConfig } from vite import react from vitejs/plugin-react import path from pathexport default defineConfig({plugins: [react()],reso…

深度学习系列53:大模型微调概述

参考系列文章:https://zhuanlan.zhihu.com/p/635152813 github链接:https://github.com/liguodongiot/llm-action 1 训练范式 下面这种instructive learning,在模型参数达到80亿后,会发生质的提升: 类似的还有手写pr…

C#面:简述 CTS , CLS , CLR , IL

CTS通用类型系统(Commom Type System): 它定义了在.NET平台上所有类型的规范和行为。CTS确保了不同语言编写的代码可以相互交互操作,并且可以在运行时进行类型安全的检查。 CTS主要包括以下几个方面: 数据类型:CTS定义了一组基本数据类型,如整数、浮点数、布尔值等,以…

mysql查询分析explain

EXPLAIN:使用EXPLAIN| DESCRIBE查看语句具体执行计划,并不真正执行语句(在估计大致数据量时可以使用explain) type:针对单表的访问方法 system:当表中只有一条记录,并且该表使用的存储引擎统计…

鸿蒙开发系列教程(二十三)--List 列表操作(2)

列表样式 1、设置内容间距 在列表项之间添加间距,可以使用space参数,主轴方向 List({ space: 10 }) { … } 2、添加分隔线 分隔线用来将界面元素隔开,使单个元素更加容易识别。 startMargin和endMargin属性分别用于设置分隔线距离列表侧…

2024HVV | 12款开源渗透测试工具(非常详细)零基础入门到精通,收藏这一篇就够了

回顾过去,黑客入侵异常困难,需要大量手动操作。然而,如今,一套自动化测试工具让渗透测试人员变身“半机械人”,能够比以往任何时候都更轻松地完成更多测试。以下12款开源渗透测试工具,可以帮助渗透测试人员…

微信小程序: 获取accessToken,手机号, 小程序二维码,openId与unionId 公共配置类(核心篇)

全文目录,一步到位 1.前言简介1.1 专栏传送门 2. 微信小程序公用功能2.1 配置准备工作2.1.1 配置文件准备(单体放yml中 微服务放配置中心)2.1.2 获取配置文件中的小程序配置2.1.3 设置redis配置 2.2 创建不同功能工具类2.2.1 创建微信服务工具类WechatServiceUtils2.2.2 创建Re…

Java 基于 SpringBoot+Vue 的酒店管理系统,附源码

博主介绍:✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇…

每日五道java面试题之java基础篇(十)

目录: 第一题 JVM有哪些垃圾回收器?第二题 垃圾回收分为哪些阶段?第三题 线程的⽣命周期?线程有⼏种状态?第四题.ThreadLocal的底层原理第五题.并发、并⾏、串⾏之间的区别 第一题 JVM有哪些垃圾回收器? ● 新⽣代收集…

RTDETR改进系列指南

基于Ultralytics的RT-DETR改进项目.(89.9) 为了感谢各位对RTDETR项目的支持,本项目的赠品是yolov5-PAGCP通道剪枝算法.具体使用教程 自带的一些文件说明 train.py 训练模型的脚本main_profile.py 输出模型和模型每一层的参数,计算量的脚本(rtdetr-l和rtdetr-x因为thop库的问…

YOLOv8制作自定义数据集并训练

YOLOv8制作自定义数据集并训练 前言一、制作自定义数据集1、建立相应文件夹2、下载图片3、为图片打标签(1)安装labelimg(2)打开labelimg(3)标记图片 二、按比例移动自定义数据集中的内容三、建立数据集测试…