sora会是AGI的拐点么?

图片

©作者|谢国斌

来源|神州问学

OpenAI近期发布的Sora是一个文本到视频的生成模型。这项技术可以根据用户输入的描述性提示生成视频,延伸现有视频的时间,以及从静态图像生成视频。Sora可以创建长达一分钟的高质量视频,展示出对用户提示的精准理解和视觉质量的高度保持。这标志着在生成模型领域向视频生成的重要步骤,扩展了先前主要集中在文本和图像上的AI应用范围。

本文将深入探讨OpenAI新推出的Sora模型的涉及到的主要算法技术。分为两个部分:首先,我们将介绍Sora的模型架构;随后,详细解读所涉及的核心算法(扩散模型、视觉Transformer、其他的创新)。

一、Sora模型架构

Sora报告原文并未详解模型所涉及的架构。但根据OpenAI32篇参考论文和技术路线图,我们可以猜想或模拟出Sora的模型架构。

图片

图1 Sora的模型架构

Sora模型架构应该是在DiT(Diffusion Transformer)基础上演进而来,分成三个部分:

●左边红色部分是视频数据像素空间,上面是encoder,模型使用VAE将视频encoder到隐空间降维表示,并对表示分解为spacetime latent patches时空块方法编码,生成结果同样也是通过VAE解码成原始大小的图片。SORA从头训练了一套能直接压缩视频的自编码器模型。与之前的其他工作相比,通过巧妙的引入结合时空块的方法,SORA 的自编码器不仅能在空间上压缩图像,还能在时间上压缩视频长度,同时对于视频的长宽比、分辨率、时长还保持了一定的灵活性。

● 中间绿色部分是低维潜空间,是经典latent diffusion model架构的核心,其中的U-Net网络替换成transformer。视频在前面经过自编码器和隐式时空块之后,进行加噪过程,以及去噪过程。

● 右边灰色部分是条件输入,也就是文生视频里面的文本输入,即prompt。让模型支持带约束图像生成,其实就是想办法把额外的约束信息输入进扩散模型中。除了直接拼接,在LDM中还使用了另一种融合约束信息的方法。具体实现是把DDPM的自注意力层换成交叉注意力层,把k、v换成来自约束的信息,以实现带约束图像生成。如本文后面图3所示,通过把用编码器 编码过的约束信息输入进扩散模型交叉注意力层的k、v,以实现了带约束图像生成。条件约束输入首先是用户的文本作为prompt喂给GPT4,GPT4进行详尽的文字说明和扩充,然后使用DALL.E3及CLIP技术,对给定视频生成对应的标题。

二、Sora核心技术

Sora主要依靠三条技术路径的结合使用:1.扩散模型diffusion model;2.transformer应用于视觉大模型;3.在数据和算法方向上对已有论文成果的大胆创新应用。

1.扩散模型:文生图领域的王者方法

扩散模型(Diffusion Models,DM)是深度学习中用于生成模型的一种方法,近年来在图像、音频、文本等多个领域取得了显著的进展。该方法始于2015年(论文21),最初用于学习复杂概率分布的抽样,这些模型利用了非平衡热力学中的技术,尤其是扩散过程。2020年,伯克利学者提出了去噪扩散概率模型(DDPM,论文22),后续通过对该方法的持续迭代改进(论文23/24/25),逐步取代了GAN,已成为生成领域的主流方法。2021年末,Robin Rombach等提出了一种基于潜在扩散模型(LDM,论文19)方法,用于高分辨率图像合成。这种方法通过在压缩的空间上对图像进行重建,生成比之前的方法更加可靠与详细的结果。基于该方法或略微修改优化的版本Stable Diffusion Model,近年来被用于创造出Stable Diffusion、Runway和Midjourney等流行AI类产品。

1.1.扩散模型(DM,DDPM是DM的一个主要发展分支)

去噪扩散概率模型(DDPM)是一种基于扩散过程的生成模型,该模型在自然语言处理、图像生成、音频合成等领域展示了其优越的生成能力。它主要分为扩散过程和生成过程:

(1).扩散过程:去噪扩散概率模型通过模拟一个渐进的噪声添加过程(正向过程)和一个噪声移除过程(逆向过程)来生成数据。正向过程从数据分布中逐步引入噪声,直至达到一个与预设噪声分布接近的状态;逆向过程则尝试逆转这一过程,从噪声状态恢复出原始数据。

(2).生成模型:通过学习逆向过程,模型能够从高斯噪声中生成与真实数据分布相似的样本。

图片

图2 去噪扩散概率模型(DDPM)

1.2.潜扩散模型(LDM,SD产品应用的奠基之作)

潜在扩散模型(LDM)是一种结合了扩散模型和变分自编码器VAE的生成模型。它们在处理高维数据(如图像和视频)生成任务中特别有效,主要是通过在一个较低维度的潜在空间中进行扩散过程来实现的。

图片

图3 LDM模型

图片

图4 U-Net网络结构

2.DiT:将transformer融入扩散模型

在2017年,Vaswani等人引入了Transformers模型(论文13),这是一个革命性的架构,基于注意力机制专为序列到序列的任务设计。它的核心特点是自注意力机制,这使得模型在处理序列中的每个元素时,能够考虑到序列中所有其他元素,捕捉它们之间的依赖性。这种方法极大地提高了自然语言处理和其他序列任务的处理效率和效果,为AI模型的发展开辟了新的道路。

随后,ViT模型(论文15)将Transformers技术扩展到了图像领域,成为这一领域的一种主流方法。基于ViT架构,DiT模型(论文26)进一步融合了Transformers到潜在扩散模型(LDM),在图像生成方面取得了显著进步。DiT模型是William Peebles在Meta实习时,和Saining Xie合作产出的作品。William Peebles现在是SORA项目的主创之一,所以DiT目前在SORA模型架构中应该是起着非常重要的作用。

2021年,谷歌提出了ViViT(论文16)方法,这是一种专门用于视频分析任务的创新方法,它结合了纯Transformers架构和时空潜在块的概念。Sora项目借鉴了ViViT的思路,首次将时空块引入到DiT模型的输入中,实现了扩散模型、Transformers和时空潜在块三者的完美融合。这一算法创新实践是在视频生成领域的一大进步。

2.1.ViT:transformer用于图像识别的主流方法

ViT 将transformer结构应用于图像,图片被划分为多个 patch 后,将二维 patch 转换为一维向量作为transformer encoder的输入。

图片

图5 ViT模型架构

2.2.DiT:diffusion+transformer

在潜在扩散模型(图3)中,DiT用transformer替换U-Net主干(如图6所示),可达到很好的图像生成效果。

图片

图6 DiT模型架构

图片

图7 用DiT模型架构替换LDM模型中的U-Net部分

2.3.隐式时空块(Spacetime Latent Patches)

时空块方法是谷歌在ViViT论文(论文16)中首次提出。Sora在训练和生成时参考借鉴了此方法,对使用的视频可以是任何分辨率、任何长宽比、任何时长的,而不需要对视频做缩放、裁剪等预处理,这种方法的灵活性是一个较大的创新。transformer 的计算与输入顺序无关,但要用位置编码来指明每个数据的位置。Sora在DiT架构中可能使用了类似于(x,y,t) 这种组合的位置编码来表示一个时空块的位置,以实现不管输入的视频大小如何、长度如何,只要给每个图块都分配一个位置编码,就能分清图块间的相对先后关系。

图片

图8 ViViT模型架构

图片

图9 ViviT中对视频数据的Tubelet embedding编码方法

3.数据和算法:多种技巧的创新应用

3.1.NaViT:抽样多样化和性能提升

谷歌在去年发表了Patch n’ Pack(论文19),其中的 NaViT可以在训练过程中使用序列打包(Patch n’ Pack)的方法,可以处理任意分辨率和宽高比的输入。相比ViT,NaViT计算性能大幅提升。同时,NaViT可在训练和微调过程中处理各种分辨率的图像或视频,表现出优秀的性能,并显著降低推理成本。

前述隐式时空块和NaViT两种技术的结合使用,Sora达到的效果:视频无需任何裁剪和预处理,先用时空块打patch,对不同分辨率、持续时间和长宽比的视频进行训练,既最好的利用高质量视频的原始信息,又显著提升模型性能,节约了训练与推理成本。

图片

图10 NaViT数据处理和打包方法

3.2.DALL.E3:视频字幕生成re-caption

DALL·E3是一款最新的文本到图像生成模型,旨在根据用户提供的文本描述生成相应的图像。通过DALL.E3的re-caption方法,在高度描述性的字幕模型,使用这个模型可以显著提高给视频生成标题的能力。具体实现过程是使用GPT把用户的提示转换成详尽说明,再把这些说明送给上述字幕模型,可以生成高质量的视频。

图片

图11 使用DALL-E 3生成的肖像和正方形样本

3.3.SDEdit:对视频的编辑与合成

SDEdit提出了一种新的图像合成框架,该框架结合了随机微分方程和引导扩散技术,实现了高质量的图像生成和编辑。SDEdit通过在潜在空间中定义一个随机微分方程来模拟图像的生成过程,可以被用来生成新的图像或者对现有图像进行编辑。它使用了一种称为“引导扩散”的技术,通过在SDE的漂移项中引入文本描述或图像编辑指令,来控制生成图像的内容和风格。这种方法允许在保持图像质量的同时,实现对图像内容的精确控制。

图片

图12 SDEdit 从笔画合成图像

Sora是文本生成视频领域一个里程碑式的技术,它的很多潜在信息和用途还有待挖掘,有人评价它是图像视觉领域的“GPT3时刻”,也有人说它是“物理世界模拟器”。OpenAI的Sora项目的成功,首先需依托海量的视频数据和强大的算力(这一点在报告中未做太多的披露),同时Sora博取众家之长,率先将扩散模型、transformer、隐式时空块三者结合应用于视频生成领域,并在此基础上依托自身积累的GPT4、DALL.E等领先技术的加持,大胆创新,才有了呈现在世人面前的这份惊艳的报告。

期待在Sora之后,有更多的图像或视频领域革命性技术的涌现,推动多模态大模型向前发展,AGI加速、尽早到来。

附、Sora报告地址、论文列表和主要术语

原文地址

https://openai.com/research/video-generation-models-as-world-simulators

论文列表

视频数据的广义模型

1.Srivastava, Nitish, Elman Mansimov, and Ruslan Salakhudinov. "Unsupervised learning of video representations using lstms." International conference on machine learning. PMLR, 2015.

2.Chiappa, Silvia, et al. "Recurrent environment simulators." arXiv preprint arXiv:1704.02254 (2017).

3.Ha, David, and Jürgen Schmidhuber. "World models." arXiv preprint arXiv:1803.10122 (2018).

4.Vondrick, Carl, Hamed Pirsiavash, and Antonio Torralba. "Generating videos with scene dynamics." Advances in neural information processing systems 29 (2016).

5.Tulyakov, Sergey, et al. "Mocogan: Decomposing motion and content for video generation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.

6.Clark, Aidan, Jeff Donahue, and Karen Simonyan. "Adversarial video generation on complex datasets." arXiv preprint arXiv:1907.06571 (2019).

7.Brooks, Tim, et al. "Generating long videos of dynamic scenes." Advances in Neural Information Processing Systems 35 (2022): 31769-31781.

8.Yan, Wilson, et al. "Videogpt: Video generation using vq-vae and transformers." arXiv preprint arXiv:2104.10157 (2021).

9.Wu, Chenfei, et al. "Nüwa: Visual synthesis pre-training for neural visual world creation." European conference on computer vision. Cham: Springer Nature Switzerland, 2022.

10.Ho, Jonathan, et al. "Imagen video: High definition video generation with diffusion models." arXiv preprint arXiv:2210.02303 (2022).

11.Blattmann, Andreas, et al. "Align your latents: High-resolution video synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

12.Gupta, Agrim, et al. "Photorealistic video generation with diffusion models." arXiv preprint arXiv:2312.06662 (2023).

transformer视觉模型架构

13.transformers:Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).

14.GPT3:Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.

15.ViT:Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020).

16.ViViT:Arnab, Anurag, et al. "Vivit: A video vision transformer." Proceedings of the IEEE/CVF international conference on computer vision. 2021.

17.He, Kaiming, et al. "Masked autoencoders are scalable vision learners." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

18.NaViT:Dehghani, Mostafa, et al. "Patch n'Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution." arXiv preprint arXiv:2307.06304 (2023).

19.LDM:Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

20.Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013).

视频生成的扩展transformer

21.Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics." International conference on machine learning. PMLR, 2015.

22.DDPM:Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." Advances in neural information processing systems 33 (2020): 6840-6851.

23.Nichol, Alexander Quinn, and Prafulla Dhariwal. "Improved denoising diffusion probabilistic models." International Conference on Machine Learning. PMLR, 2021.

24.Dhariwal, Prafulla, and Alexander Quinn Nichol. "Diffusion Models Beat GANs on Image Synthesis." Advances in Neural Information Processing Systems. 2021.

25.Karras, Tero, et al. "Elucidating the design space of diffusion-based generative models." Advances in Neural Information Processing Systems 35 (2022): 26565-26577.

26.DiT:Peebles, William, and Saining Xie. "Scalable diffusion models with transformers." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.

27.Chen, Mark, et al. "Generative pretraining from pixels." International conference on machine learning. PMLR, 2020.

28.Ramesh, Aditya, et al. "Zero-shot text-to-image generation." International Conference on Machine Learning. PMLR, 2021.

29.Yu, Jiahui, et al. "Scaling autoregressive models for content-rich text-to-image generation." arXiv preprint arXiv:2206.10789 2.3 (2022): 5.

图像和视频的提示工程方法

30.Betker, James, et al. "Improving image generation with better captions." Computer Science. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8

31.Ramesh, Aditya, et al. "Hierarchical text-conditional image generation with clip latents." arXiv preprint arXiv:2204.06125 1.2 (2022): 3.

32.Meng, Chenlin, et al. "Sdedit: Guided image synthesis and editing with stochastic differential equations." arXiv preprint arXiv:2108.01073 (2021).

主要术语

transformer(s): 变压器架构

Diffusion Model(DM): 扩散模型

Denoising Diffusion Probabilistic Model (DDPM):去噪扩散概率模型

Latent Diffusion Model(LDM):潜在扩散模型

Stable Diffusion Model(SD):稳定扩散模型

Variational Autoencoder(VAE):变分自编码器

Vision Transformer (ViT)

Diffusion Transformer(DiT)

Video Vision Transformer(ViViT)

Spacetime Latent Patches:隐式时空块

Native Resolution ViT(NaViT):原生分辨率的视觉变压器

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/715353.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PoC免写攻略

在网络安全领域,PoC(Proof of Concept)起着重要的作用,并且在安全研究、漏洞发现和漏洞利用等方面具有重要的地位。攻击方视角下,常常需要围绕 PoC 做的大量的工作。常常需要从手动测试开始编写 PoC,再到实…

vue项目电商

这个项目功能有首页,分类,商品详情,购物车,用户注册、登录等等的实现,并且可以在手机上进行展示。 git仓库地址:https://gitee.com/BisShen/project.git

应用层http协议包解析与https加密策略解析

文章目录 一.应用层协议--http协议基础认知二.https协议加密策略解析加密策略1--通信双方只使用对称加密加密策略2--通信双方使用单方非对称加密加密策略3--通信双方都使用非对称加密加密策略4--非对称加密与对称加密配合使用中间人攻击数据签名与CA证书HTTPS数据安全认证的本质…

二维码门楼牌管理系统技术服务的分类与应用

文章目录 前言一、二维码门楼牌管理系统的分类二、二维码门楼牌管理系统的应用优势三、结论 前言 随着城市管理的精细化和智能化,二维码门楼牌管理系统成为了现代城市管理的重要工具。该系统将传统的门牌、楼牌、户牌与二维码技术相结合,实现了信息的快…

MySQL:常用的SQL语句

提醒:设定下面的语句是在数据库名为 db_book执行的。 一、创建表 1. 创建t_booktype表 USE db_book; CREATE TABLE t_booktype(id INT AUTO_INCREMENT, bookTypeName VARCHAR(20),bookTypeDesc varchar(200),PRIMARY KEY (id) );2. 创建t_book表 USE db_book; C…

C语言-----动态内存管理(1)

1.引入 我们之前已经学习了几种开辟内存空间的方式: (1)int a10;开辟4个字节大小的空间 (2)int arr[10]{0}定义数组开辟了一串连续的空间 2.malloc和free (1)malloc开辟内存空间可能会失败,因此需要检查…

HTML5+CSS3+JS小实例:文字阴影还能这么玩

实例:文字阴影还能这么玩 技术栈:HTML+CSS+JS 效果: 源码: 【HTML】 <!DOCTYPE html> <html lang="zh-CN"><head><meta charset="UTF-8" /><meta http-equiv="X-UA-Compatible" content="IE=edge"…

鸿蒙Harmony应用开发—ArkTS声明式开发(通用属性:形状裁剪)

用于对组件进行裁剪、遮罩处理。 说明&#xff1a; 从API Version 7开始支持。后续版本如有新增内容&#xff0c;则采用上角标单独标记该内容的起始版本。 clip clip(value: boolean | CircleAttribute | EllipseAttribute | PathAttribute | RectAttribute) 按指定的形状对当…

中美加密监管突传“巨响”!比特币突破7万信号出现!马斯克一句话掀起大行情!

比特币本周触及64000美元高价&#xff0c;2月交易所储备减少近45000多枚比特币&#xff0c;市场将其解读为看涨70000美元的关键信号。中美加密监管传利好&#xff0c;香港加密牌照申请期限结束&#xff0c;已有24家机构入列待批&#xff0c;美国考虑允许比特币ETF及相关信托期权…

uview2中上传文件和若依前后端分离配合的代码

uview2中的上传文件需要配合着自己后端的上传的代码 uview2 代码&#xff1a; uploadFilePromise(url) {return new Promise((resolve, reject) > {// 后续自己封装let a uni.uploadFile({//自己的请求路径url: that.$baseURL /uploadAvater, //上传的文件filePath: tha…

Java | vscode如何使用命令行运行Java程序

1.在vscode中新建一个终端 2.在终端中输入命令 javac <源文件>此命令执行后&#xff0c;在文件夹中会生成一个与原java程序同名的.class文件。然后输入如下命令&#xff1a; java <源文件名称>这样java程序就运行成功了。&#x1f607;

LeetCode:2368. 受限条件下可到达节点的数目(dfs Java)

目录 2368. 受限条件下可到达节点的数目 题目描述&#xff1a; 实现代码与解析&#xff1a; DFS 原理思路&#xff1a; 2368. 受限条件下可到达节点的数目 题目描述&#xff1a; 现有一棵由 n 个节点组成的无向树&#xff0c;节点编号从 0 到 n - 1 &#xff0c;共有 n - …

02-Vue 计算属性与监听器与VUE-cli使用

1.计算属性 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content"widthdevice-width,…

单源最短路的建图方式

1129. 热浪 - AcWing题库 这道题可以有三种方法来做&#xff0c;朴素版的dijkstra、堆优化版的dijkstra和spfa算法 &#xff08;1&#xff09;spfa算法 这里的队列用循环队列&#xff0c;而不是像模板那样用普通队列是因为它的队列长度不确定 import java.util.*;public class…

贝叶斯优化CNN分类(matlab代码)

贝叶斯优化CNN分类matlab代码 数据为Excel分类数据集数据。 数据集划分为训练集、验证集、测试集&#xff0c;比例为8:1:1 数据处理: 在数据加载后&#xff0c;对数据进行了划分&#xff0c;包括训练集、验证集和测试集&#xff0c;这有助于评估模型的泛化能力。 数据标准化…

动态规划(算法竞赛、蓝桥杯)--树形DP没有上司的舞会

1、B站视频链接&#xff1a;E17 树形DP Luogu P1352 没有上司的舞会_哔哩哔哩_bilibili 题目链接&#xff1a;没有上司的舞会 - 洛谷 #include <bits/stdc.h> using namespace std; const int N6010; int n; int w[N]; vector<int>a[N];//邻接表 bool fa[N]; int…

011 Linux_线程概念与创建

前言 本文将会向你介绍线程的概念&#xff0c;以及线程是怎么被创建的 线程概念 一、进程是承担系统资源的基本实体&#xff0c;线程是cpu调度的基本单位 首先&#xff0c;地址空间在逻辑上相当于进程的资源窗口&#xff0c; 每个进程都有这样一个资源窗口。通过地址空间页…

前端面试知识点合集

原型和原型链 任何函数都可以作为构造函数。当该函数通过 new 关键字调用的时候&#xff0c;就称之为构造函数。 var Parent function(){}//定义一个函数&#xff0c;那它只是一个普通的函数&#xff0c;不能称它为构造函数var instance new Parent(); //这时这个Parent就不…

C#理论 —— WPF 应用程序Console 控制台应用

文章目录 1. WPF 应用程序1.1 工程创建1.2 控件1.2.1 控件的公共属性1.2.1 TextBox 文本框1.2.1 Button 按钮 *. Console 控制台应用1.1 工程创建 1. WPF 应用程序 1.1 工程创建 Visual Studio 中新建项目 - 选择WPF 应用程序&#xff1b; 1.2 控件 1.2.1 控件的公共属性 …

Linux网络编程——网络基础

Linux网络编程——网络基础 1. 网络结构模式1.1 C/S 结构1.2 B/S 结构 2. MAC 地址3. IP地址3.1 简介3.2 IP 地址编址方式 4. 端口4.1 简介4.2 端口类型 5. 网络模型5.1 OSI 七层参考模型5.2 TCP/IP 四层模型 6. 协议6.1 简介6.2 常见协议6.3 UDP 协议6.4 TCP 协议6.5 IP 协议6…