OpenAI视频生成Sora技术简析

基本介绍

Sora是春节期间OpenAI发布的产品,主要是通过文字描述生成视频,通过大规模视频数据训练而成的生成模型,当前还没开放试用。官方发布的技术报告:https://openai.com/research/video-generation-models-as-world-simulators

基本思想

本质上还是一个扩散模型框架,与之前图像生成类似,只是视频相当于图像加了时间序列,增加了一个时间维度。大致可以想象成通过解噪音,生成了很多图,然后在时间维度上叠加,得到生成的视频。但实际情况并不是一张张图生产后再拼凑成视频。

1a2757601c3289d708d802ed398c44ad.png f6cce6b45f24c34ce1458236975893d8.png

DiT网络

在网络结构方面,相比于传统的扩散模型网络,Sora中了Diffusion Transformers(DiT)网络结构。这个网络其实就是把原来扩散模型中的Unet换成了Transformer结构,当前Transformer大有一统江湖的趋势,啥都换Transformer,这个主要就是因为Transformer有很强的扩展性。

80b4a2a6c2a0afae709a0a7044592e95.png

块(patch)转换

将可视数据转成块能够实现统一处理,块是一种高度可扩展且有效的表示方式。其实也是一种数据表示思想,类似于大语言模型的token化。他主要是通过一个编码器来对其进行转换的,原始视频输入到这个网络,得到的输出就是经过压缩后的潜在表示,Sora模型就是在这个潜在空间中进行训练。

06d87f3c1a1e64e731fca50ea6eb2722.png b0d8fc7ade9ad5c3592e637b95ba4b48.png

从更高层面上看,实际上视频就被压缩到了一个指定的低纬度的潜在空间。潜在空间的块组合包含了视频的时间和空间信息,原始视频转换成了块组合。通过这种处理能够统一能够很好解决分辨率、持续时间、纵横比等不同的视频问题。最终再将这些块以序列的结果拼接起来,最终输入到编码器中,这是为了满足transformer网络结构输入的要求。

关于潜在空间

就是图片生成中使用的方法推广到视频,以前的稳定扩散模型中就是把图片经过编码器压缩到潜在空间,然后潜在空间再通过解码器来生成图片。像素级的生成方式所需要的显存和计算都很大,成本很高。潜在空间主要解决的问题就是维度灾难,降维后能减轻运算量,实际上就是一种压缩方式。

5719c75eb6b523a34744d6adf3840595.png

文本条件化扩散模型

所谓的条件化实际上就是将文本也向量化后作为输入的一部分进入到网络,这样就能够控制视频的生成。下图展示的是文本条件化的扩散模型,这里只画了图像的示意图,其实都差不多。整个过程应该也是经过几百上千次的去噪音操作,最终得到潜在空间表示后经过解码器生成最终的视频。

c686d54ff1258dad5f96ae1c3bdba5d3.png c61cf43fa9be5726cf5ec7a46e90d5f5.png

关于数据样本

收集了大量带有相应文本字幕的视频,相当于有了视频的文字描述。但是这个描述还不够,因为人类对视频中的字幕添加时主要是关注主题对象,并没有对背景细节及图像颜色之类的进行描述,所以Sora还用了一种叫e-captioning的技术,它能丰富对视频的解读并增加细节文字描述,这个也是OpenAI的DALLE3产品提出来的一种技术。

还支持图像和视频提示

Sora还支持给定一张图片或视频,然后接着生成相关视频。这个实际上就是在输入时增加了图像和视频作为条件,也就是前面说的除了文本条件外,还有图像条件和视频条件。

38fb2530d71df93551d9d157169636ee.png

完整技术框架

完整的技术框架大致如下,视频经过压缩网络处理后成为块,然后进行扩散处理,这个过程其实主要就是训练一个噪音预测器。然后在生成的阶段会把潜在空间随机噪音、文本、视频、图片等多模态提示作为条件一起进行解噪音操作,最终得到潜在空间表示,将其经过解码器网络得到生成的视频。

d245acde4a3c4accbe57903beb2a3d3e.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/703767.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

无线综合测试仪8960(E5515C)

无线综合测试仪8960(E5515C) 简述: 8960是美国安捷伦(Agilent)公司生产的手机综测仪,8960测试仪是一款E5515C主机,具有特定于技术的硬件选件和软件应用程序。有两个硬件选项,8960能…

SpringBoot 学习笔记

文章目录 一、IoC二、AOP三、bean3.1 bean 生命周期3.2 三种依赖注入方式3.3 bean 线程安全 四、SpringMVC五、常用注解5.1 Scope5.2 PostConstruct 和 PreDestroy5.3 Component 和 Bean5.4 Autowired 和 Resource 六、基于 ApplicationContextAware 实现工厂模式七、事务失效八…

[AutoSar]BSW_Com03 DBC详解 (一)

目录 关键词平台说明一、DBC 定义1.1 相关工具 二、主要组成部分介绍2.1 Networks2.2 ECUs2.3 Network nodes2.4 messages2.5 signal2.6 Value Tables 三、主要组成部分关系图 关键词 嵌入式、C语言、autosar、OS、BSW 平台说明 项目ValueOSautosar OSautosar厂商vector &am…

推荐一个 Obsidian 的 ChatGPT 插件

源码地址:https://github.com/nhaouari/obsidian-textgenerator-plugin Text Generator 是目前我使用过的最好的 Obsidian 中的 ChatGPT 功能插件。它旨在智能生成内容,以便轻松记笔记。它不仅可以在 Obsidian 中直接使用 ChatGPT,还提供了优…

二叉树高频题目(不含树形DP)

二叉树高频题 二叉树的层序遍历 . - 力扣&#xff08;LeetCode&#xff09; 按点弹出 class Solution { public:vector<vector<int>> levelOrder(TreeNode* root) {vector<vector<int>>ans;if(root!nullptr){queue<TreeNode*>q;unordered_map&…

音视频技术-电脑连接调音台时交流声的产生与消除

当电脑&#xff08;笔记本/台式机&#xff09;声卡通过音频线与调音台&#xff08;或扩音机&#xff09;连接时&#xff0c;能听到“交流声”。有时很轻微&#xff0c;有时很明显&#xff0c;甚至干扰正常的演讲或发言。 很多时候&#xff0c;我们在台上演讲时&#xff0c;都会…

Centos7.9环境源码编译安装ffmpeg6.x

1.官网ffmpeg下载源码 https://ffmpeg.org/download.html#build-windows 2.未安装x264库则先安装配置 可以先查询x264库: whereis libx264 安装编译工具和依赖库&#xff1a; sudo yum install gcc make cmake mercurial git yasm pkgconfig autoconf automake libtool sudo…

UE4 材质多张图片拼接成一张图片(此处用2×2拼接)

UE4 材质多张图片拼接成一张图片&#xff08;此处用22拼接&#xff09; //TexCoord,TextureA,TextureB,TextureC,TextureDfloat3 ReturnTexture TextureA; if(TexCoord.x < 0.5 && TexCoord.y < 0.5) {ReturnTexture TextureA; } else if(TexCoord.x > 0.5…

力扣1290. 二进制链表转整数

Problem: 1290. 二进制链表转整数 文章目录 题目描述思路复杂度Code 题目描述 思路 1.记录一个变量res初始化为0&#xff0c;指针p指向链表头&#xff1b; 2.循环每次res res * 2 p -> val;p p -> next;&#xff08;充分利用二进制数的特性&#xff1b;其中利用指针先…

VMware使用虚拟机,开启时报错:无法连接虚拟设备 0:0,因为主机上没有相应的设备。——解决方法

检查虚拟机配置文件并确保物理设备已正确连接。 操作&#xff1a; 选中虚拟机&#xff0c;打开设置&#xff0c;点击CD/DVD。在连接处选择使用ISO镜像文件

.top域名解析超过72小时ping不通

域名作为网络上网站的唯一标识&#xff0c;它可以是可视的文本字符串&#xff0c;也可以是IP地址&#xff0c;它提供了一种方便的方式来访问网站&#xff0c;而不用担心网址的改变。域名可以分为不同的类型&#xff0c;如顶级域名(TLD)、国家域名(ccTLD)、通用域名(gTLD)等。因…

怎样知道员工上班浏览了哪些网页

在数字化时代&#xff0c;员工在工作时间内上网浏览网页已经成为常态。然而&#xff0c;这也为企业带来了信息安全和工作效率的隐患。为了解决这个问题&#xff0c;许多企业开始使用域智盾这样的专业软件来监控员工的上网行为。 一、域智盾软件简介 域智盾是一款功能强大的企业…

操作系统--设备管理

一、设备控制器 我们的电脑设备可以接非常多的输入输出设备&#xff0c;比如键盘、鼠标、显示器、网卡、硬盘、打印机、音响等等&#xff0c;每个设备的用法和功能都不同。为了屏蔽设备之间的差异&#xff0c;每个设备都有一个叫设备控制器&#xff08;Device Control&#xf…

电子书推荐|IT 基础架构团队的 K8s 管理(含最新性能评测)

越来越多的企业采用 Kubernetes 支持应用的快速开发与交付&#xff0c;Kubernetes 的部署与管理任务也逐渐向 IT 基础架构团队倾斜。尤其是对于习惯了传统虚拟化环境的基础架构工程师&#xff0c;容器环境的管理方式往往会带来诸多困扰&#xff1a; Kubernetes 使用门槛高&…

期权无风险套利策略[6]—看跌期权价格波动区间套利

看跌期权价格波动区间定义 根据美式看涨和看跌期权的均衡公式&#xff0c;在无现金股利的发放下&#xff1a; &#xff08;1&#xff09;美式看跌期权的价格&#xff08;P&#xff09;一定不会超过同等特征美式看涨期权的价格 &#xff08;C&#xff09;&#xff0c;加上执行…

React18源码: Fiber树的初次创建过程图文详解

fiber树构造&#xff08;初次创建&#xff09; fiber树构造的2种情况&#xff1a; 1.初次创建 在React应用首次启动时&#xff0c;界面还没有渲染此时并不会进入对比过程&#xff0c;相当于直接构造一棵全新的树 2.对比更新 React应用启动后&#xff0c;界面已经渲染如果再次发…

面试经典150题【31-40】

文章目录 面试经典150题【31-40】76.最小覆盖字串36.有效的数独54.螺旋矩阵48.旋转图像73.矩阵置零289.生命游戏383.赎金信205.同构字符串290.单词规律242.有效的字母异位词 面试经典150题【31-40】 76.最小覆盖字串 基本思路很简单&#xff0c;就是先移动右边到合适位置。再移…

面对耦合度过高的第三方对接

今天接到一个需求&#xff0c;原型图如下&#xff1a;抖音数据&#xff08;给的是数据占比&#xff09;&#xff0c;要求根据性别&#xff0c;年龄&#xff0c;类目&#xff0c;地域&#xff0c;消费偏好&#xff0c;客单价筛选后排序。 1、性别给的示例&#xff1a;{ "…

Rem 自适应原理与应用

前言 移动端适配有很多方案&#xff0c;这篇文章将根据 rem 自适应的原理进行讲解&#xff0c;接下来跟着作者的思路一起来看看吧&#xff01; 原理 在搞清楚 rem 适配之前&#xff0c;我们先来了解一下什么是 rem&#xff1f; rem 是一种相对长度单位&#xff0c;它相对于根…

51单片机学习(5)-----蜂鸣器的介绍与使用

前言&#xff1a;感谢您的关注哦&#xff0c;我会持续更新编程相关知识&#xff0c;愿您在这里有所收获。如果有任何问题&#xff0c;欢迎沟通交流&#xff01;期待与您在学习编程的道路上共同进步。 目录 一. 蜂鸣器的介绍 1.蜂鸣器介绍 2.压电式蜂鸣器 &#xff08;无源…