【报告解析】OpenAI Sora视频模型官方报告全解析 | 效果,能力以及基本原理

省流版

1 核心数据处理将视频数据整合成一个一个的Patch,方便统一训练数据,利用扩散Transformer架构

2 功能效果除了可以实现基础的文生视频外,实际上还有非常惊艳的视频延展,视频编辑,视频连接等多种功能,具体可以看官网的demo

3 模型涌现了3D一致性,远距离物体相关性等等卓越的能力

文章目录

  • 1 主要内容概述
  • 2 统一视频数据为patches
  • 3 功能效果展示
    • 3.1 文本输入生成视频
    • 3.2 图片和文本共同输入
    • 3.3 视频延展
    • 3.4 视频到视频的编辑
    • 3.5 连接视频
    • 3.6 生成图片
  • 4 涌现的能力
    • 4.1 3D一致性
    • 4.2 远距离相关性和物体持久性
    • 4.3 与世界互动
    • 4.4 模拟数字世界

1 主要内容概述

摘要中指出,OpenAI探索了生成模型在视频数据的大规模训练,特别的,训练了基于文本条件的扩散模型,模型利用了Transformer架构,能够生成长达一分钟的视频,研究结果显示大规模的视频生成模型是构建通用的真实物理世界模拟器的一种很有潜力的方式

报告主要聚焦于两点

1 将所有类型的视觉数据转换为统一表示的方法,从而实现生成模型的大规模训练

2 对能力和局限性进行定性评估

具体的模型和实施细节并不包括在该报告中

以往的工作利用循环神经网络,自回归Transformer,和扩散模型等等,这些工作往往只聚焦于视频数据的一小部分,比如很短的视频或者固定的尺寸分辨率,Sora打破了这种已有的束缚,能够生成不同时长(最长60s),不同分辨率的视频

2 统一视频数据为patches

我们知道,在语言模型中,我们会将字符转换为一个一个的token,这样可以优雅地统一各种文本形式,比如代码,数学公式和不同的自然语言

在该工作中,也进行了这样的统一,将视频数据转换为一个一个的patch,事实证明patches是一种有效的表征

首先将一帧一帧的视频数据经过一个编码器,转换为低纬度的潜在空间的表示形式(目的是在时间上和空间上进行压缩)同时训练了一个对应的练解码器将这种潜在空间的内容转换为像素空间

接下来 将这种表现形式分解为时空潜在patches

请添加图片描述

然后将这些patches输入给扩散Transformer结构,使得训练能够利用不同分辨率大小,时长的视频数据。在推理阶段,我们可以通过在适当大小的网格中排列随机初始化的patches来控制生成的视频的大小

实际训练中,随机生成噪声直到不断去噪恢复到原来的patch
请添加图片描述

证明了扩散Transformer结构在视频数据非常有效

过去的图像和视频生成方法通常将视频调整大小、裁剪或修剪为标准大小,例如,分辨率为 256x256 的 4 秒视频。

OpenAI发现,以原生大小对数据进行训练有几个好处

1 采样灵活性

2 以原始纵横比对视频进行训练可以改善构图,而裁剪可能会导致很大的问题

我们首先训练一个高度描述性的字幕器模型,然后使用它为训练集中的所有视频生成文本字幕。OpenAI发现,对高度描述性视频字幕的训练可以提高文本保真度以及视频的整体质量。

3 功能效果展示

3.1 文本输入生成视频

这个就不用多说了哈哈哈哈,最基础的功能

3.2 图片和文本共同输入

请添加图片描述

3.3 视频延展

可以根据已有的视频按照时间向前延展或者向后延展

最后可以生成一些有趣的效果

3.4 视频到视频的编辑

比如更改视频中的风格,背景等等

看示例

左边图是原始视频,让左边的车跑在丛林里

请添加图片描述

3.5 连接视频

请添加图片描述

如图可以将左边视频的汽车和右边视频豹子两个元素连接在一起到中间的

3.6 生成图片

对你没有看错

虽然Sora最初是为了视频来的,但是由于训练中有图片所以也可以进行图片的生成

请添加图片描述

4 涌现的能力

4.1 3D一致性

Sora 可以生成具有动态相机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终如一地移动。

4.2 远距离相关性和物体持久性

视频生成系统面临的一个重大挑战是在对长视频进行采样时保持时间一致性。Sora通常(尽管并非总是)能够有效地对短期和长期依赖关系进行建模。例如,模型可以保留人、动物和物体,即使它们被遮挡或离开框架。同样,它可以在单个样本中生成同一角色的多个镜头,从而在整个视频中保持它们的外观。

4.3 与世界互动

Sora 有时可以以简单的方式模拟影响世界状态的动作。例如,画家可以在画布上留下新的笔触,这些笔触会随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。

4.4 模拟数字世界

Sora还能够模拟人工过程,例如视频游戏。Sora 可以同时通过基本策略控制 Minecraft 中的玩家,同时还可以高保真地渲染世界及其动态。这些功能可以通过提示 Sora 提及“Minecraft”来零触发。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/685402.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法--数论二

这里写目录标题 高斯消元高斯消元求线性方程组用途高斯消元的数学思想例题代码 二级目录 一级目录二级目录二级目录二级目录 一级目录二级目录二级目录二级目录 一级目录二级目录二级目录二级目录 一级目录二级目录二级目录二级目录 高斯消元 高斯消元求线性方程组 用途 这个…

VScode写LaTeX配置,实测有效

环境配置请看LaTeX环境配置-TexLive,实测有效http://t.csdnimg.cn/0txlL VScode写LaTeX配置 0.smatra pdf下载 如果使用外部pdf查看器,比如我用的sumatra pdf,官网是Sumatra PDF reader download page 下载对应版本,比如64位,下…

Pandas:DataFrame的完整指南【第82篇—DataFrame】

Pandas:DataFrame的完整指南 Pandas是Python中最流行的数据处理库之一,而其中的DataFrame对象是数据处理的核心。DataFrame为我们提供了一个强大而灵活的数据结构,使得数据的清洗、分析和可视化变得更加简便。在本文中,我们将深入…

leetcode hot100爬楼梯

在本题目中,要求爬第n阶有多少种爬法,并且每次只能爬1个或者2个,这明显是动态规划的问题,我们需要用动态规划的解决方式去处理问题。动态规划就是按照正常的顺序由前向后依次推导。而递归则是从结果往前去寻找(个人理解…

Android 9.0 禁用adb shell input输入功能

1.前言 在9.0的系统rom产品开发中,在进行一些定制开发中,对于一些adb shell功能需要通过属性来控制禁止使用input 等输入功能,比如adb shell input keyevent 响应输入事件等,所以就需要 熟悉adb shell input的输入事件流程,然后来禁用adb shell input的输入事件功能,接…

光芒绽放:妙用“GLAD原则”打造标准的数据可视化图表

光芒绽放:妙用“GLAD原则”打造标准的数据可视化图表 文章目录 光芒绽放:妙用“GLAD原则”打造标准的数据可视化图表前言一、可视化工具有哪些?二、那如何做出正确可视化图表 ?GLAD原则1.G原则2.L原则3.A原则4.D原则 三、总结最后…

《VulnStack》ATTCK-1

title: 《VulnStack》ATT&CK-1 date: 2024-01-29 14:53:49 updated: 2024-02-14 18:55:49 categories: WriteUp:Cyber-Range excerpt: 主机发现、端口扫描,服务探测,操作系统探测、nmap 漏洞库扫描、网站首页信息泄露、msf 渗透与信息收集…

云计算基础-云计算概念

云计算定义 云计算是一种基于互联网的计算方式,通过这种计算方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。云计算依赖资源共享以达成规模经济,类似基础设置(如电力网)。 云计算最基本的概念就是云加端,我们有一个…

SW100TSN-百兆车载以太网交换机

更多资讯可以进入官网查看或者联系我们http://www.hdn-vdo.com

基于BP算法的SAR成像matlab仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 4.1 BP算法的基本原理 4.2 BP算法的优点与局限性 5.完整工程文件 1.课题概述 基于BP算法的SAR成像。合成孔径雷达(SAR)是一种高分辨率的雷达系统,能够在各种天气和光…

Kafka King 推荐一款漂亮、现代、实用的kafka客户端

Kafka King 一个漂亮、现代、实用的kafka客户端,使用python flet、flutter构建。 Github主页:https://github.com/Bronya0/Kafka-King 下载:https://github.com/Bronya0/Kafka-King/releases 功能清单 查看集群节点列表创建主题&#xf…

波奇学Linux:文件系统打开文件

从文件系统来看打开文件 计算机系统和磁盘交互的大小是4kb 物理内存的4kb,磁盘的4kb文件叫做页帧 磁盘数据块的以4kb为单位。 减少IO的次数,减少访问外设的次数--硬件 基于局部性的原理,预加载机制--软件 操作系统管理内存 操作系统对…

MySQL数据库基础(五):SQL语言讲解

文章目录 SQL语言讲解 一、SQL概述 二、SQL语句分类 1、DDL 2、DML 3、DQL 4、DCL 三、SQL基本语法 1、SQL语句可以单行或多行书写,以分号结尾 2、可使用空格和缩进来增强语句的可读性 3、MySQL数据库的SQL语句不区分大小写,关键字建议使用大写…

【OpenAI Sora】开启未来:视频生成模型作为终极世界模拟器的突破之旅

这份技术报告主要关注两个方面:(1)我们的方法将各种类型的视觉数据转化为统一的表示形式,从而实现了大规模生成模型的训练;(2)对Sora的能力和局限性进行了定性评估。报告中不包含模型和实现细节…

Python面向对象学习小记

python中的类可以分为经典类和新式类。 类的定义方法: class 类名: pass 类名后面没有小括号!!! 【注意和函数的定义做区分。】 函数的定义: def 函数名(): pass

《A++ 敏捷开发》- 8 获取高层支持

我:对过程改进来说,最重要的成功要素是什么? 客户:最难的是如何得到高层的支持,这不仅仅是嘴巴说说而已,而是要切实地给人、给时间。高层往往不清楚什么是质量改进的重点,但他们对员工的人均收入…

AcWing 1235. 付账问题(贪心)

[题目概述] 几个人一起出去吃饭是常有的事。 但在结帐的时候,常常会出现一些争执。 现在有 n 个人出去吃饭,他们总共消费了 S 元。 其中第 i 个人带了 a i a_i ai​ 元。 幸运的是,所有人带的钱的总数是足够付账的,但现在问题来…

2.12日学习打卡----初学RocketMQ(三)

2.12日学习打卡 目录: 2.12日学习打卡一. RocketMQ高级特性(续)消息重试延迟消息消息查询 二.RocketMQ应用实战生产端发送同步消息发送异步消息单向发送消息顺序发送消息消费顺序消息全局顺序消息延迟消息事务消息消息查询 一. RocketMQ高级特…

分布式文件系统 SpringBoot+FastDFS+Vue.js【四】

分布式文件系统 SpringBootFastDFSVue.js【四】 八、文件的下载和删除功能8.1.FastDFSClient.java8.2.FileServerController.java8.3.Vue的fast.js8.4.fastdfsimg.vue8.5.效果 九、总结endl 八、文件的下载和删除功能 8.1.FastDFSClient.java Slf4j public class FastDFSClie…

无人机地面站技术,无人机地面站理论基础详解

地面站作为整个无人机系统的作战指挥中心,其控制内容包括:飞行器的飞行过程,飞行航迹, 有效载荷的任务功能,通讯链路的正常工作,以及 飞行器的发射和回收。 无人机地面站总述 地面站作为整个无人机系统的作战指挥中心…