OpenAI 发布文生视频Sora大模型,一句话便可生成长达一分钟的视频

前几期的文章,我们介绍了很多文生视频的大模型,包括字节发布的magic video以及stable video diffusion等模型,都可以输入相关的文本生成对应场景的视频。

动图封面

文生视频大模型必然会成为各个人工智能大厂竞争的核心领地,这不OpenAI刚刚发布了其自家的文生视频大模型Sora。

动图封面

从官方生成的视频可以看到,其质量之强大,性能之稳定,且最大的模型可以生成长达一分钟的视频,简直是要颠覆自媒体的节奏。

很多先前的工作使用了各种方法对视频数据进行建模以便生成视频,包括循环神经网络,生成对抗神经网络,自回归transformer模型以及扩散模型。这些模型结构只关注一小部分视觉数据,较短的视频以及固定尺寸大小的视频。而Sora是视觉数据通用模型,可以生成不同尺寸,不同时间长度,不同高宽比和不同分辨率的视频,其最大的模型可以生成一分钟的高清视频,真正的大力出奇迹。

将视觉数据转化为patch

Sora模型借鉴了LLM语言大模型的token方法,在高纬度空间,Sora首先把视频压缩到低维空间,把视频分成每个视频帧图片,再把图片分割成每个单独的patch,而这些patch可以应用在不同类型的视频和图片的模型训练。

视频压缩网络

OpenAI训练一个降低视觉数据维度网络。该网络将原始视频作为输入,并输出在时间和空间上压缩的潜在数据表示。Sora 在这个压缩的潜在空间中接受训练并随后生成视频。OpenAI还训练了相应的解码器模型,将生成的视频映射回像素空间。

Spacetime latent patches

由于视频是由视频帧图像组成,因此在给定一个压缩的输入视频数据时,Sora模型在输入阶段,提取了一系列时空patch充当输入token。正是基于这些输入token,Sora能够对不同分辨率,不同尺寸大小,持续时间的视频与图片进行训练。在模型推理阶段,可以通过在适当大小的网络中随机排列这些输入token以便生成不同的尺寸视频。

用于视频生成的缩放transformer模型

Transformer 在各个领域都表现出了卓越的扩展特性,包括LLM大语言模型、计算机视觉,图像生成以及视频生成等领域。而Sora是一个扩散transformer模型,扩散transformer可以有效的应用到视频生成领域,在固定种子与输入视频样本上,随着模型的不断训练,其生成的视频质量也不断的提升。

动图封面

Sora模型不仅可以使用1920x1080p 视频,还可以使用手机竖版1080x1920 视频,且可以使用介于2者之间的任意尺寸视频,这让Sora模型可以生成不同尺寸大小的视频,以便可以应用到不同尺寸的移动终端设备上。

动图封面

以往的经验为了方便模型框架的设计,在输入数据上会进行裁剪以方便模型训练,但是Sora模型使用原始尺寸视频数据进行模型的训练,相对裁剪的输入数据相比,其原始尺寸数据输出的视频更加的完整。有时裁剪输入数据会导致输出视频不完整,个别视频对象会被裁剪。

动图封面

语言理解是当前大模型需要重点攻克的难题,但是OpenAI有了 ChatGPT的支持,让Sora可以更加理解输入的文本数据。Sora应用了 DALL·E 3 中引入的文本生成技术。首先训练一个高维描述性的字幕生成器模型,然后使用它为训练集中的所有视频生成文本描述。与 DALL·E 3 类似,利用 GPT 将简短的用户提示转换为较长的详细描述,然后发送到视频模型。这使得 Sora 能够生成准确遵循用户提示的高质量视频。

动图封面

Sora模型不仅可以对手输入视频进行编辑,也可以连接不同的视频,通过插帧技术,把2个不同风格的视频进行连接

动图封面

当然,作为视频生成的模型,Sora模型也可以生成图像,该模型可以生成不同尺寸的图像,分辨率高达2048x2048

强大的Sora一经发布,便占据了各大平台的热点,虽然此模型刚刚发布,OpenAI 还没有发布更加详细的技术实现,但是按照OpenAI 的套路,此模型会是一个收费的模型,大概率是提供API接口让开发者使用。

 动画详解transformer  

https://openai.com/research/video-generation-models-as-world-simulators
更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:启示AI科技
微信中复制如下链接,打开,免费使用chatgpthttps://wx2.expostar.cn/qz/pages/manor/index?id=1137&share_from_id=79482&sid=24

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/689640.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

代码随想录算法训练营第三十六天|435. 无重叠区间、763. 划分字母区间、56. 合并区间。

435. 无重叠区间 题目链接:无重叠区间 题目描述: 给定一个区间的集合 intervals ,其中 intervals[i] [starti, endi] 。返回 需要移除区间的最小数量,使剩余区间互不重叠 。 解题思路: 本题和上一个射气球类似&#x…

什么是接口测试?怎么做接口测试?

🍅 视频学习:文末有免费的配套视频可观看 🍅 关注公众号【互联网杂货铺】,回复 1 ,免费获取软件测试全套资料,资料在手,涨薪更快 首先,什么是接口呢? 接口一般来说有两种…

红旗linux安装32bit依赖库

红旗linux安装32bit依赖库 红旗linux安装32bit依赖库 lib下载 红旗-7.3-lib-32.tar.gz 解压压缩包,根据如下进行操作 1.回退glibc(1)查看当前glibc版本[root192 ~]# rpm -qa | grep glibcglibc-common-2.17-157.axs7.1.x86_64glibc-headers-2.17-260.axs7.5.x86_…

【手写数据库toadb】表relation访问实现概述,分层设计再实践,表访问层与表操作层简化代码复杂度

301表的访问 ​专栏内容: 手写数据库toadb 本专栏主要介绍如何从零开发,开发的步骤,以及开发过程中的涉及的原理,遇到的问题等,让大家能跟上并且可以一起开发,让每个需要的人成为参与者。 本专栏会定期更新,对应的代码也会定期更新,每个阶段的代码会打上tag,方便阶段学…

Python Flask高级编程之RESTFul API前后端分离(学习笔记)

Flask-RESTful是一个强大的Python库,用于构建RESTful APIs。它建立在Flask框架之上,提供了一套简单易用的工具,可以帮助你快速地创建API接口。Flask-RESTful遵循REST原则,支持常见的HTTP请求方法,如GET、POST、PUT和DE…

单机环境搭建Redis伪集群

1、Redis版本 [rootwsdhla ~]# redis-server -v Redis server v6.2.6 sha00000000:0 mallocjemalloc-5.1.0 bits64 buildbf23dac15dfc00fa[rootwsdhla ~]# redis-cli -v redis-cli 6.2.62、创建节点目录 创建6个节点目录,分别复制一份redis.conf并编辑&#xff1a…

Codeforces Round 927 (Div. 3)(A,B,C,D,E,F,G)

这场简单些,E题是个推结论的数学题,沾点高精的思想。F是个需要些预处理的DP,G题是用exgcd算边权的堆优化dijkstra。C题有点骗,硬啃很难做。 A Thorns and Coins 题意: 在你的电脑宇宙之旅中,你偶然发现了…

找第K大数

输入N个整数,求第K大的数是哪个? 输入格式 第一行2个正整数:N和K,N范围在[1,100],K范围在[1,N]。 第二行N个不同的正整数:范围在[1,10000]。 输出格式 一个整数。 输入/输出例子1 输入: 5…

.NET开源的一个小而快并且功能强大的 Windows 动态桌面软件 - DreamScene2

前言 很多同学都不愿给电脑设动态壁纸,其中有个重要原因就是嫌它占资源过多。今天大姚分享一个.NET开源、免费(MIT license)的一个小而快并且功能强大的 Windows 动态桌面软件,支持视频和网页动画播放:DreamScene2。 …

主流开发语言和开发环境?

主流开发语言 Java 简介:Java 是一种广泛使用的面向对象的编程语言,由Sun Microsystems公司于1995年发布,后由Oracle公司接手。Java具有“一次编写,到处运行”的特性,它的跨平台能力得益于Java虚拟机(JVM&a…

【c++基础】自然数的分解

说明 自然数的拆分问题。给定自然数n,将其拆分成若干自然数的和。输出所有解,每组解中数字按从小到大排列。相同数字的不同排列算一组解。 如,读入整数3,分解方案如下: 111 12 再比如,读入整数7,分解方…

和数集团2024龙腾山海,新春大吉

龙腾山海迎新岁,瑞气盈门天地春。 在这盛世团圆的时代,在这幸福吉祥的时刻,和数集团向辛勤工作的全体员工、所有的合作伙伴、国际友人、领导老师以及一直支持和关心公司发展的社会各界朋友,致以最诚挚的祝福和感谢! …

ESP32工程中CMake使用及加入第三方SDK库文件

1、ESP32工程结构 本文中使用的是乐鑫官方推出的ESP-IDF v5.1对ESP32S3设备开发,并非是Arduino、Micro-python等第三方工具开发。在ESP-IDF框架中,乐鑫官方已经将CMake 和 Ninja 编译构建工具集成到了ESP-IDF中。 ESP-IDF 即乐鑫物联网开发框架&#xff…

【Java前端技术栈】Promise

一、Promise 基本介绍 1. 传统的 Ajax 异步调用在需要多个操作的时候,会导致多个回调函数嵌套,导致代码不够直观,就是常说的Callback Hell 2. 为了解决上述的问题,Promise对象应运而生,在 EMCAScript 2015当中已经成…

车道拓扑、目标布局、天气条件全都要!Text2Street:犀利的街景生成神器!

文本到图像生成在扩散模型的出现下取得了显著进展。然而,基于文本生成街景图像仍然是一项困难的任务,主要是因为街景的道路拓扑复杂,交通状况多样,天气情况各异,这使得传统的文本到图像模型难以处理。为了解决这些挑战…

每日一题——LeetCode1460.通过翻转子数组使两个数组相等

方法一 哈希Map 用两个Map集合分别统计target和arr里出现的元素和出现的次数,在比较两个Map集合看是否出现的元素和次数都相同 var canBeEqual function(target, arr) {let map1 new Map();let map2 new Map();for (let item of target) {map1.set(item, (map1…

039-安全开发-JavaEE应用SpringBoot框架Actuator监控泄漏Swagger自动化

039-安全开发-JavaEE应用&SpringBoot框架&Actuator监控泄漏&Swagger自动化 #知识点: 1、JavaEE-SpringBoot-监控系统-Actuator 2、JavaEE-SpringBoot-接口系统-Swagger 3、JavaEE-SpringBoot-监控&接口&安全问题 演示案例: ➢Spring…

服务器钓鱼攻击常用手法简介与防护建议

服务器钓鱼攻击是最常见、最容易让受害者中招的网络服务器犯罪之一,随着网络服务器技术的不断发展,攻击者的伪装手段也变得愈发狡诈,攻击频次也再增高,各种新奇的攻击方式层出不穷。 防止网络服务器钓鱼的最基本原则是保持警惕&a…

httpclient发送post请求、httpclient上传文件

引入依赖 <dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId><version>4.5.13</version></dependency><dependency><groupId>org.apache.httpcomponents</groupI…

机器人初识 —— 电机传动系统

一、背景 波士顿动力公司开发的机器人&#xff0c;其电机传动系统是其高性能和动态运动能力的核心部分。电机传动系统通常包括以下几个关键组件&#xff1a; 1. **电动马达**&#xff1a;波士顿动力的机器人采用了先进的电动马达作为主要的动力源&#xff0c;如伺服电机或步进…