OpenAI 发布文生视频Sora大模型,一句话便可生成长达一分钟的视频

前几期的文章,我们介绍了很多文生视频的大模型,包括字节发布的magic video以及stable video diffusion等模型,都可以输入相关的文本生成对应场景的视频。

动图封面

文生视频大模型必然会成为各个人工智能大厂竞争的核心领地,这不OpenAI刚刚发布了其自家的文生视频大模型Sora。

动图封面

从官方生成的视频可以看到,其质量之强大,性能之稳定,且最大的模型可以生成长达一分钟的视频,简直是要颠覆自媒体的节奏。

很多先前的工作使用了各种方法对视频数据进行建模以便生成视频,包括循环神经网络,生成对抗神经网络,自回归transformer模型以及扩散模型。这些模型结构只关注一小部分视觉数据,较短的视频以及固定尺寸大小的视频。而Sora是视觉数据通用模型,可以生成不同尺寸,不同时间长度,不同高宽比和不同分辨率的视频,其最大的模型可以生成一分钟的高清视频,真正的大力出奇迹。

将视觉数据转化为patch

Sora模型借鉴了LLM语言大模型的token方法,在高纬度空间,Sora首先把视频压缩到低维空间,把视频分成每个视频帧图片,再把图片分割成每个单独的patch,而这些patch可以应用在不同类型的视频和图片的模型训练。

视频压缩网络

OpenAI训练一个降低视觉数据维度网络。该网络将原始视频作为输入,并输出在时间和空间上压缩的潜在数据表示。Sora 在这个压缩的潜在空间中接受训练并随后生成视频。OpenAI还训练了相应的解码器模型,将生成的视频映射回像素空间。

Spacetime latent patches

由于视频是由视频帧图像组成,因此在给定一个压缩的输入视频数据时,Sora模型在输入阶段,提取了一系列时空patch充当输入token。正是基于这些输入token,Sora能够对不同分辨率,不同尺寸大小,持续时间的视频与图片进行训练。在模型推理阶段,可以通过在适当大小的网络中随机排列这些输入token以便生成不同的尺寸视频。

用于视频生成的缩放transformer模型

Transformer 在各个领域都表现出了卓越的扩展特性,包括LLM大语言模型、计算机视觉,图像生成以及视频生成等领域。而Sora是一个扩散transformer模型,扩散transformer可以有效的应用到视频生成领域,在固定种子与输入视频样本上,随着模型的不断训练,其生成的视频质量也不断的提升。

动图封面

Sora模型不仅可以使用1920x1080p 视频,还可以使用手机竖版1080x1920 视频,且可以使用介于2者之间的任意尺寸视频,这让Sora模型可以生成不同尺寸大小的视频,以便可以应用到不同尺寸的移动终端设备上。

动图封面

以往的经验为了方便模型框架的设计,在输入数据上会进行裁剪以方便模型训练,但是Sora模型使用原始尺寸视频数据进行模型的训练,相对裁剪的输入数据相比,其原始尺寸数据输出的视频更加的完整。有时裁剪输入数据会导致输出视频不完整,个别视频对象会被裁剪。

动图封面

语言理解是当前大模型需要重点攻克的难题,但是OpenAI有了 ChatGPT的支持,让Sora可以更加理解输入的文本数据。Sora应用了 DALL·E 3 中引入的文本生成技术。首先训练一个高维描述性的字幕生成器模型,然后使用它为训练集中的所有视频生成文本描述。与 DALL·E 3 类似,利用 GPT 将简短的用户提示转换为较长的详细描述,然后发送到视频模型。这使得 Sora 能够生成准确遵循用户提示的高质量视频。

动图封面

Sora模型不仅可以对手输入视频进行编辑,也可以连接不同的视频,通过插帧技术,把2个不同风格的视频进行连接

动图封面

当然,作为视频生成的模型,Sora模型也可以生成图像,该模型可以生成不同尺寸的图像,分辨率高达2048x2048

强大的Sora一经发布,便占据了各大平台的热点,虽然此模型刚刚发布,OpenAI 还没有发布更加详细的技术实现,但是按照OpenAI 的套路,此模型会是一个收费的模型,大概率是提供API接口让开发者使用。

 动画详解transformer  

https://openai.com/research/video-generation-models-as-world-simulators
更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:启示AI科技
微信中复制如下链接,打开,免费使用chatgpthttps://wx2.expostar.cn/qz/pages/manor/index?id=1137&share_from_id=79482&sid=24

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/689640.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

什么是接口测试?怎么做接口测试?

🍅 视频学习:文末有免费的配套视频可观看 🍅 关注公众号【互联网杂货铺】,回复 1 ,免费获取软件测试全套资料,资料在手,涨薪更快 首先,什么是接口呢? 接口一般来说有两种…

Python Flask高级编程之RESTFul API前后端分离(学习笔记)

Flask-RESTful是一个强大的Python库,用于构建RESTful APIs。它建立在Flask框架之上,提供了一套简单易用的工具,可以帮助你快速地创建API接口。Flask-RESTful遵循REST原则,支持常见的HTTP请求方法,如GET、POST、PUT和DE…

单机环境搭建Redis伪集群

1、Redis版本 [rootwsdhla ~]# redis-server -v Redis server v6.2.6 sha00000000:0 mallocjemalloc-5.1.0 bits64 buildbf23dac15dfc00fa[rootwsdhla ~]# redis-cli -v redis-cli 6.2.62、创建节点目录 创建6个节点目录,分别复制一份redis.conf并编辑&#xff1a…

Codeforces Round 927 (Div. 3)(A,B,C,D,E,F,G)

这场简单些,E题是个推结论的数学题,沾点高精的思想。F是个需要些预处理的DP,G题是用exgcd算边权的堆优化dijkstra。C题有点骗,硬啃很难做。 A Thorns and Coins 题意: 在你的电脑宇宙之旅中,你偶然发现了…

.NET开源的一个小而快并且功能强大的 Windows 动态桌面软件 - DreamScene2

前言 很多同学都不愿给电脑设动态壁纸,其中有个重要原因就是嫌它占资源过多。今天大姚分享一个.NET开源、免费(MIT license)的一个小而快并且功能强大的 Windows 动态桌面软件,支持视频和网页动画播放:DreamScene2。 …

和数集团2024龙腾山海,新春大吉

龙腾山海迎新岁,瑞气盈门天地春。 在这盛世团圆的时代,在这幸福吉祥的时刻,和数集团向辛勤工作的全体员工、所有的合作伙伴、国际友人、领导老师以及一直支持和关心公司发展的社会各界朋友,致以最诚挚的祝福和感谢! …

ESP32工程中CMake使用及加入第三方SDK库文件

1、ESP32工程结构 本文中使用的是乐鑫官方推出的ESP-IDF v5.1对ESP32S3设备开发,并非是Arduino、Micro-python等第三方工具开发。在ESP-IDF框架中,乐鑫官方已经将CMake 和 Ninja 编译构建工具集成到了ESP-IDF中。 ESP-IDF 即乐鑫物联网开发框架&#xff…

【Java前端技术栈】Promise

一、Promise 基本介绍 1. 传统的 Ajax 异步调用在需要多个操作的时候,会导致多个回调函数嵌套,导致代码不够直观,就是常说的Callback Hell 2. 为了解决上述的问题,Promise对象应运而生,在 EMCAScript 2015当中已经成…

车道拓扑、目标布局、天气条件全都要!Text2Street:犀利的街景生成神器!

文本到图像生成在扩散模型的出现下取得了显著进展。然而,基于文本生成街景图像仍然是一项困难的任务,主要是因为街景的道路拓扑复杂,交通状况多样,天气情况各异,这使得传统的文本到图像模型难以处理。为了解决这些挑战…

每日一题——LeetCode1460.通过翻转子数组使两个数组相等

方法一 哈希Map 用两个Map集合分别统计target和arr里出现的元素和出现的次数,在比较两个Map集合看是否出现的元素和次数都相同 var canBeEqual function(target, arr) {let map1 new Map();let map2 new Map();for (let item of target) {map1.set(item, (map1…

039-安全开发-JavaEE应用SpringBoot框架Actuator监控泄漏Swagger自动化

039-安全开发-JavaEE应用&SpringBoot框架&Actuator监控泄漏&Swagger自动化 #知识点: 1、JavaEE-SpringBoot-监控系统-Actuator 2、JavaEE-SpringBoot-接口系统-Swagger 3、JavaEE-SpringBoot-监控&接口&安全问题 演示案例: ➢Spring…

机器人初识 —— 电机传动系统

一、背景 波士顿动力公司开发的机器人,其电机传动系统是其高性能和动态运动能力的核心部分。电机传动系统通常包括以下几个关键组件: 1. **电动马达**:波士顿动力的机器人采用了先进的电动马达作为主要的动力源,如伺服电机或步进…

【数据分享】2014-2024年全国监测站点的逐时空气质量数据(15个指标\Excel\Shp格式)

空气质量的好坏反映了空气的污染程度,在各项涉及城市环境的研究中,空气质量都是一个十分重要的指标。空气质量是依据空气中污染物浓度的高低来判断的。 我们发现学者王晓磊在自己的主页里面分享了2014年5月以来的全国范围的到站点的逐时的空气质量数据&…

OpenCV运行gstreamer管道获取相机数据,处理以后,再交给gstreamer显示(QT实现)

前言 无意中发现,OpenCV也可以运行gstreamer的命令管道,然后使用appsink来与OpenCV连接起来进行处理,在不断测试之下,先后实现了以下功能: 1. OpenCV运行gstreamer命令,通过appsink传递给OpenCV显示 2. Ope…

Java入门及环境变量

文章目录 1.1 Java简介1.2 JDK的下载和安装1.3 第一个程序1.4 常见问题1.5 常用DOS命令1.6 Path环境变量 1.1 Java简介 下面我们正式进入Java的学习,在这里,大家第一个关心的问题,应该就是 Java 是什么,我们一起来看一下&#xf…

ktutil编写生成keytab文件的脚本、通过keytab文件认证用户

文章目录 1. 生成keytab文件脚本2. 通过keytab文件认证3. 查看认证的用户4. 失效认证的用户 1. 生成keytab文件脚本 生成keytab文件的脚本 vim generate_kb.sh #!/usr/bin/bash ktutil <<EOF add_entry -password -p $1 -k 1 -e arcfour-hmac $2 write_kt $3 EOF示例&am…

C语言系列-带有副作用的宏参数#和##命名约定宏替换的规则

&#x1f308;个人主页: 会编辑的果子君 &#x1f4ab;个人格言:“成为自己未来的主人~” 目录 带有副作用的宏参数 宏替换的规则 宏函数的对比 #和## #运算符 ##运算符 命名约定 #undef 带有副作用的宏参数 当宏参数在宏的定义中出现超过一次的时候&#xff0c;如果…

Offer必备算法07_递归_五道力扣题详解(由易到难)

目录 递归算法原理 ①力扣面试题 08.06. 汉诺塔问题 解析代码 ②力扣21. 合并两个有序链表 解析代码 ③力扣206. 反转链表 解析代码 ④力扣24. 两两交换链表中的节点 解析代码 ⑤力扣50. Pow(x, n) 解析代码 本篇完。 递归算法原理 递归算法个人经验&#xff1a;给…

PHP支持的伪协议

php.ini参数设置 在php.ini里有两个重要的参数allow_url_fopen、allow_url_include。 allow_url_fopen:默认值是ON。允许url里的封装协议访问文件&#xff1b; allow_url_include:默认值是OFF。不允许包含url里的封装协议包含文件&#xff1b; 各协议的利用条件和方法 php:/…

数据结构OJ题——top-k问题:最小的K个数(Java实现)

题目链接&#xff1a;top-k问题&#xff1a;最小的K个数 top-k问题&#xff1a;最小的K个数假 1.方法一2.方法二时间复杂度 3.方法三时间复杂度 1.方法一 各种排序算法&#xff08;由于本文主要讲有关堆的使用&#xff0c;这里不做有关排序算法解决本题的介绍。对于Top-K问题…