Sora的核心技术预测

在ChatGPT火爆全网的一年后,OpenAI公司又一次大显身手:推出了全新的文生视频大模型Sora。直接输入文字提示词,即可直接生成长达60秒的视频。

“现实真的要不存在了。”

马斯克直接大呼:人类彻底完蛋了!

马斯克为什么这么说?

OpenAI科学家Tim Brooks表示,没通过人类预先设定,Sora就自己通过观察大量数据,自然而然学会了关于3D几何形状和一致性的知识。

从本质上说,Sora的技术,就是机器模拟我们世界的一个里程碑。

外媒Decoder直言:OpenAI令人惊叹的视频模型处女作Sora的诞生,感觉就像是GPT-4时刻。

更有人表示,在Sora之中,我切实感受到了AGI。

各大社交平台瞬间被这句话刷屏,Sora掀起了2024年科技圈的第一场风暴。股市动荡,“就业焦虑”卷土重来。

宛如“灭霸”一般的Sora到底是什么?它给大模型带来了什么样的冲击?

“60秒长度”、“多视角镜头”、“模拟现实世界”,这三个词正是Sora给人带来震撼的核心所在。

此前大模型文生视频的最高成就也只是在4s的边缘挣扎徘徊,但 Sora在保证prompt与视觉呈现效果的前提下,生成了长达一分钟的视频。

如下是一段Sora生成的东京街头场景视频,长达60s:

生成该视频的指令为:

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

(一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿而且有真实的反光效果,在彩色灯光的照射下形成镜面效果。许多行人走来走去。)

这段60s的视频一镜到底,视频中的主要人物呈现效果十分稳定,更意外的是,视频中作为背景辅助的人物视觉效果都很真实。

Open AI官方对这一工作给出的大致解释为:通过一次性地为模型提供多帧预测,完成了当目标主体暂时离开主视野时整体视觉呈现也能稳定不变的目标。

图片

其“真实性”还体现在镜头的丝滑切换上。

此前的大模型文生视频工作基本都是单镜头单生成,而这次Sora生成的视频中创建了多镜头场景、模拟模拟复杂的镜头应用,且准确地保持角色的完美一致性,确保视觉表现的高水准,堪称大模型研发的极大突破。

“模拟现实”当属Sora这次引起火热讨论的一个最重要的突破。

如下是Sora根据“A beautiful silhouette animation shows a wolf howling at the moon, feeling lonely, until it finds its pack.”(一个美丽的剪影动画展示了一只狼对着月亮嚎叫,感到孤独,直到它找到狼群。)这样一段指令生成的视频。

“孤独”这一在现实世界中十分抽象的情绪表达,被AI呈现得惟妙惟肖。你可以说它或许对真实的“孤独”情感还理解不够,但其对于这个指令的答卷足够标准。

颠覆现实,难分真假。只存在于镜花水月中的“元宇宙”概念似乎露出了一缕成型的苗头。

惊人的成果背后必定包含更令人伏地的技术栈。虽然Open AI官方目前公布的技术文档中还缺少一些细节,但也足见其原理和技术的成熟。

在此前大模型的研究中,递归网络、生成对抗网络、自回归Transformer和扩散模型等各种方法都被屡试不鲜。然而,这些工作十分有限,只能生成较短且镜头单一的极小视频。也就是大众所说的“AI味太重”。相比之下,Sora生成的跨越不同持续时间、长达一分钟、且纵横比和分辨率十分高清的图频,到底是怎么完成的呢?

■2.1 采用patches统一训练数据格式

Sora首先通过一个encoder(VAE结构)将视频帧压缩到一个低维度隐式空间(包含时间和空间上的压缩),然后展开成序列的形式送入模型训练,同样的模型预测也是隐式的序列,然后用decoder解码器去解码映射回像素空间形成视频。

有大佬推测,在编码成Spacetime latent patches的过程中Sora可能用到了ViViT的时空编码方式。

■2.2 DiT网络结构

b站up主@ZOMI酱对Sora原理进行了详细剖析:

图片

▲图2|Sora模型结构

总的来说,Sora=[ VAE encoder + DiT (DDPM) + VAE decoder + CLIP ],其中的DiT(即Diffusion Transformer)是比较关键的一个模型结构,其核心是用tansformer结构探索新的扩散模型,成功用transformer替换掉stable diffusion中的U-Net主干,来预测噪声实现去噪。这个替换有以下亮点优势:

● 随着数据规模或者训练时间的增强,模型表现的效果越好(大力出奇迹的前置条件);

● 实验表明,模型越大,patches越小,效果越好。

DiT的详细工作流程如下:

图片

▲图3|DiT模型结构pipeline©️【深蓝AI】

首先将每个 patch 空间表示 Latent 输入到第一层网络,以此将空间输入转换为 tokens 序列。接着将标准基于 ViT 的 Patch 和 Position Embedding 应用于所有输入 token,最后将输入 token 由 Transformer 处理。此外,DiT 还会处理额外信息,例如时间步长、类别标签、文本语义等。

■2.3 世界模型——强大的模拟能力

Sora是否具备世界模型的标准,是大家最为关注的一个话题。根据Open AI目前展示的技术文档得知,Sora能够被衡量为世界模型,是因为其具备以下能力:

●3D一致性:Sora能够生成带有动态摄像头运动的视频。随着摄像头的移动和旋转,人物和场景元素在三维空间中始终保持一致的运动规律。

●较长视频的连贯性和对象持久性:Sora在大部分时间下能够有效地为短期和长期物体间的依赖关系建模。例如,在生成的视频中,人物、动物和物体即使在被遮挡或离开画面后,仍能被准确地保存和呈现。同样地,Sora能够在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观的一致性。

●与世界互动:Sora有时还能以简单的方式模拟影响世界状态的行为。例如,画家可以在画布上留下新的笔触等。

●模拟数字世界:Sora还能够模拟人工过程。Sora可以同时使用基本策略控制Minecraft中的玩家,同时以高保真度渲染世界及其动态。通过提示Sora提到“Minecraft”的标题,可以激发这些能力。

Sora的出现让影视文艺工作者再一次感觉到了无措,“‘AI’是否生来是要与我们为敌?”

曾经在b站风生水起的千万级剪刀手,在Sora面前似乎成了班门弄斧,PR、Ae工程里上百条的帧文件都抵不上一句简单的指令。未来好莱坞的星光大道是否都要为AI让步?

但即便是再有创世意义的成果,在没有大量被使用之前,都有着明确不可忽视的局限性。伴随老生常谈的“取代恐慌”,被人们说了千百遍的“是否真的理解了真实人类世界的规律”也是Sora这次卷面上的空白。

谷歌AI研究员及Keras创始人François Chollet从独特的角度深入分析了Sora模型。他认为,尽管Sora模型融合了物理模型,但模型的准确性和在新环境下的泛化能力才是决定其应用范围的核心因素。Sora并不是完美的,它可能难以准确模拟复杂场景的物理特性,并且可能无法理解因果关系的具体实例。例如,一个人可能会咬一口饼干,但饼干可能没有咬痕。同时,该模型还可能混淆提示的空间细节,例如,左右混淆,并且可能难以精确描述随时间推移发生的事件,例如遵循特定的相机轨迹。

但我们不能否认,Sora所展示的人工智能在理解真实世界场景并与之互动的能力,是朝着实现通用人工智能(AGI)的重要一步。

正如,Runway公司CEO克里斯托瓦尔·巴伦苏埃拉在X平台上发布的简单推文:“Game On(游戏开始了)。”

图片

游戏已经开始,你我都是玩家。虽然Sora目前存在许多局限性,且谷歌、Meta、Runway、百度、字节跳动等国内外公司都尚未推出可与其相争的对手,但借着这一风口,拨开迷障,无论是不让 Sora等一众大模型取代自己,还是借AI之势,找到属于我们的路才是首要之事。

在 Sora 及其技术报告推出后,我们看到了长达 60 秒,高清晰度且画面可控、能多角度切换的高水平效果。在背后的技术上,研究人员训练了一个基于 Diffusion Transformer(DiT)思路的新模型,其中的 Transformer 架构利用对视频和图像潜在代码的时空 patch 进行操作。

正如华为诺亚方舟实验室首席科学家刘群博士所言,Sora 展现了生成式模型的潜力(特别是多模态生成方面)显然还很大。加入预测模块是正确的方向。至于未来发展,还有很多需要我们探索,现在还没有像 Transformer 之于 NLP 领域那样的统一方法。

想要探求未来的路怎么走,我们或许可以先思考一下之前的路是怎么走过的。那么,Sora 是如何被 OpenAI 发掘出来的?

从 OpenAI 的技术报告末尾可知,相比去年 GPT-4 长篇幅的作者名单,Sora 的作者团队更简洁一些,需要点明的仅有 13 位成员:

这些参与者中,已知的核心成员包括研发负责人 Tim Brooks、William Peebles、系统负责人 Connor Holmes 等。这些成员的信息也成为了众人关注的焦点。

比如,Sora 的共同领导者 Tim Brooks,博士毕业于 UC Berkeley 的「伯克利人工智能研究所」BAIR,导师为 Alyosha Efros。

在博士就读期间,他曾提出了 InstructPix2Pix,他还曾在谷歌从事为 Pixel 手机摄像头提供 AI 算法的工作,并在英伟达研究过视频生成模型。

另一位共同领导者 William (Bill) Peebles 也来自于 UC Berkeley,他在 2023 年刚刚获得博士学位,同样也是 Alyosha Efros 的学生。在本科时,Peebles 就读于麻省理工,师从 Antonio Torralba。

值得注意的是,Peebles 等人的一篇论文被认为是这次 Sora 背后的重要技术基础之一。

论文《Scalable diffusion models with transformers》,一看名字就和 Sora 的理念很有关联,该论文入选了计算机视觉顶会 ICCV 2023。

论文链接:https://arxiv.org/abs/2212.09748

不过,这项研究在发表的过程还遇到了一些坎坷。上周五 Sora 发布时,图灵奖获得者、Meta 首席科学家 Yann LeCun 第一时间发推表示:该研究是我的同事谢赛宁和前学生 William Peebles 的贡献,不过因为「缺乏创新」,先被 CVPR 2023 拒绝,后来被 ICCV 2023 接收。

具体来说,这篇论文提出了一种基于 transformer 架构的新型扩散模型即 DiT。在该研究中,研究者训练了潜在扩散模型,用对潜在 patch 进行操作的 Transformer 替换常用的 U-Net 主干网络。他们通过以 Gflops 衡量的前向传递复杂度来分析扩散 Transformer (DiT) 的可扩展性。

研究者发现,通过增加 Transformer 深度 / 宽度或增加输入 token 数量,具有较高 Gflops 的 DiT 始终具有较低的 FID。除了良好的可扩展性之外,DiT-XL/2 模型在 class-conditional ImageNet 512×512 和 256×256 基准上的性能优于所有先前的扩散模型,在后者上实现了 2.27 的 FID SOTA 数据。

目前这篇论文的引用量仅有 191。同时可以看到,William (Bill) Peebles 所有研究中引用量最高的是一篇名为《GAN 无法生成什么》的论文:

当然,论文的作者之一,前 FAIR 研究科学家、现纽约大学助理教授谢赛宁否认了自己与 Sora 的直接关系。毕竟 Meta 与 OpenAI 互为竞争对手。

Sora 成功的背后,还有哪些重要技术?

除此之外,Sora 的成功,还有一系列近期业界、学界的计算机视觉、自然语言处理的技术进展作为支撑。

简单浏览一遍参考文献清单,我们发现,这些研究出自谷歌、Meta、微软、斯坦福、MIT、UC 伯克利、Runway 等多个机构,其中不乏华人学者的成果。

归根结底,Sora 今天的成就源自于整个 AI 社区多年来的求索。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/730821.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

面试题之——事务失效的八大情况

事务失效的八大情况 一、非public修饰的方法 Transactional注解只能在在public修饰的方法下使用。 /*** 私有方法上的注解,不生效(因私有方法Spring扫描不到该方法,所以无法生成代理)*/ Transactional private boolean test() …

每日学习总结20240308

每日总结 20240305 常用控件 QPushButton(按钮):用于触发操作或响应用户点击事件。QLabel(标签):用于显示文本或图像。QLineEdit(行编辑器):单行文本输入框&#xff0…

华为OD机试真题-测试用例执行计划

测试用例执行计划 题目描述: 某个产品当前迭代周期内有N个特性({F1,F2,...,FN})需要进行覆盖测试,每个特性都被评估了对应的优先级,特性使用其ID作为下标进行标识。 设计了M个测试用例({T1,T2,...,TM}),每个用例对应了一个覆盖特…

48、兰州大学、青海师范:专门用于深度CNNs的天阶斗技-ELA Local Attention

本文由兰州大学信息科学与工程学院、青海省物联网重点实验室、青海师范大学于2024年3.2日发表于ArXiv。为了解决现有的注意力模型在有效利用空间信息方面存在的限制和困难,提出了一种高效的局部注意力ELA模型。该方法通过分析坐标注意力的局限性,作者识别…

项目解决方案:多地5G蓄能电站的视频监控联网系统设计方案

目 录 一、前言 二、系统架构设计 1、系统架构设计说明 2、系统拓扑图 三、关键技术 1. 5G支持技术 2. 视频图像处理技术 3. 数据融合与分析技术 四、功能特点 1. 高效可靠 2. 实时监测 3. 远程控制 4. 故障预测 五、应用前景 一、前言 随着能源…

C++泛型实现搜索二叉树

文章目录 二叉搜索树查找插入删除实现应用性能分析 二叉搜索树 二叉搜索树(BST,Binary Search Tree)又称为二叉排序树,空树也算 二叉搜索树有如下性质 若左子树不为空,则左子树上所有节点值小于根节点若右子树不为空…

2575. 找出字符串的可整除数组(Go语言)

https://leetcode.cn/problems/find-the-divisibility-array-of-a-string/ 在看题解之前,我的代码是以下这样: package mainimport ("fmt" )func main() {fmt.Println(divisibilityArray("998244353", 3)) }func divisibilityArray…

供应链管理系统(SCM):得供应链得天下不是空话。

2023-08-26 15:51贝格前端工场 Hi,我是贝格前端工场,优化升级各类管理系统的界面和体验,是我们核心业务之一,欢迎老铁们评论点赞互动,有需求可以私信我们 一、供应链对于企业的重要性 供应链对企业经营的重要性不可…

使用plasmo框架开发浏览器插件,注入contents脚本和给页面添加UI组件

plasmo:GitHub - PlasmoHQ/plasmo: 🧩 The Browser Extension Framework plasmo是一个开发浏览器插件的框架,支持使用react和vue等技术,而且不用手动管理manifest.json文件,框架会根据你在框架中的使用,自…

ChatGPT高效提问——角色提示

ChatGPT高效提问——角色提示 角色提示技巧是一种通过给模型提供具体的角色扮演,指导ChatGPT输出的方法。这个技巧对一个具体的上下文或者听众定制生成的文本很有用。 要使用角色提示技巧,你需要提供明确具体的模型扮演的角色。 例如,如果…

如何在Windows环境下编译OpenOCD

1. 安装Cygwin Windows环境下编译OpenOCD可以是在MinGW-w64/MSYS或Cygwin下,这里选择Cygwin,下载安装Cygwin。 2. 进入OpenOCD源代码目录 打开Cygwin,进入OpenOCD源代码目录,例如代码放在D:\Temp\OpenOCD\openocd-code下&#…

C++学习笔记:AVL树

AVL树 什么是AVL树?AVL树节点的定义AVL树的插入平衡因子调整旋转调整左旋转右旋转左右双旋右左双旋 AVL树完整代码实现 什么是AVL树? AVL是1962年,两位俄罗斯数学家G.M.Adelson-Velskii和E.M.Landis 为了解决如果数据有序或接近有序二叉搜索树将退化为单支树,查找…

限制员工上网行为,如何有效管控员工上网行为? 你一定想不到这个方法!

发现员工上班时间刷抖音: 面对这种情况,领导不得火冒三丈??? 对于员工不恰当的上网行为,非常有可能导致工作效率低下、安全风险增加以及企业形象受损。 因此应该采取一些措施来对员工上网行为进行管理。 …

第三节:在Sashulin中自定义组件

上一节讲解了如何建立一个业务消息流,流程是由组件构成的。目前SMS提供了General、Database、MessageQueue、Socket、WebService、Http、Internet等系列常用组件,如果不满足业务需求,可以进行自定义组件开发。 一、组件开发 1、建立一个Jar…

C及C++每日练习(3)

选择题&#xff1a; 1.以下程序的输出结果是&#xff08;&#xff09; #include <stdio.h> main() { char a[10] {1, 2, 3, 4, 5, 6, 7, 8, 9, 0}, *p; int i; i 8; p a i; printf("%s\n", p - 3); } A.6 B. 6789 C. 6 D.789 对于本题&#xff0…

吴恩达机器学习-可选实验室:特征工程和多项式回归(Feature Engineering and Polynomial Regression)

文章目录 目标工具特征工程和多项式回归概述多项式特征选择功能备用视图扩展功能复杂的功能 恭喜! 目标 在本实验中&#xff0c;你将:探索特征工程和多项式回归&#xff0c;它们允许您使用线性回归的机制来拟合非常复杂&#xff0c;甚至非常非线性的函数。 工具 您将利用在以…

2023最新pytorch安装教程,简单易懂,面向初学者(Anaconda+GPU)

一、前言 目前是2023.1.27,鉴于本人安装过程中踩得坑&#xff0c;安装之前我先给即将安装pytorch的各位提个醒&#xff0c;有以下几点需要注意 1.判断自己电脑是否有GPU 注意这点很重要&#xff0c;本教程面向有NVIDA显卡的电脑&#xff0c;如果你的电脑没有GPU或者使用AMD显…

STM32day3

1.思维导图 1.总结任务的调度算法&#xff0c;把实现代码再写一下 /* Definitions for myTask02 */ osThreadId_t myTask02Handle; uint32_t myTask02Buffer[ 64 ]; osStaticThreadDef_t myTask02ControlBlock; const osThreadAttr_t myTask02_attributes {.name "myTa…

代码随想录算法训练营第三十九天|62.不同路径、63. 不同路径 II

62.不同路径 刷题https://leetcode.cn/problems/unique-paths/description/文章讲解https://programmercarl.com/0062.%E4%B8%8D%E5%90%8C%E8%B7%AF%E5%BE%84.html视频讲解https://www.bilibili.com/video/BV1ve4y1x7Eu/?vd_sourceaf4853e80f89e28094a5fe1e220d9062 题解&…

react的diff源码

react 的 render 阶段&#xff0c;其中 begin 时会调用 reconcileChildren 函数&#xff0c; reconcileChildren 中做的事情就是 react 知名的 diff 过程 diff 算法介绍 react 的每次更新&#xff0c;都会将新的 ReactElement 内容与旧的 fiber 树作对比&#xff0c;比较出它们…