OpenAI Sora视频生成机制:时空补丁

AI如何将静态图像转化为动态、逼真的视频?OpenAI 的 Sora 通过时空补丁(spacetime patches)的创新使用给出了答案。

独特的视频生成方法

在生成模型的世界中,我们看到了从 GAN 到自回归和扩散模型的许多方法,它们都有自己的优点和局限性。Sora 现在引入了范式转变,采用了新的建模技术和灵活性,可以处理广泛的持续时间、宽高比和分辨率。

Sora 将 Diffusion 和 Transformer 架构结合在一起创建扩散变压器模型,并能够提供以下功能:

  • 文本到视频正如我们所见
  • 图像到视频:为静态图像带来活力
  • 视频到视频:将视频风格更改为其他内容
  • 及时延长视频:向前和向后
  • 创建无缝循环:平铺视频看起来永无止境
  • 图像生成:静止图像是一帧的电影(最大2048 x 2048
  • 生成任何格式的视频:从 1920 x 1080 到 1080 x 1920 以及之间的所有格式
  • 模拟虚拟世界:如《我的世界》和其他视频游戏
  • 创建视频:长度不超过 1 分钟,包含多个短片

想象一下您在厨房里。传统的视频生成模型(例如Pika和RunwayML中的模型)就像严格遵循菜谱的厨师。他们可以制作出精美的菜肴(视频),但受到他们所知道的食谱(算法)的限制。厨师可能专注于烘焙蛋糕(短片)或烹饪面食(特定类型的视频),使用特定的成分(数据格式)和技术(模型架构)。

另一方面,Sora 是一位了解风味基础知识的新型厨师。这位厨师不仅遵循菜谱,而且遵循食谱。他们发明新的。Sora 的原料(数据)和技术(模型架构)的灵活性使 Sora 能够制作各种高质量的视频,类似于大厨的多才多艺的烹饪创作。

Sora技术核心:探索时空补丁

时空补丁是 Sora 创新的核心,它建立在Google DeepMind 对 NaViT和 ViT(Vision Transformers)的早期研究基础上,该研究基于 2021 年的论文An Image is Worth 16x16 Words。

“Vanilla”视觉变压器架构 — Credit Dosovitskiy et al., 2021

传统上,对于Vision Transformers,我们使用一系列图像“补丁”来训练用于图像识别的 Transformer 模型,而不是用于语言 Transformer 的单词。这些补丁使我们能够摆脱卷积神经网络进行图像处理。

帧/图像如何“补丁化” — Credit Dehghani et al., 2023

然而,视觉变换器受到大小和长宽比固定的图像训练数据的限制,这限制了质量并且需要大量的图像预处理。

切片视频时态数据的可视化 — 来源:kitasenjudesign

通过将视频视为补丁序列,Sora 保持了原始的宽高比和分辨率,类似于 NaViT 对图像的处理。这种保存对于捕捉视觉数据的真正本质至关重要,使模型能够从更准确的世界表示中学习,从而赋予 Sora 近乎神奇的准确性。

时空修补(处理)的可视化 — 图片来源:OpenAI (Sora)

该方法使 Sora 能够有效地处理各种视觉数据,而无需调整大小或填充等预处理步骤。这种灵活性确保每条数据都有助于模型的理解,就像厨师如何使用各种原料来增强菜肴的风味一样。

通过时空补丁对视频数据进行详细而灵活的处理,为精确的物理模拟和 3D 一致性等复杂功能奠定了基础。这些功能对于创建不仅看起来逼真而且符合世界物理规则的视频至关重要,让我们一睹人工智能创建复杂、动态视觉内容的潜力。

为Sora提供训练数据:多样化数据在训练中的作用

训练数据的质量和多样性对于生成模型的性能至关重要。现有的视频模型传统上是根据更严格的数据集、更短的长度和更窄的目标进行训练的。

Sora 利用庞大且多样化的数据集,包括不同时长、分辨率和宽高比的视频和图像。它能够重新创建像《我的世界》这样的数字世界,它的训练集中可能还包括来自虚幻或 Unity 等系统的游戏玩法和模拟世界镜头,以便捕获所有角度和各种风格的视频内容。这将 Sora 引入了“通才”模型,就像文本领域的 GPT-4 一样。

这种广泛的培训使 Sora 能够理解复杂的动态并生成多样化且高质量的内容。该方法模仿大型语言模型在不同文本数据上的训练方式,将类似的原理应用于视觉内容以实现通才能力。

可变“补丁”NaVit 与传统视觉 Transformers — Credit Dehghani et al., 2023

正如 NaViT 模型通过将不同图像的多个补丁打包到单个序列中展示了显着的训练效率和性能增益一样,Sora 利用时空补丁在视频生成中实现类似的效率。这种方法允许从庞大的数据集中更有效地学习,提高模型生成高保真视频的能力,同时与现有建模架构相比降低所需的计算量。

将物理世界带入生活:Sora 对 3D 和连续性的掌握

3D 空间和物体持久性是 Sora 演示中的关键亮点之一。通过对各种视频数据进行训练,无需调整或预处理视频,Sora 学会了以令人印象深刻的精度对物理世界进行建模,因为它能够以原始形式使用训练数据。

它可以生成数字世界和视频,其中对象和角色在三维空间中令人信服地移动和交互,即使它们被遮挡或离开框架也能保持连贯性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/688711.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华纳云:Nginx的内存池如何实现,有哪些特点

Nginx是一个高性能的开源反向代理服务器和 Web 服务器,它采用了内存池(Memory Pool)的概念来管理内存,以提高性能和降低内存碎片化。Nginx的内存池实现主要基于以下两个核心组件: ngx_pool_t 结构体: Nginx中的内存池由 ngx_pool_…

AI 改造计划进度汇报 2402

AI已经大大提升了我的效率,正好这几天放假没事干,总结出这篇汇报。 AI 技术自媒体 首先是 AI开发和文创的所有路都自动化了。技术文章的翻译已经过半,不出两个月,我就能把我见到的所有技术文章都翻译一遍。 然后我觉得AI不应当…

【C++初阶】值得一刷的字符串string相关oj题

👦个人主页:Weraphael ✍🏻作者简介:目前学习C和算法 ✈️专栏:C航路 🐋 希望大家多多支持,咱一起进步!😁 如果文章对你有帮助的话 欢迎 评论💬 点赞&#x1…

go-zero/grpc的rpc服务间传递额外数据

go-zero/grpc的rpc服务间传递额外数据 2024/02/18 客户端: md : metadata.New(map[string]string{"signature": "0123456789", "timestamp": "2021-07-01 00:00:00"}) ctx : metadata.NewOutgoingContext(ctx, md) addR…

【每天学习一点点 day04】工程化 npm create 脚手架 create-vue, vue-cli 执行原理① - npm cli

希望我们每个人都能找到属于自己的花期,不急不躁,静等风来。 今天打算用 Docusaurus 开始搭建自己的知识库,之前早已有此想法,遗憾的是没有坚持下来。 这次借助这个机会,也计划将自己【每天学习一点点】系列整理在自己…

java面试多线程篇

文章说明 在文档中对所有的面试题都进行了难易程度和出现频率的等级说明 星数越多代表权重越大,最多五颗星(☆☆☆☆☆) 最少一颗星(☆) 1.线程的基础知识 1.1 线程和进程的区别? 难易程度:☆☆…

外贸技巧:怎么挖掘老客户的潜在订单?

做外贸的方法千千万,但是要想让客户重复下单,就需要多花点心思,研究一下策略,采取一些独特措施去再次挖掘他们的潜在订单。来看看这些外贸销售精英都是怎么做的? 01 主动向客户推荐其他产品 Top Sales:新…

代码随想录刷题笔记 DAY 29 | 非递减子序列 No.491 | 全排列 No.46 | 全排列 II No. 47

文章目录 Day 2901. 非递减子序列(No. 491)1.1 题目1.2 笔记1.3 代码 02. 全排列(No. 46)2.1 题目2.2 笔记2.3 代码 03. 全排列 II(No. 47)3.1 题目3.2 笔记3.3 代码 Day 29 01. 非递减子序列(…

UEditorPlus v3.8.0 文档导入支持直接粘贴 Markdown 格式,已知问题修复

UEditor 是由百度开发的所见即所得的开源富文本编辑器,基于MIT开源协议,该富文本编辑器帮助不少网站开发者解决富文本编辑器的难点。 UEditorPlus 是有 ModStart 团队基于 UEditor 二次开发的富文本编辑器,主要做了样式的定制,更…

大模型LLM训练显存消耗详解

参考论文:ZeRO: Memory Optimizations Toward Training Trillion Parameter Models 大模型的显存消耗一直都是面试常见的问题,这次我就彻彻底底的根据论文ZeRO中的调研和分析做一次分析 显存消耗的两个部分:Model States(跟模型的…

离线数仓(三)【业务日志采集平台搭建】

前言 上一篇我们搭建完了用户行为日志数据的采集平台,其实也就是用两个 flume 采集数据到Kafka 中(这种结构只有 source 和 channel 没有 sink) 。离线数仓中的数据除了用户日志,还有就是业务数据了。 1、电商业务简介 1.1 电商…

Mac软件打开提示:已损坏,无法打开。您应该将它移到废纸娄 怎么解决?

新入手的苹果电脑打开软件出现:“已损坏,无法打开。您应该将它移到废纸娄” 或 “已损坏,打不开。推出磁盘映像”。这个怎么解决? 第一部分:(注意:任何来源打开过了的,就直接去看下…

如何管理好一个小团队?

⒈ 团队中的4种人 一个团队里要管好的其实就四种人 ① 千里马型 千里马需要的是草原,而不是草料。这样的人有能力做事,也愿意做事。这种人需要的是授权,授权就是你当老板的要学会当这种人的下属,支援他做事,看他表演…

PYTHON 120道题目详解(85-87)

85.Python中如何使用enumerate()函数获取序列的索引和值? enumerate()函数是Python的内置函数,它可以将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在for循环当中。 以下是一个…

第三百五十三回

文章目录 1. 概念介绍2. 使用方法2.1 获取所有时区2.2 转换时区时间 3. 示例代码4. 内容总结 我们在上一章回中介绍了"分享一些好的Flutter站点"相关的内容,本章回中将介绍timezone包.闲话休提,让我们一起Talk Flutter吧。 1. 概念介绍 我们在…

宠物赛道都卷出了哪些花样?媒介盒子分享

如今的宠物市场,已经从让宠物吃饱喝足的基本生理需求,拓展到五花八门的精神需求,与“马斯洛需求定理”高度一致。商家们看到宠物经济的潜力,不再满足于给人类造节,给毛孩子造节也是重中之重,今天媒介盒子就…

AJAX——HTTP协议

1 HTTP协议-请求报文 HTTP协议:规定了浏览器发送及服务器返回内容的格式 请求报文:浏览器按照HTTP协议要求的格式,发送给服务器的内容 1.1 请求报文的格式 请求报文的组成部分有: 请求行:请求方法,URL…

巨量广告测素材方法分享,如何拿到起量参考数据

测素材,测的是什么? 测素材只有两个目的: 1:测出跑量素材—方向 2:测出跑量素材—数据 方向对投手来说不是核心,从系统和投放的角度把结果数据给做素材的人讲到位就OK 数据是重点,投手一定…

Maven配置ojdbc14-10.2.0.4.0.jar

之前maven工程没什么问题,现在oracle无法加载缺少oracle的jar,选择重新加载 下载对应版本的jar包 下载地址:http://www.pc6.com/softview/SoftView_497161.html 下载后随便放入一个盘,然后改名字 一定要改名字 我的是改成 …

【COMP337 LEC 5-6】

LEC 5 Perceptron &#xff1a; Binary Classification Algorithm 8 感应器是 单个神经元的模型 突触连接的强度取决于接受外部刺激的反应 X input W weights a x1*w1x2*w2....... > / < threshold Bias MaxIter is a hyperparameter 超参数 which has to be chosen…