AI如何将静态图像转化为动态、逼真的视频?OpenAI 的 Sora 通过时空补丁(spacetime patches)的创新使用给出了答案。
独特的视频生成方法
在生成模型的世界中,我们看到了从 GAN 到自回归和扩散模型的许多方法,它们都有自己的优点和局限性。Sora 现在引入了范式转变,采用了新的建模技术和灵活性,可以处理广泛的持续时间、宽高比和分辨率。
Sora 将 Diffusion 和 Transformer 架构结合在一起创建扩散变压器模型,并能够提供以下功能:
- 文本到视频:正如我们所见
- 图像到视频:为静态图像带来活力
- 视频到视频:将视频风格更改为其他内容
- 及时延长视频:向前和向后
- 创建无缝循环:平铺视频看起来永无止境
- 图像生成:静止图像是一帧的电影(最大2048 x 2048)
- 生成任何格式的视频:从 1920 x 1080 到 1080 x 1920 以及之间的所有格式
- 模拟虚拟世界:如《我的世界》和其他视频游戏
- 创建视频:长度不超过 1 分钟,包含多个短片
想象一下您在厨房里。传统的视频生成模型(例如Pika和RunwayML中的模型)就像严格遵循菜谱的厨师。他们可以制作出精美的菜肴(视频),但受到他们所知道的食谱(算法)的限制。厨师可能专注于烘焙蛋糕(短片)或烹饪面食(特定类型的视频),使用特定的成分(数据格式)和技术(模型架构)。
另一方面,Sora 是一位了解风味基础知识的新型厨师。这位厨师不仅遵循菜谱,而且遵循食谱。他们发明新的。Sora 的原料(数据)和技术(模型架构)的灵活性使 Sora 能够制作各种高质量的视频,类似于大厨的多才多艺的烹饪创作。
Sora技术核心:探索时空补丁
时空补丁是 Sora 创新的核心,它建立在Google DeepMind 对 NaViT和 ViT(Vision Transformers)的早期研究基础上,该研究基于 2021 年的论文An Image is Worth 16x16 Words。
“Vanilla”视觉变压器架构 — Credit Dosovitskiy et al., 2021
传统上,对于Vision Transformers,我们使用一系列图像“补丁”来训练用于图像识别的 Transformer 模型,而不是用于语言 Transformer 的单词。这些补丁使我们能够摆脱卷积神经网络进行图像处理。
帧/图像如何“补丁化” — Credit Dehghani et al., 2023
然而,视觉变换器受到大小和长宽比固定的图像训练数据的限制,这限制了质量并且需要大量的图像预处理。
切片视频时态数据的可视化 — 来源:kitasenjudesign
通过将视频视为补丁序列,Sora 保持了原始的宽高比和分辨率,类似于 NaViT 对图像的处理。这种保存对于捕捉视觉数据的真正本质至关重要,使模型能够从更准确的世界表示中学习,从而赋予 Sora 近乎神奇的准确性。
时空修补(处理)的可视化 — 图片来源:OpenAI (Sora)
该方法使 Sora 能够有效地处理各种视觉数据,而无需调整大小或填充等预处理步骤。这种灵活性确保每条数据都有助于模型的理解,就像厨师如何使用各种原料来增强菜肴的风味一样。
通过时空补丁对视频数据进行详细而灵活的处理,为精确的物理模拟和 3D 一致性等复杂功能奠定了基础。这些功能对于创建不仅看起来逼真而且符合世界物理规则的视频至关重要,让我们一睹人工智能创建复杂、动态视觉内容的潜力。
为Sora提供训练数据:多样化数据在训练中的作用
训练数据的质量和多样性对于生成模型的性能至关重要。现有的视频模型传统上是根据更严格的数据集、更短的长度和更窄的目标进行训练的。
Sora 利用庞大且多样化的数据集,包括不同时长、分辨率和宽高比的视频和图像。它能够重新创建像《我的世界》这样的数字世界,它的训练集中可能还包括来自虚幻或 Unity 等系统的游戏玩法和模拟世界镜头,以便捕获所有角度和各种风格的视频内容。这将 Sora 引入了“通才”模型,就像文本领域的 GPT-4 一样。
这种广泛的培训使 Sora 能够理解复杂的动态并生成多样化且高质量的内容。该方法模仿大型语言模型在不同文本数据上的训练方式,将类似的原理应用于视觉内容以实现通才能力。
可变“补丁”NaVit 与传统视觉 Transformers — Credit Dehghani et al., 2023
正如 NaViT 模型通过将不同图像的多个补丁打包到单个序列中展示了显着的训练效率和性能增益一样,Sora 利用时空补丁在视频生成中实现类似的效率。这种方法允许从庞大的数据集中更有效地学习,提高模型生成高保真视频的能力,同时与现有建模架构相比降低所需的计算量。
将物理世界带入生活:Sora 对 3D 和连续性的掌握
3D 空间和物体持久性是 Sora 演示中的关键亮点之一。通过对各种视频数据进行训练,无需调整或预处理视频,Sora 学会了以令人印象深刻的精度对物理世界进行建模,因为它能够以原始形式使用训练数据。
它可以生成数字世界和视频,其中对象和角色在三维空间中令人信服地移动和交互,即使它们被遮挡或离开框架也能保持连贯性。