AIGC视频生成模型:Runway的Gen系列模型

大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本文详细介绍Runway开发的视频生成模型Gen系列,包括Gen-1、Gen-2和Gen3 Alpha等,这些模型每次发布都震惊AI圈,荣获多个视频生成的“首个”称号。

在这里插入图片描述

🌺优质专栏回顾🌺:

  1. 机器学习笔记
  2. 深度学习笔记
  3. 多模态论文笔记
  4. AIGC—图像

文章目录

  • Runway介绍
  • Gen-1
    • 论文
    • 摘要和介绍
      • 摘要
      • 介绍
    • 训练与推理过程
      • 训练过程
      • 推理过程
    • 实现原理
      • 潜在扩散模型(LDM)
      • 时空潜在扩散(Spatio-temporal Latent Diffusion)
      • 结构与内容的表示(Representing Content and Structure)
        • 条件扩散模型
        • 内容表示
        • 结构表示
        • 调节机制
        • 采样
          • DDIM采样
          • 无分类器扩散引导
          • 两个共享参数模型
        • 优化过程
    • 结果
    • 结论
  • Gen-2
    • 论文
  • Gen-3 Alpha
    • 论文

Runway介绍

首先,我们先来了解下Runway这个企业。Runway是一家成立于2018年的美国人工智能公司,2022年年底,举办首届AI电影节(Runway成立的初衷就是颠覆电影行业)。2023年4月,入选《福布斯2023年AI 50榜单:最有前途的人工智能公司》,在人工智能多个领域有着重大的突破,例如:

  • 2022年8月,与Stability AI等公司一起训练一个举世闻名的图像生成模型Stable Diffusion。
  • 2023年2月发布Gen1,支持视频风格转绘。
  • 2023年6月发布Gen2,开启了文生视频和图生视频的序章。
  • 2024年6月,发布了当时AI视频的王——Gen3【截止发布日期,达到SOTA水平】。

Stable Diffusion模型在之前的“AIGC-图像”系列模型中已经详细介绍。感兴趣的朋友可以参考:SD

至于为什么Stable Diffusion后续的模型由Stability AI发布和主要推进的原因,可以自行查阅【有趣】。

目前,Runway的Gen系列模型主要有Gen-1、Gen-2和Gen3 Alpha等,下面将介绍Gen-1、Gen-2和Gen3 Alpha模型,由于只有Gen-1的论文对外公布了,所以,我们这里详细介绍Gen-1的实现细节。

Gen-1

在2023年2月,Runway提出了首个AI编辑模型Gen-1,Gen-1可以在原视频的基础上,编辑出想要的视频。无论是粗糙的3D动画,还是用手机拍出来的摇摇晃晃的视频,Gen-1都可以将先有的视频转换为一个不可思议新视频。

说到AI编辑模型,可能有人会想到ControlNet。就在 GEN-1 论文发表没几天,正要掀起热度时候,ControlNet横空出世并且开源,完全把Gen-1的风头盖过去了。

论文

论文链接:https://arxiv.org/pdf/2302.03011.pdf
项目主页:https://runwayml.com/research/gen-1

  • 特点:通过应用文本 prompt参考图像指定的任何风格,可将现有视频转化为新视频。是一种结构可控和内容感知引导的视频扩散模型,能够对已有视频进行风格转换、内容编辑等操作,可将输入视频转换为与用户提供的图像或文本提示相匹配的效果,还可以灵活控制模型对视频结构的控制力度,并且能通过自定义的指导方法来调整推理过程,以控制生成视频与原视频的时间一致性。

  • 应用案例:用几个包装盒,Gen-1就可以生成一个工厂的视频。
    在这里插入图片描述

摘要和介绍

摘要

  • 文本引导的生成式扩散模型已用于图像创建和编辑,现扩展到视频生成。由于视频数据的时间特性,这种格式的编辑仍然复杂且耗时。最先进的机器学习模型在改进编辑过程方面显示出了很大的潜力,但这些方法往往在时间一致性和空间细节之间进行权衡。
  • 提出结构和内容引导的视频扩散模型,可依据视觉或文本描述编辑视频,因内容编辑与结构表示解耦不足会有冲突。
  • 作为一个解决方案,Gen-1模型提出了一个可控的结构和内容感知的视频扩散模型,该模型在大规模无字幕视频配对的文本 - 图像数据上进行训练。作者选择用单目深度估计来表征结构,用预训练的神经网络预测的嵌入来表征内容。

单目深度估计是一种仅使用单个摄像头拍摄的图像来估算场景中物体深度信息的技术。

介绍

Gen-1 提出了一种基于潜在视频扩散模型的方法。如下图所示,该方法可根据通过文本(上方)图像(下方) 描述的内容来合成视频,同时保持输入视频(中间) 的结构。

Gen-1的视频编辑有两种方式

  1. 视频-文本对生成新视频:
    • 输入:文本(蓝框)、视频(红框)
    • 输出:新视频(黄框)
  2. 视频-图像对生成新视频:
    • 输入:图像(绿框)、视频(红框)
    • 输出:新视频(灰框)

在这里插入图片描述

作者在视频生成的过程中还提供了几种控制模式:

  • 首先,类似于图像合成模型,训练模型,使得其可以推断视频的内容,例如他们的外观或风格,及匹配用户提供的图像或文本提示。
  • 第二,受扩散过程的启发,我们对结构表示应用信息模糊过程,以能够选择模型对给定结构的遵循程度。
  • 最后,还对推理过程进行了调整,通过自定义指导方法,以及受classifier-free guidance的启发,以控制生成的剪辑的时间一致性,相当于做到了时间、内容、结构三者在一致上的统一对齐。

视频编辑实现原理:

  • 视频的文字引导生成得益于文本引导图像,如 DALL-E2 和 Stable Diffusion,生成的前期工作,毕竟,潜在扩散模型提供了一种 “在感知压缩空间中高效合成图像” 的方法。
  • 通过将时间层引入预训练图像模型,并在图像和视频上进行联合训练,从而将潜在扩散模型拓展到了视频生成领域。
  • 提出了一个结构和内容感知的模型,在样本图像或文本的指导下修改视频。编辑工作完全是在推理期间进行的,不需要额外对每个视频进行训练或预处理。

训练与推理过程

就研究目的而言,从内容和结构的角度来考虑一个视频将是有帮助的。Gen-1模型的目标是保留视频结构的同时,编辑视频内容

  • 结构:指视频的几何、动力学的特征,比如对象的形状、位置以及他们的时间变化
  • 内容:指的是视频外观及其语义的特征,比如对象的颜色、样式以及场景的光亮度

为了实现这一目标,需要在结构表征(用 s s s 表示)和内容表征(用 c c c 表示)的基础上学习视频 x x x 的生成模型 p ( x ∣ s , c ) p(x|s, c) p(xs,c),从而通过输入的视频 x x x 推断出其结构表示 s s s,然后根据编辑视频的描述文本 c c c进行修改。

训练过程

在这里插入图片描述

在训练阶段:

  • 一方面输入视频 x x x 通过固定编码器 E \mathcal{E} E编码为 z 0 z_0 z0,并扩散到 z t z_t zt
  • 另一方面通过对使用MiDaS获得的深度图进行编码来提取结构表示 s s s,并通过使用CLIP对其中一帧进行编码来提取内容表示 c c c

然后,模型在 s s s(与 z t z_t zt 拼接)以及通过交叉注意力块提供的 c c c的帮助下,学习在潜在空间中逆转扩散过程。

推理过程

在这里插入图片描述

在推理阶段:

  • 以相同方式提供输入视频的结构 s s s
  • 为了通过文本指定内容,我们通过先验将CLIP文本嵌入转换为图像嵌入。

实现原理

潜在扩散模型(LDM)

在论文中作者还简要概括了潜在扩散模型的扩散过程,如下所示,DDPM的详细介绍参考:Diffusion Model 原理

前向扩散——加噪:
扩散模型是学习逆转一个固定的前向扩散(加噪)过程,即学习如何去噪,前向扩散(加噪)的公式定义如下:
q ( x t ∣ x t − 1 ) : = N ( x t , 1 − β t x t − 1 , β t I ) ( 1 ) q(x_t|x_{t-1}) := \mathcal{N}(x_t, \sqrt{1 - \beta_t}x_{t-1}, \beta_t\mathcal{I}) \quad (1) q(xtxt1):=N(xt,1βt xt1,βtI)(1)
正态分布的噪声被缓慢添加到每个样本 x t − 1 x_{t-1} xt1以获得 x t x_t xt。前向过程建模了一个固定的马尔可夫链,噪声取决于方差调度 β t \beta_t βt,其中 t ∈ { 1 , … , T } t \in \{1, \ldots, T\} t{1,,T} T T T是我们扩散链中的总步数,且 x 0 : = x x_0 := x x0:=x

反向扩散——去噪
前向扩散的逆过程,即去噪(学习如何预测噪声,并且将预测出的噪声去除)根据以下带有参数 θ \theta θ的方程定义:
p θ ( x 0 ) : = ∫ p θ ( x 0 : T ) d x 1 : T ( 2 ) p_{\theta}(x_0) := \int p_{\theta}(x_{0:T})dx_{1:T} \quad (2) pθ(x0):=pθ(x0:T)dx1:T(2)
p θ ( x 0 : T ) = p ( x T ) ∏ t = 1 T p θ ( x t − 1 ∣ x t ) ( 3 ) p_{\theta}(x_{0:T}) = p(x_T) \prod_{t=1}^{T} p_{\theta}(x_{t-1}|x_t) \quad (3) pθ(x0:T)=p(xT)t=1Tpθ(xt1xt)(3)
p θ ( x t − 1 ∣ x t ) : = N ( x t − 1 , μ θ ( x t , t ) , Σ θ ( x t , t ) ) ( 4 ) p_{\theta}(x_{t-1}|x_t) := \mathcal{N}(x_{t-1}, \mu_{\theta}(x_t, t), \Sigma_{\theta}(x_t, t)) \quad (4) pθ(xt1xt):=N(xt1,μθ(xt,t),Σθ(xt,t))(4)
使用固定方差 Σ θ ( x t , t ) \Sigma_{\theta}(x_t, t) Σθ(xt,t),我们只需学习逆过程的均值 μ θ ( x t , t ) \mu_{\theta}(x_t, t) μθ(xt,t)。训练通常通过对最大似然目标的重加权变分下界进行,从而产生损失函数
L : = E t , q λ t ∥ μ t ( x t , x 0 ) − μ θ ( x t , t ) ∥ 2 ( 5 ) L := \mathbb{E}_{t,q}\lambda_t\|\mu_t(x_t, x_0) - \mu_{\theta}(x_t, t)\|^2 \quad (5) L:=Et,qλtμt(xt,x0)μθ(xt,t)2(5)
其中 μ t ( x t , x 0 ) \mu_t(x_t, x_0) μt(xt,x0)是前向过程后验 q ( x t − 1 ∣ x t , x 0 ) q(x_{t-1}|x_t, x_0) q(xt1xt,x0)的均值, μ θ ( x t , x 0 ) \mu_\theta(x_t, x_0) μθ(xt,x0)是预测的噪声,其具有封闭形式。

均值 μ θ ( x t , t ) \mu_{\theta}(x_t, t) μθ(xt,t)然后由一个UNet架构预测【SD3之前的系列模型的噪声预测也是UNet架构,直到SD3之后才采用了DiT架构】。
潜在扩散模型(LDMs)使用一个自动编码器将扩散过程带入潜在空间。这提供了模型的压缩和生成学习阶段之间的改进分离。

时空潜在扩散(Spatio-temporal Latent Diffusion)

为了正确地对视频帧的分布进行建模,架构必须考虑帧与帧之间的关系。所以作者采用了以下几点:

  1. 通过引入时间层来扩展图像架构,这些时间层仅对视频输入有效。图像和视频模型之间共享所有其他层。自编码器保持固定,并独立处理视频中的每一帧。

  2. UNet由两个主要构建块组成:残差块Transformer块。我们通过添加跨时间的1D卷积和跨时间的1D自注意力将它们扩展到视频。
    在这里插入图片描述

图3. 时间扩展:我们通过在其构建块中添加时间层,将基于图像的UNet架构扩展到视频。我们在其残差块(左)中的每个2D空间卷积之后添加一个1D时间卷积,并且在其每个2D空间注意力块(右)之后添加一个1D时间注意力块。

  • 在每个残差块中的每个 2D 空间卷积之后引入一个1D 时间卷积
  • 在每个空间 2D 空间注意力块后引入一个时间1D 时间注意力块
  1. 将图像视为具有单帧的视频,以便统一处理这两种情况。

对于具有批大小 b b b、帧数 n n n c c c个通道和空间分辨率 w × h w×h w×h(即形状为 b × n × c × h × w b×n×c×h×w b×n×c×h×w)的批张量.

  • 空间层重新排列为 ( b ⋅ n ) × c × h × w (b·n)×c×h×w (bn)×c×h×w
  • 时间卷积重新排列为 ( b ⋅ h ⋅ w ) × c × n (b·h·w)×c×n (bhw)×c×n
  • 时间自注意力重新排列为 ( b ⋅ h ⋅ w ) × n × c (b·h·w)×n×c (bhw)×n×c

结构与内容的表示(Representing Content and Structure)

条件扩散模型

扩散模型非常适合对条件分布(如 p ( x ∣ s , c ) p(x|s,c) p(xs,c))进行建模。在这种情况下,前向过程 q q q保持不变,而条件变量 s s s c c c成为模型的额外输入。

该论文的目标是基于文本提示来编辑输入视频,但是存在下面的问题:

  1. 缺乏高质量的大规模配对视频 - 文本数据集。
  2. 既没有<视频,编辑提示,结果输出>的三元组训练数据,也没有视频和文本字幕的成对数据。

问题1的解决方案是将训练限制在无字幕的视频数据上

问题2的解决方案如下:

  • 在训练期间,从训练视频 x x x本身推导出结构和内容表示,即 s = s ( x ) s = s(x) s=s(x) c = c ( x ) c = c(x) c=c(x),每个示例的损失为:
    λ t ∥ μ t ( E ( x ) t , E ( x ) 0 ) − μ θ ( E ( x ) t , t , s ( x ) , c ( x ) ) ∥ 2 ( 6 ) \lambda_t\|\mu_t(\mathcal{E}(x)_t,\mathcal{E}(x)_0) - \mu_{\theta}(\mathcal{E}(x)_t,t,s(x),c(x))\|^2 \quad (6) λtμt(E(x)t,E(x)0)μθ(E(x)t,t,s(x),c(x))2(6)

  • 在推理期间,结构 s s s和内容 c c c分别从输入视频 y y y和文本提示 t t t中推导出来。通过对基于 s ( y ) s(y) s(y) c ( t ) c(t) c(t)的生成模型进行采样,可获得 y y y的编辑版本 x x x
    z ∼ p θ ( z ∣ s ( y ) , c ( t ) ) , x = D ( z ) ( 7 ) z \sim p_{\theta}(z|s(y),c(t)), \quad x = \mathcal{D}(z) \quad (7) zpθ(zs(y),c(t)),x=D(z)(7)

这是一种弥补数据缺失的方式。这种推导出来的结构和内容表示可以在一定程度上代替三元组训练数据中的部分信息。

内容表示

为了从文本输入 t t t和视频输入 x x x推断内容表示,作者使用CLIP图像嵌入来表示represent content。对于视频输入,在训练期间随机选择输入帧之一。

而且他们还训练一个先验模型,该模型允许从文本嵌入中采样图像嵌入。这种方法能够通过图像输入而不仅仅是文本来指定编辑

结构表示

内容和结构的完美分离是困难的,语义先验可能会影响视频中目标形状。所以可以选择合适的表征引导模型降低语义与结构之间相关性。
作者发现从输入视频帧中提取的深度估计提供了所需的属性,因为与更简单的结构表示相比,它们编码的内容信息显著更少

但是,选择CLIP图像嵌入中的内容和结构信息之间仍然存在根本的重叠,这阻止了涉及对象形状大变化的内容编辑。
可以采用基于模糊算子的信息破坏过程,与添加噪声等其他方法相比,这提高了稳定性。

虽然深度图在我们的用例中效果很好,但我们的方法可推广到其他几何引导特征或特征组合,这些可能对其他特定应用更有帮助。例如,专注于人类视频合成的模型可能会从估计的姿势或面部地标中受益。

调节机制

整理提炼如下

  1. 调节机制概述:为考虑内容和结构的不同特征,采用两种不同调节机制:
    • 结构表示视频帧重要空间信息,所以用拼接方式调节以利用该信息;
    • 内容表示的属性与位置无关,故利用交叉注意力将信息传输到任意位置。
  2. 交叉注意力调节:借助U-Net架构的空间Transformer块进行交叉注意力调节。每个块有两个注意力操作,先执行空间自注意力再执行交叉注意力,且交叉注意力的键和值由CLIP图像嵌入计算得到。
  3. 基于结构的调节
    • 利用MiDaS DPT-Large模型为所有输入帧估计深度图。
    • 对深度图进行 t s t_s ts次模糊和下采样迭代, t s t_s ts控制保留的结构量,训练时在0和 T s T_s Ts间随机采样 t s t_s ts推理时可控制该参数实现不同编辑效果。
    • 将扰动后的深度图重采样到RGB帧分辨率,用 E \mathcal{E} E编码,其潜在表示与U-Net输入 z t z_t zt拼接,同时输入包含 t s t_s ts的正弦嵌入的四个通道。
采样
DDIM采样

作者使用了DDIM采样,这是一种确定性采样方法。

无分类器扩散引导

论文中还使用无分类器扩散引导提升采样质量,无分类器扩散引导(Classifier-Free Diffusion Guidance)公式如下:
μ ~ θ ( x t , t , c ) = μ θ ( x t , t , ∅ ) + ω ( μ θ ( x t , t , c ) − μ θ ( x t , t , ∅ ) ) \tilde{\mu}_{\theta}(x_t,t,c)=\mu_{\theta}(x_t,t,\varnothing)+\omega(\mu_{\theta}(x_t,t,c)-\mu_{\theta}(x_t,t,\varnothing)) μ~θ(xt,t,c)=μθ(xt,t,)+ω(μθ(xt,t,c)μθ(xt,t,))

  • 符号含义
    • μ θ \mu_{\theta} μθ 是一个基于参数 θ \theta θ 的函数,通常在扩散模型中表示在给定时间步 t t t 、输入 x t x_t xt 以及某些条件下的预测均值。
    • x t x_t xt 表示在时间步 t t t 的输入数据,在扩散模型的情境下,它可能是经过噪声扰动后的样本。
    • t t t 是扩散过程中的时间步,用于控制噪声的添加和去除过程。
    • c c c 是条件变量,例如文本提示等,它为模型的预测提供额外的信息。当 c = ∅ c = \varnothing c= 时,表示无条件预测,即模型不依赖于任何特定的条件信息进行预测。
    • ω \omega ω 是一个引导尺度参数,用于控制条件预测和无条件预测之间的权重。

它通过结合无条件预测 μ θ ( x t , t , ∅ ) \mu_{\theta}(x_t,t,\varnothing) μθ(xt,t,) 和条件预测 μ θ ( x t , t , c ) \mu_{\theta}(x_t,t,c) μθ(xt,t,c) 来调整最终的预测 μ ~ θ ( x t , t , c ) \tilde{\mu}_{\theta}(x_t,t,c) μ~θ(xt,t,c)。直观地说, ω \omega ω 越大,条件预测对最终结果的影响就越大,模型会更倾向于根据给定的条件 c c c 进行预测;当 ω = 0 \omega = 0 ω=0 时,最终预测就等于无条件预测。

两个共享参数模型

作者训练两个共享参数模型:视频模型以及图像模型,控制视频帧时间一致性,如下式:
μ ~ θ ( z t , t , c , s ) = μ θ π ( z t , t , ∅ , s ) + ω t ( μ θ ( x t , t , ∅ , s ) − μ θ π ( x t , t , ∅ , s ) ) + ω ( μ θ ( x t , t , c , s ) − μ θ ( x t , t , ∅ , s ) ) ( 8 ) \begin{aligned} \tilde{\mu}_{\theta}(z_t,t,c,s) =&\mu_{\theta}^{\pi}(z_t,t,\varnothing,s)\\ &+\omega_t(\mu_{\theta}(x_t,t,\varnothing,s)-\mu_{\theta}^{\pi}(x_t,t,\varnothing,s))\\ &+\omega(\mu_{\theta}(x_t,t,c,s)-\mu_{\theta}(x_t,t,\varnothing,s)) \end{aligned} \quad (8) μ~θ(zt,t,c,s)=μθπ(zt,t,,s)+ωt(μθ(xt,t,,s)μθπ(xt,t,,s))+ω(μθ(xt,t,c,s)μθ(xt,t,,s))(8)

  • 符号含义
    • μ ~ θ ( z t , t , c , s ) \tilde{\mu}_{\theta}(z_t,t,c,s) μ~θ(zt,t,c,s) 是经过调整后的最终预测,这里的 z t z_t zt 类似于 x t x_t xt,表示在时间步 t t t 的输入数据, c c c 是条件变量, s s s 通常表示结构相关的信息,如深度图等。
    • μ θ π ( z t , t , ∅ , s ) \mu_{\theta}^{\pi}(z_t,t,\varnothing,s) μθπ(zt,t,,s) 表示应用于每个帧的图像模型的无条件预测,它基于输入数据 z t z_t zt 、时间步 t t t 、无特定条件( ∅ \varnothing )以及结构信息 s s s
    • μ θ ( x t , t , ∅ , s ) \mu_{\theta}(x_t,t,\varnothing,s) μθ(xt,t,,s) 是视频模型的无条件预测,基于输入数据 x t x_t xt 、时间步 t t t 、无特定条件以及结构信息 s s s
    • μ θ ( x t , t , c , s ) \mu_{\theta}(x_t,t,c,s) μθ(xt,t,c,s) 是视频模型的条件预测,基于输入数据 x t x_t xt 、时间步 t t t 、条件变量 c c c 以及结构信息 s s s
    • μ θ π ( x t , t , ∅ , s ) \mu_{\theta}^{\pi}(x_t,t,\varnothing,s) μθπ(xt,t,,s)是应用于每个帧的图像模型的无条件预测。它基于参数 θ \theta θ,以时间步 t t t的输入数据 x t x_t xt、无特定条件( ∅ \varnothing )以及结构信息 s s s作为输入,计算得出预测结果。
      • 与视频模型的无条件预测 μ θ ( x t , t , ∅ , s ) \mu_{\theta}(x_t,t,\varnothing,s) μθ(xt,t,,s)类似,区别在于前者是图像模型的预测,后者是视频模型的预测,二者可能在模型结构、对输入数据的处理方式等方面存在差异。
    • μ θ π ( x t , t , c , s ) \mu_{\theta}^{\pi}(x_t,t,c,s) μθπ(xt,t,c,s)可理解为应用于每个帧的图像模型的条件预测。它同样基于参数 θ \theta θ,将时间步 t t t的输入数据 x t x_t xt、条件变量 c c c以及结构信息 s s s作为输入来计算预测结果 。
      • 与视频模型的条件预测 μ θ ( x t , t , c , s ) \mu_{\theta}(x_t,t,c,s) μθ(xt,t,c,s)相对应,二者的不同在于所属模型不同,可能在对条件变量 c c c和结构信息 s s s的融合方式、对输入数据 x t x_t xt的处理策略等方面有所区别,进而导致预测结果的差异。
    • ω t \omega_t ωt ω \omega ω 都是引导尺度参数, ω t \omega_t ωt 用于控制视频模型和图像模型的无条件预测之间的权重, ω \omega ω 用于控制视频模型的条件预测和无条件预测之间的权重。

该公式在第一个公式的基础上,进一步考虑了视频模型和图像模型之间的关系,用于控制输出中的时间一致性。它通过结合图像模型的无条件预测、视频模型的无条件预测以及视频模型的条件预测来得到最终的预测。 ω t \omega_t ωt 可以调节视频模型和图像模型的无条件预测对最终结果的影响,而 ω \omega ω 则控制条件预测的影响程度,从而使得模型在生成过程中能够更好地平衡不同模型的预测结果,实现对时间一致性的控制。

优化过程
  • 训练数据集:使用包含2.4亿张图像的内部数据集和640万个视频片段的自定义数据集。图像批次大小为9216,分辨率有320×320、384×320、448×256及翻转宽高比的相同分辨率,采样概率12.5%;视频批次含8帧,每隔4帧采样,分辨率448×256,总批次大小1152。
  • 训练阶段
    • 基于预训练文本条件潜在扩散模型初始化权重,将条件从CLIP文本嵌入改为CLIP图像嵌入,仅在图像上微调15000步。
    • 引入时间连接,在图像和视频上联合训练75000步。
    • 添加对结构s的条件(固定ts≡0),训练25000步。
    • 恢复训练,ts在0到7间均匀采样,再训练10000步。

结果

论文中对模型进行了多方面的试验和评估,详细请参考原论文,这里阐述一下评估方式:
作者使用来自DAVIS和各种素材视频的视频。为了自动创建编辑提示,我们首先运行BLIP(字幕模型)以获取原始视频内容的描述。然后,再使用GPT-3来生成编辑后的提示。

论文中提到使用了BLIP模型以获取原始视频内容的描述,但是实际上BLIP 主要是用于图片生成字幕,处理视频以生成字幕还需要一些改进,论文中并未详细提及。
BLIP详细介绍参考:多模态论文笔记——BLIP

结论

作者提出基于扩散模型视频生成方法。基于深度估计确保结构一致性,同时利用文本或图片进行内容控制;通过在模型中引入时间连接以及联合图像视频训练确保时间稳定性,通过控制轮次 t s t_s ts 控制结构保留度

Gen-2

在2023年3月,距离Gen-1发布刚一个月,Runway提出了首个多模态视频工作流模型Gen-2,相比Gen-1,Gen-2可以从头开始生成视频,宣传词也是非常炸裂——「say it,see it」。如果说2022年发布的stable diffusion/midjourney是文生图的代表,那Gen2便是文生视频的第一个代表。

GEN-1与GEN-2有何区别,官方给出的答案是:

  • GEN-1使用扩散模型结构和内容引导视频合成,也就是Vedio to Vedio,依赖原始视频素材
  • GEN-2使用文本驱动视频生成,即是Text to Vedio,摆脱原始视频素材依赖,直接由文字生成视频,工具性更强

论文

论文链接:Gen-2论文暂未发布
项目主页:https://runwayml.com/research/gen-2

  • 特点实现了从头开始直接生成视频的技术突破,在原有技术的基础上增加了文本生成视频图片生成视频以及文字和图片共同生成视频的新功能;
  • 应用案例:吸引了派拉蒙和迪士尼等顶级电影制片公司的关注,可用于改进特效制作和多语言配音等方面,如为静态图像添加动态元素,实现口型同步等,可以到项目主页找到更多的应用和实践案例。

Gen-3 Alpha

Gen-3 Alpha 是 Runway 在为大规模多模态训练构建的新基础设施上训练的即将推出的一系列模型中的第一个。与 Gen-2 相比,它在保真度、一致性和动作方面有了重大改进,是朝着构建通用世界模型迈出的一步。

模型于2024年6月发布,但是至今仍未发布论文,此处不进行讲解,后续有想过动态会更新到此处。

论文

论文链接:Gen-3 Alpha论文暂未发布
项目主页:https://runwayml.com/research/introducing-gen-3-alpha

此处分享Gen-3 Alpha发布前后的互联网梗图。
Gen-3未发布之前(和上一代Gen-2隔了一年多):
在这里插入图片描述

Gen-3未发布之后:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/67864.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【JVM-9】Java性能调优利器:jmap工具使用指南与应用案例

在Java应用程序的性能调优和故障排查中&#xff0c;jmap&#xff08;Java Memory Map&#xff09;是一个不可或缺的工具。它可以帮助开发者分析Java堆内存的使用情况&#xff0c;生成堆转储文件&#xff08;Heap Dump&#xff09;&#xff0c;并查看内存中的对象分布。无论是内…

【基于无线电的数据通信链】Link 11 仿真测试

〇、废话 Link 11 仿真测试 涉及多个方面&#xff0c;包括信号仿真、协议模拟、数据链路层的仿真以及网络性能评估等。Link 11 是一种基于 HF&#xff08;高频&#xff09; 或 UHF&#xff08;超高频&#xff09; 波段的无线通信协议&#xff0c;主要用于军事通信系统中。为了…

AG32 FPGA 的 Block RAM 资源:M9K 使用

1. 概述 AG32 FPGA 包含了 4 个 M9K 块&#xff0c;每个 M9K 块的容量为 8192 bits&#xff0c;总计为 4 个 M9K&#xff08;4K bytes&#xff09;。这使得 AG32 的内部存储非常适合嵌入式应用&#xff0c;能够有效地利用片上资源。 M9K 参数 参考自《AGRV2K_Rev2.0.pdf》。…

【算法笔记】力扣热题100(LeetCode hot-100)438. 找到字符串中所有字母异位词 滑动窗口

力扣热题100&#xff08;LeetCode hot-100&#xff09;之 438. 找到字符串中所有字母异位词 本文主要记录算法思路&#xff0c;着急要答案的同学可以直接跳转到最后的代码。 题目 给定两个字符串 s 和 p&#xff0c;找到 s 中所有 p 的 异位词 的子串&#xff0c;返回这些子…

Hadoop•搭建完全分布式集群

听说这里是目录哦 一、安装Hadoop&#x1f955;二、配置Hadoop系统环境变量&#x1f96e;三、验证Hadoop系统环境变量是否配置成功&#x1f9c1;四、修改Hadoop配置文件&#x1f36d;五、分发Hadoop安装目录&#x1f9cb;六、分发系统环境变量文件&#x1f368;七、格式化HDFS文…

【机器人学】2-3.六自由度机器人运动学逆解-工业机器人【附MATLAB代码】

解析解推导 假设有一工业机器人参数如下图所示&#xff1a; matlab代码 clc;clear; %带入机器人初始值 d1 0.670; d4 1.280; d6 0.215;a2 0.312; a3 1.075; a4 0.225;Position[288.1, -433.1, 2832,96.9158, -29.6162, 109.3547]; px Position(1)/1000; py Positio…

ARM学习(42)CortexM3/M4 MPU配置

笔者之前学习过CortexR5的MPU配置,现在学习一下CortexM3/M4 MPU配置 1、背景介绍 笔者在工作中遇到NXP MPU在访问异常地址时,就会出现总线挂死,所以需要MPU抓住异常,就需要配置MPU。具体背景情况可以参考ARM学习(41)NXP MCU总线挂死,CPU could not be halted以及无法连…

PIC单片机HEX文件格式分析

在调试PIC单片机在bootloader程序时&#xff0c;需要将hex文件转换为bin文件&#xff0c;在转换之前先了解一下hex文件中数据是如何定义的。 直接打开一个LED灯闪烁的程序生成的hex文件&#xff0c;芯片型号为PIC18F46K80 可以看到每条数据都是由6部分组成的&#xff0c;下面分…

用户中心项目教程(四)---Vue脚手架完成前端初始化

目录 1.项目的创建 2.使用开发工具打开 3.项目运行方法 4.使用按钮组件 5.全局注册 6.如何进行组件的测试 7.使用组件的效果展示 8.关于这个vue项目内容的说明 1.项目的创建 这个前提你是你完成了我的教程&#xff08;三&#xff09;里面的相关配置&#xff0c;不然你可…

【GitHub】登录时的2FA验证

一、如何进行2FA认证 1.在你的浏览器中下载 Authenticator身份验证插件 2.使用身份验证器添加凭证 2.1 使用身份验证器扫描验证二维码 选择扫描二维码

目标跟踪算法发展简史

单目标跟踪&#xff08;Single Object Tracking&#xff0c;SOT&#xff09;是计算机视觉领域中的一个重要研究方向&#xff0c;旨在在视频序列中持续定位并跟踪一个特定目标。随着计算机视觉和机器学习技术的飞速发展&#xff0c;单目标跟踪算法经历了从经典方法到深度学习的演…

【Java设计模式-7】责任链模式:我是流水线的一员

一、责任链&#xff08;Chain of Responsibility Patten&#xff09;模式是个啥&#xff1f; 想象一下&#xff0c;你要请假。你先把请假申请交给了小组长&#xff0c;小组长一看&#xff0c;这事儿他能决定&#xff0c;就直接批了。要是小组长觉得这事儿得往上汇报&#xff0…

QT调用OpenSceneGraph

OSG和osgQt编译教程&#xff0c;实测通过 一、下载OpenSceneGraph OpenSceneGraphhttps://github.com/openscenegraph/OpenSceneGraph 二、使用CMAKE编译OpenSceneGraph 1.打开cmake&#xff0c;配置源代码目录 2. CMAKE_INSTALL_PREFIX设置为install文件夹&#xff0c;生…

数据结构与算法面试专题——引入及归并排序

数据结构与算法引入 我们都知道数据结构与算法很重要&#xff0c;甚至会将其称为程序员的“内功”&#xff0c;但是我们花了很多时间学的算法和数据结构&#xff0c;好像就只是为了应对算法面试&#xff0c;对日常的开发工作没有什么帮助。 这点对于我们数据工程师来说&#…

《鸿蒙 HarmonyOS 应用开发从入门到精通(第 2 版)》学习笔记 ——HarmonyOS 环境搭建之安装DevEco Studio

作为一款开发工具&#xff0c;除了具有基本的代码开发、编译构建及调测等功能外&#xff0c;DevEco Studio还具有如下特点&#xff1a; 高效智能代码编辑&#xff1a;支持Java、XML、ArkTS、JS、C/C等语言的代码高亮、代码智能补齐、代码错误检查、代码自动跳转、代码格式化、…

电脑办公技巧之如何在 Word 文档中添加文字或图片水印

Microsoft Word是全球最广泛使用的文字处理软件之一&#xff0c;它为用户提供了丰富的编辑功能来美化和保护文档。其中&#xff0c;“水印”是一种特别有用的功能&#xff0c;它可以用于标识文档状态&#xff08;如“草稿”或“机密”&#xff09;、公司标志或是版权信息等。本…

学习记录之原型,原型链

构造函数创建对象 Person和普通函数没有区别&#xff0c;之所以是构造函数在于它是通过new关键字调用的&#xff0c;p就是通过构造函数Person创建的实列对象 function Person(age, name) {this.age age;this.name name;}let p new Person(18, 张三);prototype prototype n…

logback日志自定义占位符

前言 在大型系统运维中&#xff0c;很大程度上是需要依赖日志的。在java大型web工程中&#xff0c;一般都会使用slf4jlogback这一个组合来实现日志的管理。 logback中很多现成的占位符可以可以直接使用&#xff0c;比如线程号【%t】、时间【%d】、日志等级【%p】&#xff0c;…

Android系统开发(八):从麦克风到扬声器,音频HAL框架的奇妙之旅

引言&#xff1a;音浪太强&#xff0c;我稳如老 HAL&#xff01; 如果有一天你的耳机里传来的不是《咱们屯里人》&#xff0c;而是金属碰撞般的杂音&#xff0c;那你可能已经感受到了 Android 音频硬件抽象层 (HAL) 出问题的后果&#xff01;在 Android 音频架构中&#xff0c…

数据恢复常用方法(三)如何辨别固态硬盘故障类型

数据恢复首先需要辨别固态硬盘故障类型&#xff0c;只有先确认故障类型&#xff0c;才能进行下一步动作 如下是一种常见的场景&#xff0c;固态硬盘无法识别&#xff0c;接入电源与数据线&#xff0c;电脑的磁盘管理不显示任何信息。 第一步&#xff1a;确认硬件状态&#xff…