AIGC-VDM -Video Diffusion Models论文解读

homepage:https://video-diffusion.github.io/
paper:https://arxiv.org/pdf/2204.03458
参考:https://zhuanlan.zhihu.com/p/585009571

视频生成方面的扩散模型 论文Video Diffusion Models精读,笔者会多多更新AIGC相关知识!点个关注吧!!谢谢!AIGC-VDM,3D-UNET,unconditional model, text-conditioned model, video prediction model

在这里插入图片描述

CONTRIBUTION

  • 3D-UNET-Architecture: for video data we use a factorized space-time UNet, which is a straightforward extension of the standard 2D UNet used in image diffusion models.
  • Joint image-video training: our factorized UNets can be run on variable sequence lengths and therefore can be jointly trained on both video and image modeling objectives. We find that this joint training, which has the effect of a bias-variance tradeoff on the training objective, is important for video sample quality.
  • Classifier-free guidance: improves sample quality for text conditioned generation, similar to existing work on image modeling.

BACKGROUND

扩散模型的前向过程:满足马尔科夫

  • q ( z t ∣ x ) = N ( z t ; α t x , σ t 2 I ) q(z_t|x) = N(z_t; \alpha_t x, \sigma_t^2 I) q(ztx)=N(zt;αtx,σt2I):在给定数据 x x x 的情况下,潜在变量 z t z_t zt 的分布。

  • q ( z t ∣ z s ) = N ( z t ; ( α t / α s ) z s , σ t ∣ s 2 I ) q(z_t|z_s) = N(z_t; (\alpha_t/\alpha_s)z_s, \sigma^2_{t|s} I) q(ztzs)=N(zt;(αt/αs)zs,σts2I):在给定先前潜在变量 z s z_s zs 的情况下,潜在变量 z t z_t zt 的分布,其中 s < t s < t s<t

  • 0 ≤ s < t ≤ 1 , σ t ∣ s 2 = ( 1 − e λ t − λ s ) σ t 2 0\leq s<t\leq1, \sigma_{t|s}^{2}=(1-e^{\lambda_{t}-\lambda_{s}})\sigma_{t}^{2} 0s<t1,σts2=(1eλtλs)σt2

  • σ t ∣ s 2 = ( 1 − e λ t − λ s ) σ t 2 \sigma_{t|s}^2 = (1 - e^{\lambda_t - \lambda_s})\sigma_t^2 σts2=(1eλtλs)σt2

    • α t , σ t \alpha_t, \sigma_t αt,σt定义了一个可微分的噪声调度,它控制着在前向过程中添加到数据中的噪声量。
    • 这里的 λ t \lambda_t λt 是对数信噪比, λ t = log ⁡ [ α t 2 / σ t 2 ] \lambda_t = \log[\alpha_t^2/\sigma_t^2] λt=log[αt2/σt2],随着时间 t t t 的增加而减少,直到 q ( z 1 ) ≈ N ( 0 , I ) q(z_1) \approx N(0, I) q(z1)N(0,I),即在 t = 1 t = 1 t=1 时, z z z 的分布趋近于标准正态分布。

Learning to reverse the forward process

  • 逆向过程:去噪操作的目标是将 z t ∼ q ( z t ∣ x ) \mathbf{z}_{t}\sim q(\mathbf{z}_{t}|\mathbf{x}) ztq(ztx) 转换为 x ^ θ ( z t , λ t ) \hat{x}_\theta(z_t, \lambda_t) x^θ(zt,λt),这里 x ^ θ \hat{x}_\theta x^θ 是去噪模型的输出,它是一个对 x x x 的估计(为了简化表示,我们通常省略对 λ t \lambda_t λt 的依赖)

  • 加权均方误差损失(Weighted Mean Squared Error Loss)

    • 去噪模型 x ^ θ \hat{x}_\theta x^θ 通过最小化加权均方误差损失来训练: E ϵ , t [ w ( λ t ) ∥ x ^ θ ( z t ) − x ∥ 2 2 ] E_{\epsilon, t} \left[ w(\lambda_t) \|\hat{x}_\theta(z_t) - x\|_2^2 \right] Eϵ,t[w(λt)x^θ(zt)x22]
    • 这个损失函数在时间 t t t 上是均匀采样的, w ( λ t ) w(\lambda_t) w(λt) 是一个根据 λ t \lambda_t λt 调整的权重,用于平衡不同时间步的贡献
    • x ^ θ ( z t ) \hat{x}_\theta(z_t) x^θ(zt):去噪模型的输出,是一个对 x x x的估计
    • 将数据生成问题简化为去噪问题,可以通过优化扩散模型下数据对数似然的加权变分下界,或者作为去噪得分匹配的一种形式。这提供了一种有效的训练方法。
  • ϵ \epsilon ϵ-预测参数化( ϵ \epsilon ϵ-Prediction Parameterization):使用 ϵ \epsilon ϵ-预测参数化来定义去噪模型 x ^ θ ( z t ) = ( z t − σ t ϵ θ ( z t ) ) / α t \hat{x}_\theta(z_t) = (z_t - \sigma_t \epsilon_\theta(z_t))/\alpha_t x^θ(zt)=(ztσtϵθ(zt))/αt,其中 ϵ θ ( z t ) \epsilon_\theta(z_t) ϵθ(zt) 是模型预测的噪声残差。

  • 余弦调度采样(Cosine Schedule Sampling):在 ϵ \epsilon ϵ 空间中,使用均方误差和根据余弦调度采样的时间 t t t 来训练 ϵ θ \epsilon_\theta ϵθ。余弦调度是一种常见的训练策略,有助于在训练过程中平衡不同时间步的贡献。

  • 学习缩放得分估计(Learning a Scaled Score Estimate): 训练过程对应于学习一个缩放的得分估计 ϵ θ ( z t ) ≈ − σ t ∇ z t log ⁡ p ( z t ) \epsilon_\theta(z_t) \approx -\sigma_t \nabla_{z_t} \log p(z_t) ϵθ(zt)σtztlogp(zt),这里 p ( z t ) p(z_t) p(zt) 是在给定 x x x z t z_t zt 的真实分布密度。

  • v v v-预测参数化(v-Prediction Parameterization):对于某些模型,也使用 v v v-预测参数化来训练,这提供了另一种学习去噪模型的方法。

Sampling

  • 离散时间祖先采样器(discrete time ancestral sampler):

    • 逆过程的数学表达:逆过程 q ( z s ∣ z t , x ) q(z_s|z_t, x) q(zszt,x) = N ( z s ; μ ~ s ∣ t ( z t , x ) , σ ~ s ∣ t 2 I ) N(z_s; \tilde{\mu}_{s|t}(z_t, x), \tilde{\sigma}^2_{s|t}I) N(zs;μ~st(zt,x),σ~st2I),其中:

      • 即给定未来的潜在变量 z t z_t zt 和数据 x x x,可以计算出过去潜在变量 z s z_s zs 的分布。这里的 s < t s < t s<t 表示逆过程是从未来向过去进行的
      • μ ~ s ∣ t ( z t , x ) \tilde{\mu}_{s|t}(z_t, x) μ~st(zt,x) 是条件均值,表示在给定 z t z_t zt x x x 的情况下 z s z_s zs 的最佳估计。 μ ~ s ∣ t ( z t , x ) = e λ t − λ s ( α s / α t ) z t + ( 1 − e λ t − λ s ) α s x \tilde{\boldsymbol{\mu}}_{s|t}(\mathbf{z}_t,\mathbf{x})=e^{\lambda_t-\lambda_s}(\alpha_s/\alpha_t)\mathbf{z}_t+(1-e^{\lambda_t-\lambda_s})\alpha_s\mathbf{x} μ~st(zt,x)=eλtλs(αs/αt)zt+(1eλtλs)αsx
      • σ ~ s ∣ t 2 \tilde{\sigma}^2_{s|t} σ~st2 是条件方差,表示在给定 z t z_t zt z s z_s zs 的不确定性。 σ ~ s ∣ t 2 = ( 1 − e λ t − λ s ) σ s 2 . \tilde{\sigma}_{s|t}^{2}=(1-e^{\lambda_{t}-\lambda_{s}})\sigma_{s}^{2}. σ~st2=(1eλtλs)σs2.
    • 采样规则

      • 祖先采样器从 z 1 ∼ N ( 0 , I ) z_1 \sim N(0, I) z1N(0,I) 开始,然后根据规则进行采样:
        z s = μ ~ s ∣ t ( z t , x ^ θ ( z t ) ) + ( σ ~ s ∣ t 2 ) 1 − γ ( σ t ∣ s 2 ) γ ϵ \mathbf{z}_{s}=\tilde{\boldsymbol{\mu}}_{s|t}(\mathbf{z}_{t},\hat{\mathbf{x}}_{\theta}(\mathbf{z}_{t}))+\sqrt{(\tilde{\sigma}_{s|t}^{2})^{1-\gamma}(\sigma_{t|s}^{2})^{\gamma}}\epsilon zs=μ~st(zt,x^θ(zt))+(σ~st2)1γ(σts2)γ ϵ
      • 这里 ϵ \epsilon ϵ 是标准高斯噪声
      • γ \gamma γ 是控制采样器随机性的超参数。
      • s < t s < t s<t,在采样过程中, s s s t t t 遵循从 1 到 0 的均匀间隔序列,这意味着采样器在逆过程中均匀地考虑了从未来到过去的各个时间点。
  • 预测校正采样器(predictor-corrector sampler):预测校正采样器在条件生成中有用,它结合了祖先采样器步骤(4)和Langevin校正步骤:
    z s ← z s − 1 2 δ σ s ϵ θ ( z s ) + δ σ s ϵ ′ \mathbf{z}_s\leftarrow\mathbf{z}_s-\frac{1}{2}\delta\sigma_s\boldsymbol{\epsilon}_\theta(\mathbf{z}_s)+\sqrt{\delta}\sigma_s\boldsymbol{\epsilon}' zszs21δσsϵθ(zs)+δ σsϵ

    • δ \delta δ 是一个步长参数,这里被固定为 0.1
    • z s − 1 2 δ σ s ϵ θ ( z s ) \mathbf{z}_s-\frac{1}{2}\delta\sigma_s\boldsymbol{\epsilon}_\theta(\mathbf{z}_s) zs21δσsϵθ(zs):表示对当前状态 z s z_s zs的一种修正
    • ϵ ′ \epsilon' ϵ 是另一个独立的标准高斯噪声样本。 δ σ s ϵ ′ \sqrt{\delta}\sigma_s\boldsymbol{\epsilon}' δ σsϵ是加上的一个随机扰动
    • Langevin步骤用于校正采样过程,确保生成的样本 z s z_s zs 的边际分布与从 x ∼ p ( x ) \mathbf{x}\sim p(\mathbf{x}) xp(x)开始的前向过程的真实边际相匹配
  • 条件生成设置和无分类器引导(Classifier-Free Guidance)

    • 在条件生成中,数据 x x x 附带有一个条件信号 c c c,这可以是一个类别标签、文本描述或其他类型的条件。要训练一个扩散模型以适应条件分布 p ( x ∣ c ) p(x|c) p(xc),需要将条件信号 c c c 提供给去噪模型 x ^ θ ( z t , c ) \hat{x}_\theta(z_t, c) x^θ(zt,c)
    • 在这种情况下,可以通过使用无分类器指导来提高样本质量,该方法使用调整后的模型预测值 ϵ ~ θ \tilde{\epsilon}_\theta ϵ~θ来进行采样,调整后的预测考虑了条件模型预测和无条件模型预测的组合:
      ϵ ~ θ ( z t , c ) = ( 1 + w ) ϵ θ ( z t , c ) − w ϵ θ ( z t ) \tilde{\epsilon}_\theta(z_t, c) = (1 + w)\epsilon_\theta(z_t, c) - w\epsilon_\theta(z_t) ϵ~θ(zt,c)=(1+w)ϵθ(zt,c)wϵθ(zt)
      • w w w 是引导强度。当 w > 0 w > 0 w>0 时,这种调整会过度强调条件信号 c c c 的影响,从而产生多样性较低但质量更高的样本。
      • ϵ θ ( z t , c ) \epsilon_\theta(z_t, c) ϵθ(zt,c) 是条件模型预测
      • ϵ θ ( z t ) \epsilon_\theta(z_t) ϵθ(zt) 是无条件模型预测
      • 该方法可以被解释为将样本引导到隐式分类器 p ( c ∣ z t ) p(c|z_t) p(czt) 高概率的区域,这是对显式分类器引导方法的改进。

METHODS-VDM

3D-UNET

  • UNET(UNET知识回顾可以调转UNET)

    • 在图像扩散模型中,通常使用U-Net架构,这是一种包含空间下采样和上采样通道的神经网络,并通过跳跃连接与下采样通道的激活相连。U-Net由2D卷积残差块组成,例如Wide ResNet风格,每个卷积块后面跟着一个空间注意力块。

    • 条件信息的提供:条件信息(如类别标签 c c c 和对数信噪比 λ t {λ}_t λt以嵌入向量的形式提供给网络,并在添加到每个残差块之前,通过多个MLP层进行处理。

  • UNET图像模型架构的修改

    • 更改卷积层类型:将原始的二维卷积(2D convolution)改为仅在空间维度上操作的三维卷积(space-only 3D convolution)。
    • 例如,将原来的3x3卷积改为1x3x3卷积。这里的第一个轴索引视频帧,第二个和第三个轴分别索引空间高度和宽度。(由于第一个维度是1所以对时间没有影响只对空间有影响)
    • 3D UNET如图
      • 每个方块都代表一个四维的张量(即frames × height × width × channels)
      • 每个方块的纵轴长度表示张量的长或宽(height or width )
      • 横轴长度表示张量的通道大小(channels)
      • 输入:噪音视频 z t z_t zt,条件 c c c,log SNR λ t \lambda_{t} λt
      • 下采样或上采样中块与块之间的空间分辨率(即height × width)调整比率是2
      • 使用通道乘子(channel multipliers) M 1 , M 2 . . . M k M_1,M_2...M_k M1,M2...Mk来指定通道数目
      • 模型通过卷积和时空分离注意力的方式来处理每一个块,在进行每一步空间上采样时都通过跳跃连接来同对应步骤的下采样过程的特征图进行联系
        [外链图片转存中…(img-PmHdFgQD-1721821973269)]
  • 时空分离注意力(factorized space-time attention)

    • 保留空间注意力块:在每个空间注意力块(spatial attention block)中,注意力仍然是基于空间的;即,第一轴被视为批次轴(batch axis)。这意味着在网络的前几层中,空间信息仍然是重点处理的对象。
    • 引入时间注意力块:在每个空间注意力块之后,插入一个时间注意力块(temporal attention block)。该时间注意块在第一个维度即时间维度(视频帧)上执行注意力,并将空间维度flatten为batch维度
    • 使用相对位置嵌入:使用相对位置嵌入(relative positional embeddings)来区分帧的顺序,而不依赖于视频时间的绝对概念。这使得模型能够捕捉到帧之间的关系和顺序信息。

Reconstruction-guided sampling for improved conditional generation

论文的另一个主要创新是为无条件扩散模型提供了一种条件生成的方法。这种条件生成方法称为梯度条件法(gradient conditioning method)

  • 它修改了扩散模型的采样过程,使用基于梯度优化的方式来改善去噪数据的条件损失(conditioning loss),从而可以让生成的视频通过自回归地方式扩展至更长的时间步和更高的分辨率。

  • 由于梯度条件法中所使用的附加梯度项可以解释为一种额外的指导,而这种指导其实基于模型对条件数据的重建,将该方法称为重建引导采样(reconstruction-guided sampling),或简单地称为重建指导(reconstruction guidance)。

  • generate longer videos by extending our samples

    • 显式训练与近似派生:
      • 是在采样(推理)阶段,我们可以先生成一个16帧的视频 x a ∼ p θ ( x ) \mathbf{x^a}\sim p_\theta(\mathbf{x}) xapθ(x),然后在这个基础上拓展得到第二个视频 x b ∼ p θ ( x b ∣ x a ) \mathbf{x^b}\sim p_\theta(\mathbf{x^b|x^a}) xbpθ(xbxa)这样一来就可以通过自回归的方式拓展采样的视频到任意长度
      • 或者可以选择 x a x_a xa来表示较低帧速率的视频,然后将 x b x_b xb定义为 x a x_a xa的帧之间的那些帧。这允许人们在时间上对视频进行上采样
      • 缺点:但是这2种采样方式需要我们显式地训练一个条件生成模型 p θ ( x b ∣ x a ) p_{\theta}\left(\mathbf{x}^{\mathrm{b}}\mid\mathbf{x}^{\mathrm{a}}\right) pθ(xbxa)或者通过插值的方式从无条件生成模型 p θ ( x ) p_{\theta}(x) pθ(x)近似的推导(后者不需要单独训练模型)
    • 为扩散模型条件采样的替代方法:联合训练扩散模型的条件采样(replacement method)
      • p θ ( x = [ x a , x b ] ) p_\theta\left(\mathbf{x}=\left[\mathbf{x}^\mathrm{a},\mathbf{x}^\mathrm{b}\right]\right) pθ(x=[xa,xb]) ,对两个条件样本进行联合训练
      • z s b z^b_s zsb:采样方法与从 p θ ( z s ∣ z t ) p_{\theta}(\mathbf{z}_{s}|\mathbf{z}_{t}) pθ(zszt)中标准采样方法一样 z s = [ z s a , z s b ] \mathbf{z}_{s}=[\mathbf{z}_{s}^{\mathrm{a}},\mathbf{z}_{s}^{\mathrm{b}}] zs=[zsa,zsb],在扩散模型前向的具体过程中 x b x^b xb对应部分保持正常迭代更替
      • 但是,在每次迭代中, z s a z^a_s zsa的样本被来自正向过程的确切样本 q ( z s a ∣ x a ) q\left(\mathbf{z}_s^\mathrm{a}\mid\mathbf{x}^\mathrm{a}\right) q(zsaxa) q ( z s a ∣ x a , z t a ) q\left(\mathbf{z}_s^\mathrm{a}\mid\mathbf{x}^\mathrm{a},\mathbf{z}_t^\mathrm{a}\right) q(zsaxa,zta)所取代(两者都遵循正确的边缘分布,后者还遵循条件分布),也就是始终需要参考 x a x^a xa
      • 通过去噪模型 x ^ θ ( [ z t a , z t b ] ) \hat{x}_\theta([z^a_t, z^b_t]) x^θ([zta,ztb])的影响, z s b z^b_s zsb的样本将与 z s a z^a_s zsa保持一致。这意味着生成的 x b x_b xb帧将与给定的 x a x_a xa 帧相协调。
  • 优化替换法从而使其适用于视频生成

    • 虽然样本(sample) x b x_b xb单独很好,但它们通常与 x a x_a xa不一致。
    • 论文认为这种替换方式下 x b x^b xb对应的部分的更替仅仅是 x ^ θ b ( z t ) ≈ E q [ x b ∣ z t ] \hat{\mathbf{x}}_{\theta}^{\mathrm{b}}\left(\mathbf{z}_{t}\right)\approx\mathbb{E}_{q}\left[\mathbf{x}^{b}\mid\mathbf{z}_{t}\right] x^θb(zt)Eq[xbzt]
      • 而真正理想的更替应该是 E q [ x b ∣ z t , x a ] \mathbb{E}_q\left[\mathbf{x}^b\mid\mathbf{z}_t,\mathbf{x}^a\right] Eq[xbzt,xa]这样才能够和上一个视频有更好的一致性。
      • 修改后:
        E q [ x b ∣ z t , x a ] = E q [ x b ∣ z t ] + ( σ t 2 / α t ) ∇ z t b log ⁡ q ( x a ∣ z t ) \boxed{\mathbb{E}_q\left[\mathbf{x}^b\mid\mathbf{z}_t,\mathbf{x}^a\right]=\mathbb{E}_q\left[\mathbf{x}^b\mid\mathbf{z}_t\right]+\left(\sigma_t^2/\alpha_t\right)\nabla_{\mathbf{z}_t^b}\log q\left(\mathbf{x}^a\mid\mathbf{z}_t\right)} Eq[xbzt,xa]=Eq[xbzt]+(σt2/αt)ztblogq(xazt)
        • q ( x a ∣ z t ) q(\mathbf{x}^a\mid\mathbf{z}_t) q(xazt):没有封闭形式的解(即无法直接从条件分布中采样,因此需要一种近似方法),用高斯分布来近似:
          q ( x a ∣ z t ) ≈ N [ x ^ θ a ( z t ) , ( σ t 2 / α t 2 ) I ] \boxed{q(\mathbf{x}^{a}|\mathbf{z}_{t})\approx\mathcal{N}[\hat{\mathbf{x}}_{\theta}^{\mathrm{a}}(\mathbf{z}_{t}),(\sigma_{t}^{2}/\alpha_{t}^{2})\mathbf{I}]} q(xazt)N[x^θa(zt),(σt2/αt2)I]
          • x ^ θ a ( z t ) \hat{\mathbf{x}}_{\theta}^{\mathrm{a}}(\mathbf{z}_{t}) x^θa(zt):去噪模型对条件数据 (conditioning data) x a x^a xa的重建,基于潜在变量 z t z_t zt
          • x a x^a xa:条件数据
        • 如果模型是完美的,随着 t 接近 0,这种近似将变得精确。在实验中,即使对于较大的t,这种近似也被证明是有效的。
  • 用于条件采样的去噪模型,reconstruction-guided sampling
    x ~ θ b ( z t ) = x ^ θ b ( z t ) − w r α t 2 ∇ z t b ∥ x a − x ^ θ a ( z t ) ∥ 2 2 . \boxed{\tilde{\mathbf{x}}_\theta^b(\mathbf{z}_t)=\hat{\mathbf{x}}_\theta^b(\mathbf{z}_t)-\frac{w_r\alpha_t}{2}\nabla_{\mathbf{z}_t^b}\|\mathbf{x}^a-\hat{\mathbf{x}}_\theta^a(\mathbf{z}_t)\|_2^2 }. x~θb(zt)=x^θb(zt)2wrαtztbxax^θa(zt)22.

    • 这个是优化后的替换法的变体。这个表达式中的额外梯度项可以被解释为基于模型对条件数据重建的引导形式
    • 实验发现较大的权重因子 w r w_r wr>1会提高采样的样本质量
  • 空间插值(spatial interpolation)(or超分辨率super-resolution)的应用

    • 这种情况下,对模型预测的下采样版本施加均方误差损失 MSE,并通过下采样进行反向传播。
    • 可以利用无条件高分辨率扩散模型 x ^ θ \hat{\mathbf{x}}_\theta x^θ将低分辨率的真实视频 x a x^a xa(例如 64x64 分辨率)上采样为高分辨率视频(例如 128x128 分辨率),调整高分辨率模型如下:
      x ~ θ ( z t ) = x ^ θ ( z t ) − w r α t 2 ∇ z t ∥ x a − x ^ θ a ( z t ) ∥ 2 2 \tilde{\mathbf{x}}_\theta(\mathbf{z}_t)=\hat{\mathbf{x}}_\theta(\mathbf{z}_t)-\frac{w_r\alpha_t}{2}\nabla_{\mathbf{z}_t}\|\mathbf{x}^a-\hat{\mathbf{x}}_\theta^a(\mathbf{z}_t)\|_2^2 x~θ(zt)=x^θ(zt)2wrαtztxax^θa(zt)22
      • x ~ θ ( z t ) \tilde{\mathbf{x}}_\theta(\mathbf{z}_t) x~θ(zt) : 这是调整后的去噪模型输出,用于生成条件样本

      • x ^ θ ( z t ) \hat{\mathbf{x}}_\theta(\mathbf{z}_t) x^θ(zt):这是原始去噪模型的输出,代表在给定潜在变量 z t z_t zt时,模型对数据 x x x的最佳估计

      • x a x^a xa:这是条件数据或参考数据,我们希望生成的样本与之保持一致。

      • x ^ θ a ( z t ) \hat{\mathbf{x}}_\theta^a\left(\mathbf{z}_t\right) x^θa(zt)是我们的模型从 z t z_t zt重建的低分辨率视频,通过使用可微分的下采样算法(如双线性插值)从模型的高分辨率输出获得

      • w r w_r wr:一个权重因子(weighting factor),用于控制梯度项在调整过程中的重要性

  • 自回归扩展:还可以同时对低分辨率视频进行条件化,同时使用相同的重建引导方法在高分辨率下自回归扩展样本。[外链图片转存中…(img-sM1Hb8qI-1721821973272)]

Experiments

无条件视频建模(Unconditional Video Modeling)

  • 作者使用了一个流行的基准测试,即Soomro等人[49]的101种人类活动视频片段集合,来展示他们无条件生成视频的方法。
  • 他们从这个数据集中建模了16帧的短视频片段,并将空间分辨率下采样到64x64。
  • 在表1中,作者展示了他们的模型生成视频的感知质量得分,并与文献中的其他方法进行了比较,发现他们的方法在提高先前最先进方法的基础上有显著改进。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VK39skuV-1721821973273)(https://i-blog.csdnimg.cn/direct/e354072292834544b856178bf723d2c4.png)]

视频预测(Video Prediction)

  • 视频预测是一个常见的基准任务,用于评估视频的生成模型,其中模型被给予视频的第一帧(或几帧),并被要求生成剩余部分。
  • 尽管作者的模型仅在无条件设置下进行训练,但他们可以通过第3.1节中提出的引导方法适应视频预测设置。
  • 作者在两个流行的视频预测基准测试上评估了这种方法,并获得了最先进的结果:
    • BAIR机器人推动(BAIR Robot Pushing)[17]:一个标准的视频基准测试,包含约44000个机器人推动动作的视频。
    • Kinetics-600[27, 9]:包含约40万个训练视频,描绘了600种不同的活动。
      [外链图片转存中…(img-W135xty5-1721821973274)]

文本条件视频生成(Text-Conditioned Video Generation)

  • 在文本条件视频生成设置中,作者使用了包含1000万个带字幕的视频的数据集,并以BERT-large嵌入[15]的形式,通过注意力池化处理来调节扩散模型。
  • 作者考虑了两种模型大小:一个小模型用于联合训练消融研究,一个大模型用于生成其余结果。
  • 他们探讨了联合视频-图像训练、无分类器引导和新提出的重建引导方法对于自回归扩展和同时空间与时间超分辨率的影响。
    [外链图片转存中…(img-T8iRCeoO-1721821973275)]
    [外链图片转存中…(img-ZE73HtIO-1721821973276)]
    [外链图片转存中…(img-qYxC2O4S-1721821973278)]

实验结果的评估

  • 作者使用标准指标,如FVD(Fréchet Video Distance)、FID(Fréchet Inception Distance)和IS(Inception Score)来评估他们的模型。
  • 他们提供了在UCF101数据集上的无条件视频建模结果、在BAIR Robot Pushing和Kinetics-600数据集上的视频预测结果,以及在文本条件视频生成任务上的样本和额外结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/877166.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringCloud Alibaba 微服务(二):Nacos

目录 前言 一、什么是Nacos&#xff1f; 二、Nacos的主要功能 服务发现与注册 配置管理 服务健康监控 集群模式 三、安装Nacos 下载Nacos 初始化Nacos 单机模式 集群模式 访问Nacos 四、服务注册 新建子工程 引入Nacos依赖 配置application.yml 创建启动类 …

内网穿透的应用-中文版个人知识库Trilium笔记本地安装结合内网穿透远程协作

文章目录 前言1. 安装docker与docker-compose2. 启动容器运行镜像3. 本地访问测试4.安装内网穿透5. 创建公网地址6. 创建固定公网地址 前言 今天和大家分享一款在G站获得了26K的强大的开源在线协作笔记软件&#xff0c;Trilium Notes的中文版如何在Linux环境使用docker本地部署…

Linux基础复习(五)

前言 本文介绍了Linux常用命令&#xff0c;接Linux基础复习&#xff08;四&#xff09; 一、常用命令 命令通配符 在Linux中&#xff0c;命令通配符&#xff08;也称为通配符模式或通配符表达式&#xff09;是用来匹配文件名或其他字符串的一种特殊字符。这些通配符可以帮助…

深入解析 GZIP 压缩传输:优化网络性能的利器

个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮箱:[2435024119@qq.com] 📱个人微信:15279484656 🌐个人导航网站:www.forff.top 💡座右铭:总有人要赢。为什么不能是我呢? 专栏导…

访问控制列表(ACL)

文章目录 ACL原理与基本配置ACL分类ACL组成ACL规则的匹配与应用 ACL原理与基本配置 ACL(Access Control List&#xff0c;访问控制列表) 读取二层、三层、四层报文信息根据预先定义好的规则对报文进行过滤和分类实现网络访问控制、防止网络攻击和提高网络带宽利用率等目的提高…

力扣SQL50 上级经理已离职的公司员工 一题双解

Problem: 1978. 上级经理已离职的公司员工 Code -- 方法 1 -- select e1.employee_id -- from employees e1 -- left join employees e2 -- on e1.manager_id e2.employee_id -- where e1.salary < 30000 -- and e1.manager_id is not null -- and e2.employee_id is…

学鸿蒙开发好找工作吗?

学鸿蒙开发是一个非常有潜力的方向&#xff0c;因为鸿蒙系统是华为自主研发的操作系统&#xff0c;随着其在全球范围内的推广和应用&#xff0c;越来越多的企业和组织开始重视并采用这一系统。这使得鸿蒙开发者的市场需求正在持续增长&#xff0c;为鸿蒙开发者提供了更多的就业…

C# 设计倒计时器、串口助手开发

文章目录 1. 实现一个简单的倒计时器开始、暂停2. 串口助手开发 1. 实现一个简单的倒计时器开始、暂停 namespace Timer {public partial class Form1 : Form{int count;//用于定时器计数int time;//存储设定的定时值bool parse false;//控制暂停计时public Form1(){Initiali…

Qt Designer,仿作一个ui界面的练习(一):界面的基本布局

初学不要太复杂&#xff0c;先做一个结构简单的&#xff0c;大致规划一下功能分区&#xff0c;绘制草图&#xff1a; 最终的效果&#xff1a; 界面主要由顶边栏、侧边栏、内容区构成。顶边栏左边是logo&#xff0c;右边是时钟显示。侧边栏最上边是切换按钮&#xff0c;用以动画…

Qt中对象树机制的优点以及潜在的隐患

目录 一、什么是对象树 二、对象树的优点 三、对象树潜在的隐患 一、什么是对象树 Qt中的 QObject 会用对象树来组织管理自己&#xff0c;那什么是对象树? 这个概念非常好理解。因为 QObject 类就有一个私有变量 QList<QObject *>&#xff0c;专门存储这个类的子孙后…

centos7-8/redhat7-8一键安装配置vsftp服务

1.脚本介绍 1.1.介绍&#xff1a; linux下一键安装及配置vsftpd服务 &#xff0c;通过执行install.sh脚本&#xff0c;脚本会根据参数区域的值执行安装和配置vsftp服务&#xff0c;安装后会创建一个默认ftp用户wangxf密码wangxf2023 1、支持自定义安装(更改脚本内参数值) 2、…

一篇文章带你入门爬虫并编写自己的第一个爬虫程序

一、引言 目前我们处在一个信息快速迭代更新的时代&#xff0c;海量的数据以大爆炸的形式出现在网络之中&#xff0c;相比起过去那个通过广播无线电、书籍报刊等传统媒介获取信息的方式&#xff0c;我们现在通过网络使用搜索引擎几乎可以获得任何我们需要的信息资源。 但与此同…

优化mac outlook通过nginx反向代理后使用ews访问Exchange 2016邮件访问速度慢的有效方法

在nginx配置exchange的反向代理后,mac系统上通过exchange邮箱,通过nginx代理连接邮箱,发现速度很慢,通过查看日志,也存在大量的401失败日志。通过不断的优化和尝试,目前来看,基本上正常了,基本上没有出现大量访问失败的问题。以下就是优化过程中尝试过的方法。 1. 身份…

【精通Redis】Redis命令详解

引言 Redis是一个内存数据库&#xff0c;在学习它的内部原理与实现之前&#xff0c;我们首先要做到的就是学会使用&#xff0c;学会其丰富的命令操作。 一、字符串 Redis的字符串类型之前笔者的一篇入门介绍中曾经说过&#xff0c;不是简单的只存人可以阅读的字符串&#xf…

【前端 19】使用Vue-CLI脚手架构建Vue2项目

使用Vue CLI构建Vue 2项目 引言 Vue.js 是一个构建用户界面的渐进式JavaScript框架&#xff0c;以其轻量级和易用性受到前端开发者的广泛喜爱。Vue CLI&#xff08;Vue Command Line Interface&#xff09;是一个基于Vue.js进行快速开发的完整系统&#xff0c;提供了零配置的项…

数据结构之线性表(顺序表的实现)

目录 一、线性表的原理 二、线性表的实现&#xff08;顺序表&#xff09; 1.定义顺序表 2.初始化顺序表 3.判断顺序表是否为空 4.获取顺序表的长度 5.向顺序表中插入元素 6.删除指定位置的元素 7.遍历顺序表 8.得到指定位置的元素 三、打印测试功能 1.测试 2.结果…

全球相机控制面板市场展望与未来增长机遇:预计未来六年年复合增长率CAGR为4.3%

在全球摄影器材和专业影像设备需求增长的背景下&#xff0c;相机控制面板正成为市场的焦点。本文详细分析了全球相机控制面板市场的现状、增长趋势及未来前景&#xff0c;旨在为投资者和业内人士提供深入的市场洞察和指导。 市场概览 据恒州诚思团队研究分析显示&#xff0c;2…

RK3568笔记四十七:PWM 子系统

若该文为原创文章&#xff0c;转载请注明原文出处。 pwm 子系统功能单一&#xff0c;很少单独使用&#xff0c;一般用于控制显示屏的背光、控制无源蜂鸣器、伺服电机、电压调节等等。 一、PWM介绍 PWM(Pulse width modulation)&#xff0c;脉冲宽度调制。在内核中 PWM 驱动较简…

学习大数据DAY26 简单数据清洗练习和 Shell 脚本中的数据库编程

目录 上机练习 14 mysql 命令 sql 语句实现步骤 shell 脚本导入 csv 格式文件到 mysql 数据库 secure-file-priv 特性 把文件拷贝到 mysql 指定目录下 上机练习 15 mysqldump 命令 上机练习 16 上机练习 14 运用上一节课学的 Shell 工具完成 1. 清洗数据《infotest.t…

CentOS7 yum报错Cannot find a valid baseurl for repo

问题 Loaded plugins: fastestmirror Determining fastest mirrors Could not retrieve mirrorlist http://mirrorlist.centos.org/?release7&archx86_64&repoos&infravag error was 14: curl#6 - "Could not resolve host: mirrorlist.centos.org; Unknown…