4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling技术路线

在这里插入图片描述

这篇文章分为四部分,首先从2021年的CLIP说起。
在这里插入图片描述
这篇论文的主要工作是提出了一种名为 CLIP(Contrastive Language-Image Pre-training) 的模型,它通过自然语言监督学习视觉模型,以实现视觉任务的零样本(zero-shot)迁移。CLIP 的核心是通过对比预训练任务来学习图像与文本之间的匹配,从而构建可以泛化到不同视觉任务的表示。具体而言,该模型基于 4 亿对图像和文本配对的巨大数据集进行训练,能有效地从自然语言中学习图像表示,甚至在没有特定任务的数据集训练的情况下也能进行下游任务。

零样本迁移(zero-shot transfer):通过图像和文本的对比学习,CLIP 可以在不进行额外训练的情况下直接在多个现有的计算机视觉数据集上进行推理,并与全监督基线模型相媲美。

统一学习(task-agnostic learning):CLIP 使用自然语言作为训练信号,从广泛的语料中进行监督,学习到可以被广泛应用的视觉概念表示。这种通用性使其能够在多个计算机视觉任务中具备竞争力,而无需特定任务的微调。

对比学习:CLIP 使用对比学习方法来优化图像和文本的匹配度,以此来学习视觉表示。模型学习到的表征可以用于多种下游任务,如 OCR、视频中的动作识别、地理定位、物体分类等。


从论文给的流程图以及伪代码我们可以观察到,CLIP采用一个文本编码和一个图片编码,再计算二者的相关程度,在inference的时候输出最大值对应的类别。

第二篇则是Imagen: 高保真文本到图像生成模型

Imagen: 高保真文本到图像生成模型

这篇论文的主要工作是提出了一个名为 Imagen 的文本到图像生成模型,它结合了大型**预训练语言模型(Pretrained Language Models)和高保真的扩散模型(Diffusion Models)**来生成高质量的照片级真实感(Photorealism)图像,并具有深层次的语言理解能力。Imagen 基于大型语言模型(如 T5)对文本的强大理解能力,以及扩散模型在图像生成中的优越性能,实现了显著的图像-文本对齐能力和图像质量。

主要贡献

在这里插入图片描述

  1. 大规模冻结语言模型的有效性

    • 发现大规模的冻结语言模型在文本编码方面,比图像扩散模型的规模扩展对样本质量的提升更显著。
  2. 引入动态阈值(Dynamic Thresholding)

    • 用于提高指导权重的使用效果,生成更高质量的图像。
  3. 提出高效的 U-Net 变体

    • 提出了一种新的高效 U-Net 变体,改进了模型的收敛速度和内存使用。
  4. 在 COCO 数据集上取得最佳表现

    • 在 COCO 数据集上实现了新的最先进的 FID 分数 7.27。
  5. 引入新的评估基准 DrawBench

    • 提出了一个新的基准 DrawBench,用于评估文本到图像生成模型,提供了更深入的比较与评估。

关键词

  • Imagen: 文本到图像扩散模型,专注于高保真和深度语言理解。
  • Photorealism: 照片级真实感,生成的图像非常接近真实照片。
  • Diffusion Models: 扩散模型,用于高保真的图像生成。
  • Pretrained Language Models: 预训练语言模型,用于编码输入文本。
  • Dynamic Thresholding: 动态阈值,用于改善图像质量和文本对齐。
  • DrawBench: 评估基准,用于深入评估和比较文本到图像模型。

Imagen: Methodology Overview

2.1 预训练文本编码器(Pretrained Text Encoders)

Imagen 采用一个文本编码器将输入文本映射为嵌入序列,并结合级联条件扩散模型将这些嵌入转换为分辨率不断提高的图像。文本到图像模型需要强大的**语义文本编码器(Semantic Text Encoders)**来捕捉任意自然语言文本输入的复杂性和组合性。标准的文本编码器通常在图像-文本配对数据上进行训练,可以从头开始训练【41, 53】,也可以基于图像-文本数据进行预训练【54】,如 CLIP [49]。此外,大型语言模型(Large Language Models, LLMs),如 BERT [15]GPT [47, 48, 7]T5 [52] 也可用于编码文本,这些模型在理解文本和生成文本方面表现出显著进步。Imagen 探索了 BERTT5CLIP 作为文本编码器,并在训练时冻结这些模型的权重,这样可以减少计算需求,提高内存效率。

实验表明,扩展文本编码器的规模可以显著提高文本到图像生成的质量。尽管 T5-XXLCLIP 文本编码器在简单基准(如 MS-COCO)上表现类似,但在人类评估者的测试中,T5-XXL 编码器在图像-文本对齐和图像质量上优于 CLIP

2.2 扩散模型和无分类器指导(Diffusion Models and Classifier-Free Guidance)

扩散模型(Diffusion Models) 是一种通过迭代去噪过程将**高斯噪声(Gaussian Noise)**转换为从学习数据分布中采样的生成模型【63, 28, 65】。这些模型可以是条件模型,例如基于类标签、文本或低分辨率图像的条件【16, 29, 59, 58, 75, 41, 54】。Imagen 采用的扩散模型通过优化去噪目标进行训练,使得在迭代生成时逐步降低噪声水平,最终生成高质量的样本。

无分类器指导(Classifier-Free Guidance)是一种技术,可以通过联合训练条件和无条件目标,随机去掉条件来实现,这避免了使用预训练模型进行采样的复杂性。Imagen 主要依赖无分类器指导来实现文本条件下的有效生成。

2.3 大指导权重采样器(Large Guidance Weight Samplers)

最近的研究表明,增加**无分类器指导权重(Classifier-Free Guidance Weight)可以提高图像与文本的对齐度,但也会导致生成图像的饱和过度和自然度下降【27】。在每个采样步骤中,图像预测必须保持在训练数据的范围内,但高指导权重会导致预测值超出这些范围,进而影响采样效果。为了解决这个问题,Imagen 引入了静态阈值(Static Thresholding)动态阈值(Dynamic Thresholding)**两种方法。

  • 静态阈值(Static Thresholding):将预测值剪裁至 “[-1, 1]” 的范围,以防止生成空白图像,尽管这种方法在高权重下仍会导致图像过饱和。
  • 动态阈值(Dynamic Thresholding):在每个采样步骤中设置一个基于像素绝对值的阈值,将超出该阈值的像素向内推,从而防止每一步的像素饱和。这种方法显著改善了图像的照片级真实感(Photorealism),并增强了图像与文本的对齐能力,尤其是在使用非常大的指导权重时。

2.4 Robust Cascaded Diffusion Models

Imagen 利用一个基础的 64×64 模型,以及两个文本条件超分辨率扩散模型来逐步将生成的 64×64 图像上采样到 256×256 图像,再上采样到 1024×1024 图像。级联扩散模型配合噪声条件增强(Noise Conditioning Augmentation)【29】在逐步生成高保真图像方面表现得非常有效。此外,让超分辨率模型知道添加的噪声量(通过噪声级别条件化)可以显著提高样本质量,并增强超分辨率模型处理低分辨率模型产生的伪影的能力。Imagen 在两个超分辨率模型中都使用了噪声条件增强,这对于生成高保真图像至关重要。

在训练期间,增强级别(Augmentation Level) 是随机选择的,而在推理期间,我们遍历其不同的值来找到最佳样本质量。在本研究中,我们使用高斯噪声作为增强形式,并应用保留方差的高斯噪声增强,类似于扩散模型中使用的前向过程。增强级别由 aug_level ∈ [0, 1] 指定。

2.5 Neural Network Architecture

基础模型(Base Model): 我们采用了来自【40】的 U-Net 架构用于基础的 64×64 文本到图像扩散模型。该网络通过一个池化嵌入向量对文本嵌入进行条件化,并将其添加到扩散时间步嵌入中,类似于【16, 29】中使用的类嵌入条件化方法。我们进一步通过在多个分辨率下添加跨注意力机制(Cross Attention)【57】来对整个文本嵌入序列进行条件化。实验发现,注意力和池化层中的层归一化(Layer Normalization)【2】有助于显著提高性能。

超分辨率模型(Super-Resolution Models): 对于 64×64 → 256×256 的超分辨率,我们使用了从【40, 58】改编的 U-Net 模型。我们对该 U-Net 模型进行了多项修改,以提高内存效率、推理时间和收敛速度(我们的变体在每秒步数上比【40, 58】中使用的 U-Net 快 2-3 倍)。我们称这种变体为高效 U-Net(Efficient U-Net)(更多细节和对比见附录 B.1)。我们的 256×256 → 1024×1024 超分辨率模型在 64×64 → 256×256 的 1024×1024 图像裁剪上进行训练。为了实现这一点,我们移除了自注意力层,但保留了跨注意力层,因为我们发现它们非常关键。在推理过程中,模型接收完整的 256×256 低分辨率图像作为输入,并返回上采样的 1024×1024 图像作为输出。请注意,我们在两个超分辨率模型中都使用了文本跨注意力。

DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION

该研究改进了 Dream Fields 方法,将 CLIP 替换为从二维扩散模型蒸馏得到的损失。具体来说,并引入了得分蒸馏采样(Score Distillation Sampling, SDS),通过最小化具有共享均值的高斯分布家族与预训练扩散模型学习的得分函数之间的 KL 散度,实现了采样。在将 SDS 与针对三维生成任务定制的 NeRF 变体结合后,该方法 DreamFusion 能够根据用户提供的多样化文本提示生成高保真、一致的三维对象和场景。
在这里插入图片描述

方法流程概述
1.初始化神经辐射场(NeRF): 首先,使用随机参数初始化 NeRF 以表示三维场景。此时,NeRF的目标是从噪声分布开始,逐渐学习如何生成三维结构。
2.得分蒸馏采样 (SDS) 优化: 我们使用 SDS 来逐步优化 NeRF的参数。具体而言,我们从文本提示中生成图像嵌入,并通过冻结的扩散模型计算图像的噪声和得分函数。然后,我们计算生成的三维图像与扩散模型输出之间的误差,并基于此误差反向传播更新NeRF 的参数。
3.逐步生成三维结构: 通过多次迭代优化,NeRF 逐渐生成更接近目标的三维结构。每次优化过程中,生成的图像都更符合输入文本提示的内容。
4.最终三维对象生成: 经过足够的迭代后,NeRF 生成的三维对象达到了高保真度和一致性,可以从不同视角呈现出真实感。
这段文本解释了作者提出的用于可行采样的优化方法,称为得分蒸馏采样 (Score Distillation Sampling, SDS),以及它在优化过程中是如何运作的。

主要内容解析

  1. 目标:基于扩散模型进行优化

    • 作者的方法利用了扩散模型的结构,以通过优化损失函数来实现有效的采样。具体来说,作者通过优化参数 ( heta) 使得生成的图像 (x = g( heta)) 看起来像是来自已训练好的扩散模型的样本。这个过程的目标是找到一个使生成图像符合扩散模型分布的参数集合。
  2. 损失函数的选择与难点

    • 为了执行这个优化,作者需要一个可微分的损失函数,类似于 DeepDream 方法(Mordvintsev et al., 2015),即合理的图像具有较低的损失值,不合理的图像则具有较高的损失值。
    • 最初,作者尝试重用扩散模型的训练损失(公式 1),通过最小化生成数据点 (x = g( heta)) 的训练损失来找到学习的条件密度 (p(x|y)) 的模式。
    • 但在实际中,作者发现此损失函数难以生成真实的样本,特别是在使用身份 DIP((x = heta))时表现不佳。这表明这种优化目标的鲁棒性不足,难以调节时间步长等参数。
  3. 原始梯度的计算复杂度与改进

    • 作者进一步分析了损失函数的梯度,梯度计算中包含一个 U-Net 的雅可比矩阵项,这需要通过扩散模型的 U-Net 进行反向传播,计算代价非常高,并且对于小噪声水平,其条件很差。
    • 因此,作者决定忽略 U-Net 雅可比项,提出了一种新的梯度计算方式,使得优化基于扩散模型的可微分图像参数化(DIP)更加有效。
  4. 得分蒸馏采样 (SDS) 的梯度

    • 作者提出的 SDS 的梯度公式为:

在这里插入图片描述

  • 这个梯度通过在时间步 (t) 对应的随机噪声扰动 (x),并估计一个更新方向,使生成的图像更接近扩散模型中的高密度区域。这样的方法在本质上通过不断调整图像的参数 ( heta),使其能够生成更符合输入文本描述的图像。
  1. 损失函数与蒸馏过程的联系
    • 虽然这种梯度的定义看似是启发式的,但作者在附录中证明了,它实际上是基于扩散模型学习的得分函数的加权概率密度蒸馏损失的梯度。这使得该方法在理论上更加稳固,并且通过优化过程使生成图像更加符合输入文本的描述。

综上所述,这段内容主要介绍了 SDS 的核心思想以及如何通过优化损失函数实现从文本到图像的生成。SDS 方法通过忽略高计算成本的雅可比项,并通过加权概率密度蒸馏的方式,实现了有效的梯度优化,使得生成的图像具有更好的真实性和符合性。

4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling

首先看一下相关工作

相关工作:文本到 4D 生成

4D 场景生成

4D 场景生成指的是随着时间的推移对动态 3D 环境进行建模,从而提供一个完整的 4D(3D + 时间)表示。现有的大多数方法主要集中在从文本描述生成 3D 场景,例如众所周知的基于 NeRF 的方法。然而,4D 生成在静态 3D 内容的基础上增加了时间维度,使得在外观、几何和运动的一致性方面的实现变得更加具有挑战性。以前的 4D 场景生成研究通常需要密集的传感器数据或多视角同步摄像头,限制了其实用性。我们的工作 4D-fy 利用预训练的扩散模型从纯文本描述中生成 4D 内容,从而显著减少了对昂贵硬件设备的依赖。

用于生成任务的扩散模型

扩散模型已被广泛应用于各种生成任务,包括**文本到图像(T2I)文本到视频(T2V)**的应用。T2I 扩散模型(如 DALL-EImagenStable Diffusion)在从自然语言提示生成高质量图像方面表现出色。同样,T2V 扩散模型扩展了生成时间动态的能力,使得从文本提示生成一致的视频序列成为可能。**得分蒸馏采样(Score Distillation Sampling, SDS)已被用于优化这些生成模型中的潜在变量。我们提出的混合得分蒸馏采样(Hybrid SDS)**方法结合了多个预训练模型的监督,在视觉质量、空间一致性和动态真实感等方面提供了更优的表现。

文本到 3D 和文本到视频生成

最近在文本到 3D 生成方面的进展主要依赖于利用预训练的扩散模型与类似 NeRF 的体积场景表示相结合。这些方法使用 3D 感知的文本到图像模型,在生成过程中考虑场景的 3D 结构,有效地将图像信息蒸馏为一致的 3D 形式。然而,从 3D 扩展到 4D 需要管理的不仅是静态 3D 属性,还包括场景中与时间相关的变化。另一方面,**文本到视频(T2V)**模型则侧重于生成具有时间一致性的 2D 视频序列,这些模型为创建模拟时间变化的图像序列奠定了基础,这对于实现生成场景的 4D 一致性至关重要。4D-fy 结合了这两种范式——T2V 和 T2I,以实现一致且逼真的 4D 生成。

文本到 4D 生成的挑战

文本到 4D 生成面临的一个最紧迫的挑战是Janus 问题,即当从不同的时间和角度观察对象时,其外观的一致性无法保持,导致不自然的时间过渡。此外,在加入时间变化的同时保持空间一致性也使得生成过程变得极为复杂。现有的 4D 方法通常难以在外观保真度、几何精度和真实运动之间取得平衡。我们的混合 SDS 方法通过在迭代优化过程中平衡这些方面,确保生成的 4D 场景在各个维度上都具有一致性。

在这里插入图片描述
从方法部分来看

方法:文本到 4D 生成

我们的文本到 4D 生成方法基于一种基于哈希编码的神经表示[39],该方法隐式地将场景分解为静态和动态特征网格[64]。在本节中,我们概述了用于 4D 神经渲染的表示方法,并描述了基于HSDS(Hybrid Score Distillation Sampling)的优化过程(见图 3)。

4D 神经渲染

体积神经渲染方法通过使用神经表示来参数化 3D 空间中每个点的光的衰减和发射,从而表示一个场景[36, 38]。我们可以通过从相机投影中心沿每个像素位置向场景中投射射线来渲染图像。对于沿射线采样的点µ ∈ R^3,我们查询神经表示来获取体积密度τ ∈ R+ 和颜色 c ∈ R^3+,分别描述特定点处的光衰减和发射。然后,使用 alpha 合成来恢复渲染像素 C 的颜色:

C = ∑ i w i c i , w i = α ∏ j < i ( 1 − α j ) , C = \sum_i w_i c_i, \quad w_i = \alpha \prod_{j<i} (1 - \alpha_j), C=iwici,wi=αj<i(1αj),

其中:

α i = 1 − e − τ i ∥ μ i − μ i + 1 ∥ 。 \alpha_i = 1 - e^{-\tau_i \| \mu_i - \mu_{i+1} \|}。 αi=1eτiμiμi+1

我们使用附加的时间变量 t 来查询神经表示,这使得能够建模时间变化的密度和颜色。

我们的神经表示由两个多分辨率哈希表组成,分别用于解耦静态和动态场景建模。静态哈希表存储可学习的特征向量,这些向量通过体素查找和哈希操作进行索引,并使用两个小型多层感知器(MLPs)解码为密度和颜色。我们考虑以下形式的神经表示:

N θ : μ , t → τ , c N_\theta : \mu, t \rightarrow \tau, c Nθ:μ,tτ,c

其中θ = {\theta_{\text{static}}, \theta_{\text{dynamic}}, \theta_{\text{MLP}}} 表示所有可学习参数,包括静态和动态哈希表以及 MLPs。

对于给定的μ,我们通过识别每个尺度 1 ≤ s ≤ S 的最近体素来查询静态哈希表。然后,在从哈希表中检索到体素顶点后,对特征值进行三线性插值。每个尺度检索到的特征被拼接为 f static = f static ( 1 ) ⊕ ⋯ ⊕ f static ( S ) f_{\text{static}} = f_{\text{static}}^{(1)} \oplus \cdots \oplus f_{\text{static}}^{(S)} fstatic=fstatic(1)fstatic(S)。对于动态哈希表,我们遵循相同的查询过程,但使用四线性插值。最终,从静态和动态哈希表中检索到的特征被相加为 f = f static + f dynamic f = f_{\text{static}} + f_{\text{dynamic}} f=fstatic+fdynamic。最后,我们通过 MLP 解码得到密度和颜色。

混合得分蒸馏采样(Hybrid SDS)

我们利用 4D 表示和 SDS 来从文本提示创建动态 3D 场景。我们的混合方法结合了三种不同风格的 SDS,这些方法在交替优化过程中被平滑地融合,以提高 4D 模型的结构和质量:

  1. 3D 感知的文本到图像扩散模型的 SDS,用于优化静态场景并避免 Janus 问题
  2. 变分得分蒸馏采样(Variational Score Distillation Sampling, VSD),使用标准文本到图像模型[51]来改善静态场景的外观。
  3. 视频 SDS,使用文本到视频模型[69],将 SDS 扩展到多个视频帧并为场景添加运动。

在以下部分中,我们描述了每种 SDS 及其在文本到 4D 生成中的作用。

3D 感知场景优化

我们首先考虑使用 3D 感知的文本到图像扩散模型[55]的 SDS 来优化静态场景。扩散模型通过向多视角图像逐步添加高斯噪声进行训练,然后反向预测去噪图像,从而为输入场景增加结构。在 3D 感知 SDS 中,我们通过渲染多个图像,添加噪声,然后使用分类器自由引导来预测噪声,最后使用梯度更新神经表示的参数,以优化场景的 3D 结构。

这种方法有效地利用了扩散模型在逐步添加和去除噪声的过程中对图像结构的理解,将其转化为优化场景表示的梯度信息,确保生成的场景在视觉上具有一致性和真实感。

改善外观效果:VSD 方法

我们结合了基于 VSD(变分得分蒸馏) 的附加损失项,以改善从场景中渲染图像的外观。该损失项使用了预训练的文本到图像模型[51],并通过微调方案改进了图像质量,使其超过单独使用 3D 感知文本到图像模型的效果。具体地,我们按照 Wang 等人的方法[71],在场景优化过程中,将输出扩散模型的梯度与标准 SDS 的梯度进行组合。

我们采用以下损失项:

∇ θ L I M G = E t d , ϵ , T [ w ( t d ) ( ϵ ϕ ( z t d ; t d , y ) − ϵ ϕ ′ ( z t d ; t d , y , T ) ) ∂ x θ ∂ θ ] , \nabla_\theta L_{IMG} = E_{t_d, \epsilon, T} \left[ w(t_d) \left( \epsilon_{\phi}(z_{t_d}; t_d, y) - \epsilon'_{\phi}(z_{t_d}; t_d, y, T) \right) \frac{\partial x_\theta}{\partial \theta} \right], θLIMG=Etd,ϵ,T[w(td)(ϵϕ(ztd;td,y)ϵϕ(ztd;td,y,T))θxθ],

其中 ϵ ϕ ′ \epsilon'_{\phi} ϵϕ 是使用经过微调的扩散模型预测的噪声,加入了额外的相机外参 T T T 作为条件。与原始的 VSD 描述不同,我们发现可以省略对多个场景样本的同时优化,从而减少内存需求,而不会显著降低外观质量。

添加运动:视频 SDS

我们使用来自文本到视频扩散模型[69]的监督来为生成场景添加运动。这种方法通过将扩散模型对所有噪声视频帧的结构信息进行结合,扩展了原始 SDS 梯度,具体表示为:

∇ θ L V I D = E t d , ϵ [ w ( t d ) ( ϵ ϕ ( z t d ; t d , y ) − ϵ ) ∂ X θ ∂ θ ] . \nabla_\theta L_{VID} = E_{t_d, \epsilon} \left[ w(t_d) (\epsilon_{\phi}(z_{t_d}; t_d, y) - \epsilon) \frac{\partial X_\theta}{\partial \theta} \right]. θLVID=Etd,ϵ[w(td)(ϵϕ(ztd;td,y)ϵ)θXθ].

为了简化符号,我们重用了 ϵ ϕ \epsilon_{\phi} ϵϕ ϵ \epsilon ϵ 来表示每个视频帧的预测噪声和实际噪声,并让 X θ X_\theta Xθ 是从表示中渲染的一组 V 个视频帧的集合。

优化过程 - 算法 1

我们通过三个阶段来优化 4D 表示,在交替步骤中平滑地融合(1)3D 感知 SDS、(2)VSD 和(3)视频 SDS 的监督。

  • 阶段 1:在优化的第一阶段,我们使用 3D 感知 SDS 的梯度更新 N θ N_\theta Nθ,直到收敛。由于这一阶段侧重于优化静态场景,我们冻结动态哈希表 f dynamic f_{\text{dynamic}} fdynamic 的参数,只更新静态哈希表和解码器 MLP。
    在这里插入图片描述

  • 阶段 2:接下来,我们使用交替优化过程加入 VSD 梯度。在每次迭代中,我们随机选择使用 ∇ θ L 3 D \nabla_\theta L_{3D} θL3D ∇ θ L I M G \nabla_\theta L_{IMG} θLIMG 来更新模型,选择的概率分别为 P 3 D P_{3D} P3D P I M G P_{IMG} PIMG。这一阶段的优化改进了静态场景的外观,同时避免了 Janus 问题
    在这里插入图片描述

  • 阶段 3:最后,我们结合所有梯度更新来更新表示。在每次迭代中,我们随机选择使用 ∇ θ L 3 D \nabla_\theta L_{3D} θL3D ∇ θ L I M G \nabla_\theta L_{IMG} θLIMG ∇ θ L V I D \nabla_\theta L_{VID} θLVID 来更新模型,选择的概率分别为 P 3 D P_{3D} P3D P 3 D ⋅ P I M G P_{3D} \cdot P_{IMG} P3DPIMG 1 − P 3 D ⋅ P I M G 1-P_{3D} \cdot P_{IMG} 1P3DPIMG。由于这一阶段旨在将运动融入表示中,我们在使用 ∇ θ L V I D \nabla_\theta L_{VID} θLVID 更新时解冻动态哈希表的参数,但在使用文本到图像模型更新时保持冻结。我们还降低了静态哈希表的学习率,以保持前一阶段的高质量外观效果。
    在这里插入图片描述

通过这种方式,混合 SDS 有效地结合了每个预训练扩散模型的优势,同时避免了直接组合各模型梯度所带来的质量下降。


关键词对照表

  • 4D Scene Generation - 4D 场景生成
  • Diffusion Models - 扩散模型
  • Text-to-Image (T2I) - 文本到图像(T2I)
  • Text-to-Video (T2V) - 文本到视频(T2V)
  • Score Distillation Sampling (SDS) - 得分蒸馏采样(SDS)
  • Hybrid Score Distillation Sampling (Hybrid SDS) - 混合得分蒸馏采样(Hybrid SDS)
  • Spatial Consistency - 空间一致性
  • Temporal Coherence - 时间一致性
  • Janus Problem - Janus 问题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/56396.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

20 Shell Script输入与输出

标出输入、标准输出、错误输出 一、程序的基本三个IO流 一&#xff09;文件描述符 ​ 任何程序在Linux系统中都有3个基本的文件描述符 ​ 比如: ​ cd/proc/$$/fd ​ 进入当前shell程序对于内核在文件系统的映射目录中: [rootlocalhost ~]# cd /proc/$$/fd [rootlocalhos…

Web集群服务-代理和负载均衡

1. 概述 1. 用户----->代理--->Web节点,后面只有一个节点,一般使用的是nginx代理功能即可 2. 后面如果是集群需要使用nginx负载均衡功能 2. 代理分类 代理分类方向应用正向代理用户(服务器)-->代理--->外部(某网站)服务器通过代理实现共享上网/访问公网反向代理用…

Linux:进程控制(三)——进程程序替换

目录 一、概念 二、使用 1.单进程程序替换 2.多进程程序替换 3.exec接口 4.execle 一、概念 背景 当前进程在运行的时候&#xff0c;所执行的代码来自于自己的源文件。使用fork创建子进程后&#xff0c;子进程执行的程序中代码内容和父进程是相同的&#xff0c;如果子进…

Python基础语法条件

注释 注释的作用 通过用自己熟悉的语言&#xff0c;在程序中对某些代码进行标注说明&#xff0c;这就是注释的作用&#xff0c;能够大大增强程序的可读性。 注释的分类及语法 注释分为两类&#xff1a;单行注释 和 多行注释。 单行注释 只能注释一行内容&#xff0c;语法如下…

跟着小土堆学习pytorch(一)——Dataset

文章目录 一、前言二、dataset三、代码展示 一、前言 pytorch也是鸽了很久了&#xff0c;确定了下&#xff0c;还是用小土堆的教程。 kaggle获取数据集 二、dataset dateset&#xff1a;数据集——提供一种方式去获取数据及其标签 如何获取数据及其标签以及总共多少个数据…

PostgreSQL学习笔记六:模式SCHEMA

模式&#xff08;Schema&#xff09; PostgreSQL中的模式&#xff08;Schema&#xff09;是一个命名的数据库对象集合&#xff0c;包括表、视图、索引、数据类型、函数、存储过程和操作符等。模式的主要作用是组织和命名空间数据库对象&#xff0c;使得同一个数据库中可以包含…

基于gewechat制作第一个微信聊天机器人

Gewe 个微框架 GeWe&#xff08;个微框架&#xff09;是一个创新性的软件开发框架&#xff0c;为个人微信号以及企业信息安全提供了强大的功能和保障。GeWe的设计旨在简化开发过程&#xff0c;使开发者能够高效、灵活地构建和定制通信协议&#xff0c;以满足不同应用场景的需求…

JavaScript object(2)

这样的话&#xff0c;就变成只读了。

外包干了5天,技术明显退步

我是一名本科生&#xff0c;自2019年起&#xff0c;我便在南京某软件公司担任功能测试的工作。这份工作虽然稳定&#xff0c;但日复一日的重复性工作让我逐渐陷入了舒适区&#xff0c;失去了前进的动力。两年的时光匆匆流逝&#xff0c;我却在原地踏步&#xff0c;技术没有丝毫…

Qualitor checkAcesso.php 任意文件上传漏洞复现(CVE-2024-44849)

0x01 漏洞概述 Qualitor 8.24及之前版本存在任意文件上传漏洞,未经身份验证远程攻击者可利用该漏洞代码执行,写入WebShell,进一步控制服务器权限。 0x02 复现环境 FOFA:app="Qualitor-Web" 0x03 漏洞复现 PoC POST /html/ad/adfilestorage/request/checkAcess…

【IC验证】随机约束

1.约束 &#xff08;1&#xff09;注意 一般随机约束只能在类中使用&#xff1b; &#xff08;2&#xff09;实现步骤 在定义变量时&#xff0c;用rand/randc关键字进行修饰&#xff1b; 定义约束&#xff1b; 创建并实例化类后&#xff0c;调用随机约束方法&#xff1b; &am…

光平面标定代码

本篇文章主要给出光平面标定代码&#xff0c;鉴于自身水平所限&#xff0c;如有错误&#xff0c;欢迎批评指正。&#xff08;欢迎进Q群交流&#xff1a;874653199&#xff09; 数据分为棋盘格数据和激光条数据&#xff0c;激光条数据为在第22个位姿至第26个位姿下打在棋盘格标定…

初识Linux之指令(二)

一&#xff1a;head指令 head 与 tail 就像它的名字一样的浅显易懂&#xff0c;它是用来显示开头或结尾某个数量的文字区块&#xff0c;head 用来显示档案的 开头至标准输出中&#xff0c;而 tail 想当然尔就是看档案的结尾。 语法&#xff1a;head 【参数】 【文件】 功能&…

開發 meshtastic 聊天機器人(2)

利用 Web 串接主機附近周邊藍芽(含 meshtastic client) pip install bleak (這個比較簡單) ----另外一個為 pybluez2 (pybluez) 2.程式 import streamlit as st import asyncio from bleak import BleakScannerasync def fetch_data():devices await BleakScanner.discover(…

京存非编存储走进中央民族大学

中央民族大学是一所具有鲜明民族特色的综合性全国重点大学&#xff0c;是国家民委、教育部、北京市共建高校。学校前身为1941年成立的延安民族学院。新中国成立后&#xff0c;经中央政府批准&#xff0c;1951年在北京成立中央民族学院&#xff0c;1993年11月更名为中央民族大学…

【量化交易】聚宽安装

安装JQData 更换源&#xff1a; 如果使用的是pip默认的PyPI源&#xff0c;可以尝试更换为一个更快的国内镜像源。例如阿里云、豆瓣等提供的PyPI镜像。 更改方法可以通过设置环境变量或者在pip命令中直接指定&#xff1a; PS C:\Users\bilirjs\Documents> pip config set …

No.13 笔记 | 网络安全防护指南:从法律法规到技术防御

一、法律法规 《中华人民共和国网络安全法》要点 遵守法律&#xff1a;所有个人和组织在使用网络时&#xff0c;必须遵守宪法和法律&#xff0c;不得利用网络从事危害国家安全等活动。 个人信息保护&#xff1a;禁止非法获取、出售或提供个人信息。若违反但未构成犯罪&#x…

Karmada核心概念

以下内容为翻译&#xff0c;原文地址 Karmada 是什么&#xff1f; | karmada 一、Karmada核心概念 一&#xff09;什么是Karmada 1、Karmada&#xff1a;开放&#xff0c;多云&#xff0c;多集群Kubernetes业务流程 Karmada (Kubernetes Armada)是一个Kubernetes管理系统&…

【NTN 卫星通信】卫星通信的专利

1 概述 好久没有看书了&#xff0c;最近买了本讲低轨卫星专利的书&#xff0c;也可以说是一个分析报告。推荐给喜欢的朋友。 2 书籍截图 图1 封面 图2 波音低轨卫星专利演进 图3 低轨卫星关键技术专利发展阶段 图4 第一页 3 参考文献 产业专利分析报告–低轨卫星通信技术

apisix云原生网关

定义 企业级网关通过域名、路由将请求分发到对应的应用上&#xff0c;通常承载数千个服务的流量&#xff0c;对稳定性有较高要求。 CNCF全景图 选型 Kubernetes抽象出两个核心概念&#xff1a;Service&#xff0c;为多个Pod提供统一的访问入口&#xff1b;Ingress&#xff…