【AIGC】2022-CVPR-利用潜在扩散模型进行高分辨率图像合成

2022-CVPR-High-Resolution Image Synthesis with Latent Diffusion Models

利用潜在扩散模型进行高分辨率图像合成
- 摘要
- 1. 引言
- 2. 相关工作
- 3. 方法
- - 3.1. 感知图像压缩
  - 3.2. 潜在扩散模型
  - 3.3. 调节机制
- 4. 实验
- - 4.1. 关于感知压缩权衡
  - 4.2. 利用潜在扩散生成图像
  - 4.3. 条件潜在扩散
  - - 4.3.1 LDM 的 Transformer 编码器
    - 4.3.2 超过 ${256}^{2}$ 的卷积采样
  - 4.4. 利用潜在扩散实现超分辨率
  - 4.5. 利用潜在扩散进行修复
- 5. 结论
- 参考文献

利用潜在扩散模型进行高分辨率图像合成

作者：Robin Rombach，Andreas Blattmann，Dominik Lorenz，Patrick Esser，Bjorn Ommer
单位：Ludwig Maximilian University of Munich & IWR，Heidelberg University，Germany，Runway ML
论文地址：2022-CVPR-High-Resolution Image Synthesis with Latent Diffusion Models

摘要

通过将图像形成过程分解为去噪自动编码器的顺序应用，扩散模型（DM）在图像数据及其他方面实现了最先进的合成结果。此外，它们的公式允许使用引导机制来控制图像生成过程而无需重新训练。但是，由于这些模型通常直接在像素空间中运行，因此强大的 DM 的优化通常需要数百个 GPU 天，并且由于顺序评估，推理成本高昂。为了在有限的计算资源上进行 DM 训练，同时保持其质量和灵活性，我们将它们应用于强大的预训练自动编码器的潜在空间。与以前的工作相比，在这样的表示上训练扩散模型首次允许在复杂性降低和细节保留之间达到接近最佳点，从而大大提高了视觉保真度。通过在模型架构中引入交叉注意层，我们将扩散模型转变为强大而灵活的生成器，用于一般条件输入（例如文本或边界框），并且可以通过卷积方式实现高分辨率合成。我们的潜在扩散模型（LDM）在图像修复和类条件图像合成方面取得了新的最先进分数，并在各种任务（包括无条件图像生成、文本到图像合成和超分辨率）上具有极具竞争力的性能，同时与基于像素的 DM 相比显着降低了计算要求。

1. 引言

图 1

图 1. 使用不太激进的下采样提高可实现质量的上限。由于扩散模型为空间数据提供了出色的归纳偏差，因此我们不需要在潜在空间中对相关生成模型进行大量空间下采样，但仍可以通过合适的自动编码模型大大降低数据的维数，请参阅第 3 节。图像来自 DIV2K [1] 验证集，评估尺寸为 512^2 像素。我们用 f 表示空间下采样因子。重建 FID [28] 和 PSNR 是在 ImageNet-val 上计算的。[12]；另见表 8。

图像合成是近年来发展最为迅猛的计算机视觉领域之一，但也是计算需求最大的领域之一。尤其是复杂自然场景的高分辨率合成，目前主要由基于似然度的扩展模型主导，自回归（AR）Transformer 中可能包含数十亿个参数 [64,65]。相比之下，GAN [3, 26, 39] 的良好结果已被揭示主要局限于可变性相对有限的数据，因为它们的对抗性学习过程不易扩展到建模复杂的多模态分布。最近，基于去噪自动编码器层次结构的扩散模型 [79] 已在图像合成 [29,82] 及其他领域 [7,44,47,56] 中表现出令人印象深刻的效果，并定义了类条件图像合成 [15,30] 和超分辨率 [70] 的最新技术。此外，与其他类型的生成模型 [19,45,67] 相比，即使是无条件 DM 也可以轻松应用于诸如修复和着色 [82] 或基于笔触的合成 [52] 等任务。作为基于似然性的模型，它们不会像 GAN 那样表现出模式崩溃和训练不稳定性，并且通过大量利用参数共享，它们可以对自然图像的高度复杂分布进行建模，而无需像 AR 模型 [65] 那样涉及数十亿个参数。

使高分辨率图像合成民主化（Democratizing High-Resolution Image Synthesis）。DM 属于基于似然性的模型类，其模式覆盖行为使其容易花费过多的容量（从而花费过多的计算资源）来对数据中难以察觉的细节进行建模 [16, 71]。尽管重新加权变分目标 [29] 旨在通过对初始去噪步骤进行欠采样来解决此问题，但 DM 仍然需要大量计算，因为训练和评估这样的模型需要在 RGB 图像的高维空间中重复进行函数评估（和梯度计算）。例如，训练最强大的 DM 通常需要数百个 GPU 天（例如 [15] 中的 150 1000 个 V100 天），并且在输入空间的噪声版本上重复评估也会使推理成本高昂，因此在单个 A100 GPU 上生成 50k 个样本大约需要 5 天 [15]。这对研究界和普通用户有两个影响：首先，训练这样的模型需要大量的计算资源，而这些资源只有该领域的一小部分人才能获得，而且会留下巨大的碳足迹 [63, 83]。其次，评估已经训练好的模型也会耗费大量的时间和内存，因为相同的模型架构必须按顺序运行大量的步骤（例如 [15] 中的 25 - 1000 个步骤）。

为了提高这种强大模型类的可访问性，同时减少其巨大的资源消耗，需要一种方法来降低训练和采样的计算复杂度。因此，在不损害 DM 性能的情况下减少 DM 的计算需求是提高其可访问性的关键。

出发至潜在空间（Departure to Latent Space）。我们的方法从分析像素空间中已训练的扩散模型开始：图 2 显示了已训练模型的速率失真权衡。与任何基于可能性的模型一样，学习大致可分为两个阶段：第一阶段是感知压缩阶段，该阶段会删除高频细节，但仍会学习很少的语义变化。在第二阶段，实际的生成模型会学习数据的语义和概念组成（语义压缩）。因此，我们的目标是首先找到一个感知等效但计算上更合适的空间，我们将在其中训练用于高分辨率图像合成的扩散模型。

按照惯例 [11, 23, 64, 65, 93]，我们将训练分为两个不同的阶段：首先，我们训练一个自动编码器，它提供一个低维（因而是高效的）表征空间，该空间在感知上等同于数据空间。重要的是，与以前的工作 [23,64] 相比，我们不需要依赖过度的空间压缩，因为我们在学习到的潜在空间中训练 DM，这在空间维度方面表现出更好的缩放属性。降低的复杂度还提供了通过单个网络传递从潜在空间高效生成图像的功能。我们将生成的模型称为潜在扩散模型（LDM）。

图 2

图 2. 说明感知和语义压缩：数字图像的大多数比特对应于不可察觉的细节。虽然 DM 可以通过最小化负责损失项来抑制这种语义上无意义的信息，但梯度（在训练期间）和神经网络主干（训练和推理）仍然需要在所有像素上进行评估，从而导致多余的计算和不必要的昂贵优化和推理。我们提出潜在扩散模型（LDM）作为一种有效的生成模型和一个单独的温和压缩阶段，仅消除不可察觉的细节。数据和图像来自 [29]。

这种方法的一个显著优势是，我们只需要训练一次通用自动编码阶段，因此可以将其重复用于多次 DM 训练或探索可能完全不同的任务 [78]。这使得能够高效地探索大量用于各种图像到图像和文本到图像任务的扩散模型。对于后者，我们设计了一个架构，将 Transformer 连接到 DM 的 UNet 主干 [69]，并支持任意类型的基于 token 的调节机制，见第 3.3 节。

总之，我们的工作做出了以下贡献：

与纯粹基于 Transformer 的方法 [23, 64] 相比，我们的方法可以更优雅地扩展到高维数据，因此可以 (a) 在压缩级别上工作，提供比以前的工作更忠实和详细的重建（见图 1）和 (b) 可以有效地应用于百万像素图像的高分辨率合成。
我们在多个任务（无条件图像合成、修复、随机超分辨率）和数据集上实现了具有竞争力的性能，同时显著降低了计算成本。与基于像素的扩散方法相比，我们还显著降低了推理成本。
我们表明，与之前同时学习编码器/解码器架构和基于分数的先验的工作 [90] 相比，我们的方法不需要对重建和生成能力进行精细的加权。这确保了极其忠实的重建，并且几乎不需要对潜在空间进行正则化。
我们发现，对于超分辨率、修复和语义合成等密集条件任务，我们的模型可以以卷积方式应用，并渲染约 10242 像素的大而一致的图像。
此外，我们设计了一种基于交叉注意的通用条件机制，可实现多模态训练。我们用它来训练类条件、文本到图像和布局到图像模型。
最后，我们在 https://github.com/CompVis/latent-diffusion 上发布了预训练的潜在扩散和自动编码模型，除了训练 DM 之外，这些模型还可以重复用于各种任务 [78]。

2. 相关工作

用于图像合成的生成模型（Generative Models for Image Synthesis）。图像的高维特性对生成建模提出了独特的挑战。生成对抗网络（GAN）[26] 可以高效采样具有良好感知质量的高分辨率图像 [3, 41]，但难以优化 [2, 27, 53] 并且难以捕获完整的数据分布 [54]。相比之下，基于似然的方法强调良好的密度估计，这使得优化更为有效。变分自编码器（VAE）[45] 和基于流的模型 [18, 19] 可以高效合成高分辨率图像 [9, 43, 89]，但样本质量无法与 GAN 相提并论。虽然自回归模型（ARM）[6, 10, 91, 92] 在密度估计方面表现出色，但计算要求高的架构 [94] 和顺序采样过程将它们限制为低分辨率图像。由于基于像素的图像表示包含几乎不可察觉的高频细节 [16,71]，最大似然训练会花费过多的容量来建模这些细节，导致训练时间过长。为了扩展到更高的分辨率，几种两阶段方法 [23, 65, 97, 99] 使用 ARM 来建模压缩的潜像空间，而不是原始像素。

最近，扩散概率模型（DM）[79] 在密度估计 [44] 和样本质量 [15] 方面取得了最佳成果。当这些模型的底层神经主干实现为 UNet [15, 29, 69, 82] 时，它们的生成能力源于对类似图像数据的归纳偏差的自然拟合。当使用重新加权的目标 [29] 进行训练时，通常可以实现最佳的合成质量。在这种情况下，DM 相当于有损压缩器，允许以图像质量换取压缩能力。然而，在像素空间中评估和优化这些模型的缺点是推理速度慢和训练成本非常高。虽然前者可以通过高级采样策略 [46, 73, 81] 和分层方法 [30, 90] 部分解决，但对高分辨率图像数据进行训练总是需要计算昂贵的梯度。我们提出的 LDM 解决了这两个缺点，该 LDM 可在较低维度的压缩潜在空间中工作。这使得训练在计算上更便宜，并且推理速度更快，而合成质量几乎不会降低（见图 1）。

两阶段图像合成。为了弥补单一生成方法的缺点，大量研究 [11,23,65,68,97,99] 致力于通过两阶段方法将不同方法的优势结合成更高效、性能更好的模型。VQ-VAE [65, 97] 使用自回归模型在离散化潜在空间上学习富有表现力的先验。[64] 通过学习离散化图像和文本表示的联合分布，将这种方法扩展到文本到图像的生成。更一般地说，[68] 使用条件可逆网络在不同领域的潜在空间之间提供通用传输。与 VQ-VAE 不同，VQGAN [23, 99] 采用第一阶段，以对抗和感知为目标，将自回归 Transformer 扩展到更大的图像。然而，可行的 ARM 训练需要高压缩率，这会引入数十亿个可训练参数 [23, 64]，这限制了此类方法的整体性能，而较低的压缩率是以高计算成本为代价的 [23, 64]。我们的工作避免了这种权衡，因为我们提出的 LDM 由于其卷积主干而更温和地扩展到更高维度的潜在空间。因此，我们可以自由选择压缩程度，以最佳地调解学习强大的第一阶段，而不会将太多的感知压缩留给生成扩散模型，同时保证高保真重建（见图 1）。虽然存在联合学习编码/解码模型和基于分数的先验的方法 [90]，但它们仍然需要在重建和生成能力之间进行艰难的加权 [11]，并且我们的方法表现优于它们（第 4 节）。

3. 方法

为了降低训练扩散模型以实现高分辨率图像合成的计算需求，我们观察到，尽管扩散模型允许通过欠采样相应的损失项 [29] 来忽略感知上不相关的细节，但它们仍然需要在像素空间中进行昂贵的函数评估，这会导致计算时间和能源资源的巨大需求。

我们建议通过引入压缩学习阶段与生成学习阶段的明确分离来规避这一缺点（见图 2）。为了实现这一点，我们使用了一个自动编码模型，该模型学习一个感知上等同于图像空间的空间，但计算复杂度却大大降低。

这种方法有几个优点：（i）通过离开高维图像空间，我们获得了计算效率更高的 DM，因为采样是在低维空间上进行的。（ii）我们利用从其 UNet 架构 [69] 继承的 DM 归纳偏差，这使得它们对于具有空间结构的数据特别有效，从而减轻了以前方法所要求的激进、降低质量的压缩级别的需求 [23, 64]。（iii）最后，我们获得了通用压缩模型，其潜在空间可用于训练多个生成模型，也可用于其他下游应用，如单图像 CLIP 引导合成 [25]。

3.1. 感知图像压缩

我们的感知压缩模型基于先前的研究 [23]，由一个由感知损失 [102] 和基于块的 [32] 对抗性目标 [20, 23, 99] 组合训练的自动编码器组成。这通过强制局部现实主义确保重建局限于图像流形，并避免了仅依赖像素空间损失（如 $L_2$ 或 $L_1$ 目标）而引入的模糊性。

更准确地说，给定 RGB 空间中的图像 $x\in\mathbb{R}^{H\times W\times3}$ ，编码器 $\mathcal{E}$ 将 $x$ 编码为潜在表示 $z=\mathcal{E}\left(x\right)$ ，解码器 $\mathcal{D}$ 从潜在表示中重建图像，得到 $\widetilde{x}=\mathcal{D}\left(z\right)=\mathcal{D}\left(\mathcal{E}\left(x\right)\right)$ ，其中 $z\in\mathbb{R}^{h\times w\times c}$ 。重要的是，编码器将图像下采样因子 $f=\frac{H}{h}=\frac{W}{w}$ ，我们研究不同的下采样因子 $f=2^m$ ，其中 $m\in N$ 。

为了避免潜在空间的方差任意高，我们尝试了两种不同的正则化。第一种变体 KL-reg. 对学习到的潜在空间施加了轻微的 KL 惩罚，使其趋向于标准正则化，类似于 VAE [45, 67]，而 VQ-reg. 在解码器中使用矢量量化层 [93]。该模型可以解释为 VQGAN [23]，但量化层被解码器吸收。由于我们后续的 DM 旨在处理我们学习到的潜在空间 $z=\mathcal{E}\left(x\right)$ 的二维结构，因此我们可以使用相对温和的压缩率并实现非常好的重建。这与以前的研究 [23, 64] 形成了鲜明对比，以前的研究依赖于学习空间 $z$ 的任意一维排序来自回归地建模其分布，从而忽略了 $z$ 的大部分固有结构。因此，我们的压缩模型更好地保留了 $x$ 的细节（见表 8）。完整的目标和训练细节可以在补充材料中找到。

3.2. 潜在扩散模型

扩散模型 [79] 是一种概率模型，旨在通过逐渐去噪正态分布变量来学习数据分布 $p\left(x\right)$ ，这相当于学习长度为 $T$ 的固定马尔可夫链的逆过程。对于图像合成，最成功的模型 [15,29,70] 依赖于 $p\left(x\right)$ 变分下界的重新加权变体，这反映了去噪分数匹配 [82]。这些模型可以解释为去噪自编码器 $\epsilon_\theta\left(x_t,\ t\right);\ t=1\cdots T$ 的等权重序列，它们被训练来预测其输入 $x_t$ 的去噪变体，其中 $x_t$ 是输入 $x$ 的噪声版本。相应的目标可以简化为（第 A 节）

公式 1

其中 $t$ 从 $\left\{1,\ \cdots,\ T\right\}$ 中均匀采样。

潜在表征的生成建模（Generative Modeling of Latent Representations）。借助由 $\mathcal{E}$ 和 $\mathcal{D}$ 组成的训练有素的感知压缩模型，我们现在可以访问一个高效的低维潜在空间，其中高频、不可察觉的细节被抽象掉。与高维像素空间相比，该空间更适合基于似然的生成模型，因为它们现在可以 (i) 专注于数据的重要语义部分（semantic bits），并且 (ii) 在低维、计算效率更高的空间中进行训练。

与之前在高度压缩的离散潜在空间中依赖自回归、基于注意力的 Transformer 模型的工作不同 [23, 64, 99]，我们可以利用模型提供的图像特定归纳偏差。这包括主要从 2D 卷积层构建底层 UNet 的能力，以及使用重新加权的边界将目标进一步集中在感知上最相关的位上，现在读取

公式 2

我们模型的神经主干 $\epsilon_\theta\left(\circ,\ t\right)$ 被实现为时间条件 UNet [69]。由于前向过程是固定的，因此可以在训练期间从 $\mathcal{E}$ 中高效获取 $z_t$ ，并且 $p\left(z\right)$ 中的样本可以通过 $\mathcal{D}$ 单次传递解码到图像空间。

3.3. 调节机制

与其他类型的生成模型 [55, 80] 类似，扩散模型原则上能够对形式为 $p\left(z\middle| y\right)$ 的条件分布进行建模。这可以通过条件去噪自动编码器 $\epsilon_\theta\left(z_t,\ t,\ y\right)$ 来实现，并为通过输入 $y$ （例如文本 [66]、语义图 [32, 59] 或其他图像到图像的转换任务 [33]）来控制合成过程铺平了道路。

然而，在图像合成的背景下，将 DM 的生成能力与类标签 [15] 或输入图像的模糊变体 [70] 以外的其他类型的条件相结合，目前是一个尚未得到充分探索的研究领域。

我们通过使用交叉注意机制 [94] 增强其底层 UNet 主干，将 DM 转变为更灵活的条件图像生成器，这对于学习各种输入模态的基于注意的模型非常有效 [34,35]。为了预处理来自各种模态（例如语言提示）的 $y$ ，我们引入了一个领域特定编码器 $\tau_\theta$ ，它将 $y$ 投影到中间表示 $\tau_\theta\left(y\right)\in\mathbb{R}^{M\times d_\tau}$ ，然后通过实现 $Attention\left(Q,\ K,\ V\right)=softmax\left(\frac{QK^T}{\sqrt d}\right)\cdot V$ 的交叉注意层将其映射到 UNet 的中间层，其中

公式 2.5

这里， $\varphi_i\left(z_t\right)\in\mathbb{R}^{N\times d_\epsilon^i}$ 表示实现 $\epsilon_\theta$ 的 UNet 的（扁平化）中间表示，而 $W_V^{\left(i\right)}\in\mathbb{R}^{d\times d_\epsilon^i}$ 、 $W_Q^{\left(i\right)}\in\mathbb{R}^{d\times d_\tau}$ 和 $W_K^{\left(i\right)}\in\mathbb{R}^{d\times d_\tau}$ 是可学习的投影矩阵 [35, 94]。请参见图 3 中的视觉描述。

图 3

图 3. 我们通过串联或更一般的交叉注意机制来调节 LDM。见第 3.3 节

然后，我们根据图像条件对，通过以下方式学习条件 LDM

公式 3

其中 $\tau_\theta$ 和 $\epsilon_\theta$ 均通过公式 3 联合优化。这种调节机制非常灵活，因为 $\tau_\theta$ 可以用领域特定专家进行参数化，例如当 $y$ 是文本提示时，可以使用（未掩码的） Transformer [94]（参见第 4.3.1 节）

4. 实验

LDM 提供了灵活且计算上易于处理的基于扩散的图像合成方法，其中还包括各种图像模态的高分辨率生成，我们将在下面通过实证研究来展示这一点。但是，首先，我们分析了我们的模型与基于像素的扩散模型相比在训练和推理方面的收益。有趣的是，我们发现在 VQ 正则（VQ-regularized）的潜在空间中训练的 LDM 获得了更好的样本质量，即使 VQ 正则化的第一阶段模型的重建能力略微落后于其连续模型，参见表 8。因此，除非另有说明，我们将在本文的其余部分评估 VQ 正则化的 LDM。在附录 C.1 中可以找到第一阶段正则化方案对 LDM 训练的影响及其对高于 {256}^2 的分辨率的泛化能力的视觉比较。在 D.2 中，我们还列出了本节中介绍的所有结果的架构、实施、训练和评估的详细信息。

4.1. 关于感知压缩权衡

本节分析了具有不同下采样因子 $f\in\left\{1,\ 2,\ 4,\ 8,\ 16,\ 32\right\}$ 的 LDM 的行为（缩写为 LDM-f，其中 LDM-1 对应于基于像素的 DM）。为了获得可比较的测试场，我们将本节中所有实验的计算资源固定为单个 NVIDIA A100，并使用相同数量的步骤和相同数量的参数训练所有模型。

表 8 显示了本节中比较的 LDM 所用第一阶段模型的超参数和重建性能。图 5 显示了 ImageNet [12] 数据集上类条件模型 2M 步的样本质量与训练进度的关系。我们看到，i) LDM- $\left\{1,2\right\}$ 的小下采样因子会导致训练进度缓慢，而 ii) $f$ 值过大会导致在相对较少的训练步骤后保真度停滞不前。重新审视上述分析（图 1 和 2），我们将其归因于 i) 将大部分感知压缩留给扩散模型，ii) 第一阶段压缩过强导致信息丢失，从而限制了可实现的质量。LDM- $\left\{4-16\right\}$ 在效率和感知忠实结果之间取得了良好的平衡，这表现为 2M 训练步骤后基于像素的扩散（LDM-1）和 LDM-8 之间的显著 FID [28] 差距为 38。

图 4

图 4. 在 CelebAHQ [38]、FFHQ [40]、LSUN-Churches [98]、LSUN-Bedrooms [98] 和类条件 ImageNet [12] 上训练的 LDM 样本，每个样本的分辨率为 256 × 256。放大后可获得最佳效果。更多样本请参见补充材料。

图 5

图 5. 分析在 ImageNet 数据集上 2M 个训练步骤中具有不同下采样因子 f 的类条件 LDM 的训练情况。与具有较大下采样因子的模型（LDM-\left\{4-16\right\}）相比，基于像素的 LDM-1 需要更长的训练时间。LDM-32 中的感知压缩过多会限制整体样本质量。所有模型都在单个 NVIDIA A100 上进行训练，计算预算相同。结果通过 100 个 DDIM 步骤 [81] 和 \kappa=0 获得。

在图 6 中，我们比较了在 CelebAHQ [38] 和 ImageNet 上训练的模型，这些模型在使用 DDIM 采样器 [81] 进行不同数量的去噪步骤时的采样速度，并将其与 FID 分数 [28] 进行比较。LDM- $\left\{4-8\right\}$ 的表现优于感知和概念压缩比不合适的模型。尤其是与基于像素的 LDM-1 相比，它们实现了低得多的 FID 分数，同时显著提高了样本吞吐量。ImageNet 等复杂数据集需要降低压缩率以避免降低质量。总之，我们观察到 LDM-4 和 -8 处于实现高质量合成结果的最佳表现状态。

图 6

图 6. 推理速度与样本质量：在 CelebA-HQ（左）和 ImageNet（右）数据集上比较不同压缩量的 LDM。不同的标记表示使用 DDIM 采样器的 {10, 20, 50, 100, 200} 采样步骤，沿每条线从右到左计数。虚线显示 200 步的 FID 分数，表明与具有不同压缩比的模型相比，LDM-{4-8} 的性能强劲。FID 分数在 5000 个样本上评估。所有模型都在 A100 上针对 500k (CelebA) / 2M (ImageNet) 步骤进行了训练。

4.2. 利用潜在扩散生成图像

我们在 CelebA-HQ [38]、FFHQ [40]、LSUN-Churches 和 -Bedrooms [98] 上训练了 ${256}^2$ 图像的无条件模型，并使用 ii) FID [28] 和 ii) 精确率和召回率 [49] 评估 i) 样本质量和 ii) 它们对数据流形的覆盖率。表 1 总结了我们的结果。在 CelebA-HQ 上，我们报告了最新的 5.11 FID，优于以前基于似然的模型以及 GAN。我们还优于 LSGM [90]，其中潜在扩散模型与第一阶段联合训练。相反，我们在固定空间中训练扩散模型，避免了权衡重建质量与在潜在空间上学习先验的困难，见图 1-2。

除了 LSUN-Bedrooms 数据集之外，我们在所有数据集上的表现都优于之前基于扩散的方法，尽管我们的得分接近 ADM [15]，但只使用了一半的参数，所需的训练资源也减少了 4 倍（参见附录 D.3.5）。此外，LDM 在准确率和召回率方面不断超越基于 GAN 的方法，从而证实了其基于模式覆盖可能性的训练目标相对于对抗性方法的优势。在图 4 中，我们还展示了每个数据集的定性结果。

表 1

表 1. 无条件图像合成的评估指标。CelebA-HQ 结果来自 [42, 61, 96]，FFHQ 来自 [41, 42]。†：N-s 表示使用 DDIM [81] 采样器的 N 个采样步骤。∗：在 KL 正则化潜在空间中训练。其他结果可在补充材料中找到。

4.3. 条件潜在扩散

4.3.1 LDM 的 Transformer 编码器

通过将基于交叉注意的条件反射引入 LDM，我们为以前未在扩散模型中探索过的多种条件反射模式打开了大门。对于文本到图像的图像建模，我们在 LAION-400M [76] 上训练了一个以语言提示为条件的 1.45B 参数模型。我们使用 BERT-tokenizer [14] 并实现 $\tau_\theta$ 作为 Transformer [94] 来推断潜在代码，该代码通过交叉注意映射到 UNet 中（第 3.3 节）。这种语言表示学习和视觉合成领域特定专家的组合产生了一个强大的模型，它可以很好地推广到复杂的用户定义的文本提示，参见图 7 和 14。对于定量分析，我们遵循先前的工作并在 MS-COCO [50] 验证集上评估文本到图像的生成，其中我们的模型改进了强大的 AR [17,64] 和基于 GAN [105] 的方法，参见表 2。我们注意到，应用无分类器扩散指导 [31] 可大大提高样本质量。为了进一步分析基于交叉注意的条件机制的灵活性，我们还在 OpenImages [48] 上训练模型以基于语义布局合成图像，并在 COCO [4] 上进行微调，见图 7。有关定量评估和实施细节，请参阅 C.4 节。

表 2

图 7. 顶部：我们在 COCO 上进行布局到图像合成的 LDM 样本 [4]。定量评估见附录。底部：我们在 LAION-400M 上训练的用于用户定义文本提示的文本到图像 LDM 模型的样本 [76]。

图 7

最后，根据先前的研究 [3, 15, 21, 23]，我们评估了性能最佳的类条件 ImageNet 模型，其中 $f\in\left\{4,\ 8\right\}$ 来自表 3 中的第 4.1 节、图 4 和第 C.5 节。在这里，我们的表现优于最先进的扩散模型 ADM [15]，同时显著降低了计算要求和参数数量，参见表 18。
表 3

表 3. 类条件 ImageNet LDM 与 ImageNet [12] 数据集上类条件图像生成的最新最先进方法的比较。与其他基线的更详细比较可在 C.5、表 10 和 E 中找到。

4.3.2 超过 ${256}^{2}$ 的卷积采样

通过将空间对齐的条件信息连接到 $\epsilon_\theta$ 的输入，LDM 可以用作高效的通用图像到图像转换模型。我们利用它来训练语义合成、超分辨率（第 4.4 节）和修复（第 4.5 节）的模型。对于语义合成，我们使用与语义图配对的景观图像 [23, 59]，并将语义图的下采样版本与 $f = 4$ 模型的潜在图像表示连接起来（VQ-reg.，见表 8）。我们在 ${256}^2$ 的输入分辨率上进行训练（从 ${384}^2$ 裁剪），但发现我们的模型可以推广到更大的分辨率，并且在以卷积方式评估时可以生成高达百万像素的图像（见图 8）。我们利用这种行为来应用第 4.4 节中的超分辨率模型和第 4.5 节中的修复模型来生成 ${512}^2$ 到 ${1024}^2$ 之间的大图像。对于此应用，信噪比（由潜在空间的尺度引起）会显著影响结果。在 C.1 节中，我们在 (i) $f = 4$ 模型（KL-reg.，见表 8）提供的潜在空间上学习 LDM 时说明了这一点，以及 (ii) 重新缩放的版本，按组件标准差缩放。

图 8

图 8. 在 {256}^2 分辨率上训练的 LDM 可以推广到更大的分辨率（此处：512×1024），用于空间条件任务，例如景观图像的语义合成。参见第 4.3.2 节。

4.4. 利用潜在扩散实现超分辨率

通过直接通过连接对低分辨率图像进行条件处理，可以有效地训练 LDM 以实现超分辨率（参见第 3.3 节）。在第一个实验中，我们遵循 SR3 [70]，将图像退化固定为具有 4 倍下采样的双三次插值，并按照 SR3 的数据处理流程在 ImageNet 上进行训练。我们使用在 OpenImages 上预训练的 $f = 4$ 自动编码模型（VQ-reg.，参见表 8），并将低分辨率条件 $y$ 和 UNet 的输入连接起来，即 $\tau_\theta$ 是恒等式。我们的定性和定量结果（见图 9 和表 4）显示出具有竞争力的性能，LDM-SR 在 FID 方面优于 SR3，而 SR3 具有更好的 IS。一个简单的图像回归模型获得了最高的 PSNR 和 SSIM 分数；然而这些指标与人类感知不太一致 [102]，并且更倾向于模糊而不是不完美对齐的高频细节 [70]。此外，我们进行了一项用户研究，将像素基线与 LDM-SR 进行比较。我们遵循 SR3 [70]，其中向人类受试者展示两张高分辨率图像之间的低分辨率图像并询问其偏好。表 5 中的结果证实了 LDM-SR 的良好性能。PSNR 和 SSIM 可以通过使用事后引导机制 [15] 来推动，我们通过感知损失实现了这种基于图像的引导器，参见 C.7 节。由于双三次退化过程不能很好地推广到不遵循这种预处理的图像，我们还通过使用更多样化的退化来训练一个通用模型 LDM-BSR。结果显示在 C.7.1 节中。

表 4

表 4. ImageNet-Val 上的 ×4 升级结果。（2562）；†：在验证分割上计算的 FID 特征，‡：在训练分割上计算的 FID 特征；∗：在 NVIDIA A100 上评估

图 9

图 9. ImageNet 64→256 超分辨率 ImageNet- val。LDM-SR 在渲染逼真纹理方面具有优势，而 SR3 可以合成更加连贯的精细结构。参见附录以获得更多示例和裁剪。SR3 结果来自 [70]。

图 5

表 5. 任务 1：向受试者展示真实图像和生成的图像，并询问受试者的偏好。任务 2：受试者必须在两张生成的图像之间做出选择。更多详情请参阅 D.3.6

4.5. 利用潜在扩散进行修复

修复任务是用新内容填充图像的蒙版区域，因为图像的某些部分已损坏，或者要替换图像中现有但不想要的内容。我们评估了我们的条件图像生成通用方法与更专业的、最先进的方法相比如何。我们的评估遵循 LaMa [85] 的协议，这是一个最近的修复模型，它引入了一种依赖于快速傅里叶卷积 [8] 的专门架构。我们在 D.2.2 节中描述了在 Places [104] 上的确切训练和评估协议。

我们首先分析第一阶段不同设计选择的影响。我们比较了 LDM-1（即基于像素的条件 DM）与 LDM-4 的修复效率，包括 KL 和 VQ 正则化，以及第一阶段没有任何注意的 VQ-LDM-4（见表 8），其中后者减少了高分辨率解码的 GPU 内存。为了便于比较，我们固定了所有模型的参数数量。表 6 报告了分辨率为 ${256}^2$ 和 ${512}^2$ 的训练和采样吞吐量、每个时期的总训练时间（以小时为单位）以及六个时期后验证分割的 FID 分数。总体而言，我们观察到基于像素和潜在的扩散模型之间的速度提高了至少 2.7 倍，同时 FID 分数提高了至少 1 倍。

表 6

表 6. 评估修复效率。†：由于 GPU 设置/批次大小不同，与图 6 存在偏差，请参见补充材料。

表 7 中与其他修复方法的比较表明，与 [85] 相比，我们的带注意机制的模型提高了以 FID 衡量的整体图像质量。未掩蔽图像和我们的样本之间的 LPIPS 略高于 [85]。我们将其归因于 [85] 仅产生了单一结果，与我们的 LDM cf 产生的各种结果相比，它往往能恢复更多的平均图像。图 20。此外，在一项用户研究（表 5）中，人类受试者更喜欢我们的结果，而不是 [85] 的结果。

基于这些初步结果，我们还在 VQ-regularized 第一阶段的潜在空间中训练了一个更大的扩散模型（表 7 中的 big），无需注意。按照 [15]，这种扩散模型的 UNet 在其特征层次的三个级别上使用注意层，BigGAN [3] 残差块用于上采样和下采样，并且具有 387M 而不是 215M。训练后，我们注意到在分辨率 ${256}^2$ 和 ${512}^2$ 下产生的样本质量存在差异，我们假设这是由额外的注意模块引起的。但是，在分辨率 ${512}^2$ 下对模型进行半个 epoch 的微调可使模型适应新的特征统计数据并在图像修复方面设置新的最先进 FID（表 7 中的 big、w/o attn、w/ ft，图 10）。

表 7

表 7. 对 Places [104] 测试图像中 30k 个 512×512 大小的裁剪图像进行修复性能比较。第 4050% 列报告了针对需要修复 40-50% 图像区域的困难示例计算得出的指标。† 在我们的测试集上重新计算，因为 [85] 中使用的原始测试集不可用。

图 10

图 10. 使用我们的大尺寸、带 ft 修复模型去除物体的定性结果。有关更多结果，请参见图 21。

5. 结论

我们提出了潜在扩散模型，这是一种简单有效的方法，可以显著提高去噪扩散模型的训练和采样效率，而不会降低其质量。基于此方法和我们的交叉注意调节机制，我们的实验可以在没有任务特定架构的广泛条件图像合成任务中展示出与最先进方法相比更有利的结果。

这项工作得到了德国联邦经济事务和能源部自动驾驶安全人工智能项目 KI-Absicherung 和德国研究基金会（DFG）项目 421703927 的支持。

参考文献

[1] Eirikur Agustsson and Radu Timofte. NTIRE 2017 challenge on single image super-resolution: Dataset and study. In 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops, CVPR Workshops 2017, Honolulu, HI, USA, July 21-26, 2017, pages 1122–1131. IEEE Computer Society, 2017. 1
[2] Martin Arjovsky, Soumith Chintala, and Lon Bottou. Wasserstein gan, 2017. 3
[3] Andrew Brock, Jeff Donahue, and Karen Simonyan. Large scale GAN training for high fidelity natural image synthesis. In Int. Conf. Learn. Represent., 2019. 1, 2, 6, 7, 8, 19, 26
[4] Holger Caesar, Jasper R. R. Uijlings, and Vittorio Ferrari. Coco-stuff: Thing and stuff classes in context. In 2018 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2018, Salt Lake City, UT, USA, June 1822, 2018, pages 1209–1218. Computer Vision Foundation / IEEE Computer Society, 2018. 6, 17, 18
[5] Nicholas Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Ulfar Erlingsson, et al Extracting training data from large language models. In 30th USENIX Security Symposium (USENIX Security 21), pages 2633–2650, 2021. 27
[6] Mark Chen, Alec Radford, Rewon Child, Jeffrey Wu, Heewoo Jun, David Luan, and Ilya Sutskever. Generative pretraining from pixels. In ICML, volume 119 of Proceedings of Machine Learning Research, pages 1691–1703. PMLR, 2020. 3
[7] Nanxin Chen, Yu Zhang, Heiga Zen, Ron J. Weiss, Mohammad Norouzi, and William Chan. Wavegrad: Estimating gradients for waveform generation. In ICLR. OpenReview.net, 2021. 1
[8] Lu Chi, Borui Jiang, and Yadong Mu. Fast fourier convolution. In NeurIPS, 2020. 8
[9] Rewon Child. Very deep vaes generalize autoregressive models and can outperform them on images. CoRR, abs/2011.10650, 2020. 3
[10] Rewon Child, Scott Gray, Alec Radford, and Ilya Sutskever. Generating long sequences with sparse transformers. CoRR, abs/1904.10509, 2019. 3
[11] Bin Dai and David P. Wipf. Diagnosing and enhancing VAE models. In ICLR (Poster). OpenReview.net, 2019. 2, 3
[12] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Fei-Fei Li. Imagenet: A large-scale hierarchical image database. In CVPR, pages 248–255. IEEE Computer Society, 2009. 1, 5, 7, 19
[13] Emily Denton. Ethical considerations of generative ai. AI for Content Creation Workshop, CVPR, 2021. 27
[14] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: pre-training of deep bidirectional transformers for language understanding. CoRR, abs/1810.04805, 2018. 6
[15] Prafulla Dhariwal and Alex Nichol. Diffusion models beat gans on image synthesis. CoRR, abs/2105.05233, 2021. 1, 2, 3, 4, 6, 7, 8, 15, 19, 23, 24, 26
[16] Sander Dieleman. Musings on typicality, 2020. 1, 3
[17] Ming Ding, Zhuoyi Yang, Wenyi Hong, Wendi Zheng, Chang Zhou, Da Yin, Junyang Lin, Xu Zou, Zhou Shao, Hongxia Yang, and Jie Tang. Cogview: Mastering text-toimage generation via transformers. CoRR, abs/2105.13290, 2021. 6
[18] Laurent Dinh, David Krueger, and Yoshua Bengio. Nice: Non-linear independent components estimation, 2015. 3
[19] Laurent Dinh, Jascha Sohl-Dickstein, and Samy Bengio. Density estimation using real NVP. In 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings. OpenReview.net, 2017. 1, 3
[20] Alexey Dosovitskiy and Thomas Brox. Generating images with perceptual similarity metrics based on deep networks. In Daniel D. Lee, Masashi Sugiyama, Ulrike von Luxburg, Isabelle Guyon, and Roman Garnett, editors, Adv. Neural Inform. Process. Syst., pages 658–666, 2016. 3
[21] Patrick Esser, Robin Rombach, Andreas Blattmann, and Bjorn Ommer. Imagebart: Bidirectional context with multi- ¨ nomial diffusion for autoregressive image synthesis. CoRR, abs/2108.08827, 2021. 6, 19
[22] Patrick Esser, Robin Rombach, and Bjorn Ommer. A ¨ note on data biases in generative models. arXiv preprint arXiv:2012.02516, 2020. 27
[23] Patrick Esser, Robin Rombach, and Bjorn Ommer. Taming ¨ transformers for high-resolution image synthesis. CoRR, abs/2012.09841, 2020. 2, 3, 4, 6, 7, 18, 19, 27, 32, 34
[24] Mary Anne Franks and Ari Ezra Waldman. Sex, lies, and videotape: Deep fakes and free speech delusions. Md. L. Rev., 78:892, 2018. 27
[25] Kevin Frans, Lisa B. Soros, and Olaf Witkowski. Clipdraw: Exploring text-to-drawing synthesis through languageimage encoders. ArXiv, abs/2106.14843, 2021. 3
[26] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron C. Courville, and Yoshua Bengio. Generative adversarial networks. CoRR, 2014. 1, 2
[27] Ishaan Gulrajani, Faruk Ahmed, Martin Arjovsky, Vincent Dumoulin, and Aaron Courville. Improved training of wasserstein gans, 2017. 3
[28] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. In Adv. Neural Inform. Process. Syst., pages 6626– 6637, 2017. 1, 6, 24
[29] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In NeurIPS, 2020. 1, 2, 3, 4, 6, 14
[30] Jonathan Ho, Chitwan Saharia, William Chan, David J. Fleet, Mohammad Norouzi, and Tim Salimans. Cascaded diffusion models for high fidelity image generation. CoRR, abs/2106.15282, 2021. 1, 3, 19
[31] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. In NeurIPS 2021 Workshop on Deep Generative Models and Downstream Applications, 2021. 6, 7, 19, 26, 35, 36
[32] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. Image-to-image translation with conditional adversarial networks. In CVPR, pages 5967–5976. IEEE Computer Society, 2017. 3, 4
[33] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. Image-to-image translation with conditional adversarial networks. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 5967–5976, 2017. 4
[34] Andrew Jaegle, Sebastian Borgeaud, Jean-Baptiste Alayrac, Carl Doersch, Catalin Ionescu, David Ding, Skanda Koppula, Daniel Zoran, Andrew Brock, Evan Shelhamer, Olivier J. Henaff, Matthew M. Botvinick, ´ Andrew Zisserman, Oriol Vinyals, and Joao Carreira. ˜ Perceiver IO: A general architecture for structured inputs &outputs. CoRR, abs/2107.14795, 2021. 4
[35] Andrew Jaegle, Felix Gimeno, Andy Brock, Oriol Vinyals, Andrew Zisserman, and Joao Carreira. Perceiver: General ˜ perception with iterative attention. In Marina Meila and Tong Zhang, editors, Proceedings of the 38th International Conference on Machine Learning, ICML 2021, 18-24 July 2021, Virtual Event, volume 139 of Proceedings of Machine Learning Research, pages 4651–4664. PMLR, 2021. 4
[36] Manuel Jahn, Robin Rombach, and Bjorn Ommer. High- ¨ resolution complex scene synthesis with transformers. CoRR, abs/2105.06458, 2021. 17, 18, 25
[37] Niharika Jain, Alberto Olmo, Sailik Sengupta, Lydia Manikonda, and Subbarao Kambhampati. Imperfect imaganation: Implications of gans exacerbating biases on facial data augmentation and snapchat selfie lenses. arXiv preprint arXiv:2001.09528, 2020. 27
[38] Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen. Progressive growing of gans for improved quality, stability, and variation. CoRR, abs/1710.10196, 2017. 5, 6
[39] Tero Karras, Samuli Laine, and Timo Aila. A style-based generator architecture for generative adversarial networks. In IEEE Conf. Comput. Vis. Pattern Recog., pages 4401– 4410, 2019. 1
[40] T. Karras, S. Laine, and T. Aila. A style-based generator architecture for generative adversarial networks. In 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019. 5, 6
[41] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Analyzing and improving the image quality of stylegan. CoRR, abs/1912.04958, 2019. 2, 6, 26
[42] Dongjun Kim, Seungjae Shin, Kyungwoo Song, Wanmo Kang, and Il-Chul Moon. Score matching model for unbounded data score. CoRR, abs/2106.05527, 2021. 6
[43] Durk P Kingma and Prafulla Dhariwal. Glow: Generative flow with invertible 1x1 convolutions. In S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, and R. Garnett, editors, Advances in Neural Information Processing Systems, 2018. 3
[44] Diederik P. Kingma, Tim Salimans, Ben Poole, and Jonathan Ho. Variational diffusion models. CoRR, abs/2107.00630, 2021. 1, 3, 14
[45] Diederik P. Kingma and Max Welling. Auto-Encoding Variational Bayes. In 2nd International Conference on Learning Representations, ICLR, 2014. 1, 3, 4, 27
[46] Zhifeng Kong and Wei Ping. On fast sampling of diffusion probabilistic models. CoRR, abs/2106.00132, 2021. 3
[47] Zhifeng Kong, Wei Ping, Jiaji Huang, Kexin Zhao, and Bryan Catanzaro. Diffwave: A versatile diffusion model for audio synthesis. In ICLR. OpenReview.net, 2021. 1
[48] Alina Kuznetsova, Hassan Rom, Neil Alldrin, Jasper R. R. Uijlings, Ivan Krasin, Jordi Pont-Tuset, Shahab Kamali, Stefan Popov, Matteo Malloci, Tom Duerig, and Vittorio Ferrari. The open images dataset V4: unified image classification, object detection, and visual relationship detection at scale. CoRR, abs/1811.00982, 2018. 6, 17, 18
[49] Tuomas Kynka¨anniemi, Tero Karras, Samuli Laine, Jaakko ¨ Lehtinen, and Timo Aila. Improved precision and recall metric for assessing generative models. CoRR, abs/1904.06991, 2019. 6, 24
[50] Tsung-Yi Lin, Michael Maire, Serge J. Belongie, Lubomir D. Bourdev, Ross B. Girshick, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar, and C. Lawrence Zit- ´ nick. Microsoft COCO: common objects in context. CoRR, abs/1405.0312, 2014. 6, 25
[51] Yuqing Ma, Xianglong Liu, Shihao Bai, Le-Yi Wang, Aishan Liu, Dacheng Tao, and Edwin Hancock. Region-wise generative adversarial imageinpainting for large missing areas. ArXiv, abs/1909.12507, 2019. 8
[52] Chenlin Meng, Yang Song, Jiaming Song, Jiajun Wu, JunYan Zhu, and Stefano Ermon. Sdedit: Image synthesis and editing with stochastic differential equations. CoRR, abs/2108.01073, 2021. 1
[53] Lars M. Mescheder. On the convergence properties of GAN training. CoRR, abs/1801.04406, 2018. 3
[54] Luke Metz, Ben Poole, David Pfau, and Jascha SohlDickstein. Unrolled generative adversarial networks. In 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings. OpenReview.net, 2017. 3
[55] Mehdi Mirza and Simon Osindero. Conditional generative adversarial nets. CoRR, abs/1411.1784, 2014. 4
[56] Gautam Mittal, Jesse H. Engel, Curtis Hawthorne, and Ian Simon. Symbolic music generation with diffusion models. CoRR, abs/2103.16091, 2021. 1
[57] Kamyar Nazeri, Eric Ng, Tony Joseph, Faisal Z. Qureshi, and Mehran Ebrahimi. Edgeconnect: Generative image inpainting with adversarial edge learning. ArXiv, abs/1901.00212, 2019. 8
[58] Anton Obukhov, Maximilian Seitzer, Po-Wei Wu, Semen Zhydenko, Jonathan Kyl, and Elvis Yu-Jing Lin. High-fidelity performance metrics for generative models in pytorch, 2020. Version: 0.3.0, DOI: 10.5281/zenodo.4957738. 24, 25
[59] Taesung Park, Ming-Yu Liu, Ting-Chun Wang, and JunYan Zhu. Semantic image synthesis with spatially-adaptive normalization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019. 4, 7
[60] Taesung Park, Ming-Yu Liu, Ting-Chun Wang, and JunYan Zhu. Semantic image synthesis with spatially-adaptive normalization. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2019. 18
[61] Gaurav Parmar, Dacheng Li, Kwonjoon Lee, and Zhuowen Tu. Dual contradistinctive generative autoencoder. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2021, virtual, June 19-25, 2021, pages 823–832. Computer Vision Foundation / IEEE, 2021. 6
[62] Gaurav Parmar, Richard Zhang, and Jun-Yan Zhu. On buggy resizing libraries and surprising subtleties in fid calculation. arXiv preprint arXiv:2104.11222, 2021. 24
[63] David A. Patterson, Joseph Gonzalez, Quoc V. Le, Chen Liang, Lluis-Miquel Munguia, Daniel Rothchild, David R. So, Maud Texier, and Jeff Dean. Carbon emissions and large neural network training. CoRR, abs/2104.10350, 2021. 2
[64] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. Zero-shot text-to-image generation. CoRR, abs/2102.12092, 2021. 1, 2, 3, 4, 6, 18, 25
[65] Ali Razavi, Aaron van den Oord, and Oriol Vinyals. Gen- ¨ erating diverse high-fidelity images with VQ-VAE-2. In NeurIPS, pages 14837–14847, 2019. 1, 2, 3, 19
[66] Scott E. Reed, Zeynep Akata, Xinchen Yan, Lajanugen Logeswaran, Bernt Schiele, and Honglak Lee. Generative adversarial text to image synthesis. In ICML, 2016. 4
[67] Danilo Jimenez Rezende, Shakir Mohamed, and Daan Wierstra. Stochastic backpropagation and approximate inference in deep generative models. In Proceedings of the 31st International Conference on International Conference on Machine Learning, ICML, 2014. 1, 4, 27
[68] Robin Rombach, Patrick Esser, and Bjorn Ommer. ¨ Network-to-network translation with conditional invertible neural networks. In NeurIPS, 2020. 3
[69] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. Unet: Convolutional networks for biomedical image segmentation. In MICCAI (3), volume 9351 of Lecture Notes in Computer Science, pages 234–241. Springer, 2015. 2, 3, 4
[70] Chitwan Saharia, Jonathan Ho, William Chan, Tim Salimans, David J. Fleet, and Mohammad Norouzi. Image super-resolution via iterative refinement. CoRR, abs/2104.07636, 2021. 1, 4, 7, 19, 20, 21, 25
[71] Tim Salimans, Andrej Karpathy, Xi Chen, and Diederik P. Kingma. Pixelcnn++: Improving the pixelcnn with discretized logistic mixture likelihood and other modifications. CoRR, abs/1701.05517, 2017. 1, 3
[72] Dave Salvator. NVIDIA Developer Blog. https : / / developer . nvidia . com / blog / getting immediate- speedups- with- a100- tf32, 2020. 26
[73] Robin San-Roman, Eliya Nachmani, and Lior Wolf. Noise estimation for generative diffusion models. CoRR, abs/2104.02600, 2021. 3
[74] Axel Sauer, Kashyap Chitta, Jens Muller, and An- ¨ dreas Geiger. Projected gans converge faster. CoRR, abs/2111.01007, 2021. 6
[75] Edgar Schonfeld, Bernt Schiele, and Anna Khoreva. A u- ¨ net based discriminator for generative adversarial networks. In 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2020, Seattle, WA, USA, June 13-19, 2020, pages 8204–8213. Computer Vision Foundation / IEEE, 2020. 6
[76] Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev, and Aran Komatsuzaki. Laion400m: Open dataset of clip-filtered 400 million image-text pairs, 2021. 6
[77] Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. In Yoshua Bengio and Yann LeCun, editors, Int. Conf. Learn. Represent., 2015. 27, 41, 42, 43
[78] Charlie Snell. Alien Dreams: An Emerging Art Scene.https : / / ml . berkeley . edu / blog / posts / clip-art/, 2021. [Online; accessed November-2021]. 2
[79] Jascha Sohl-Dickstein, Eric A. Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. CoRR, abs/1503.03585, 2015. 1, 3, 4, 15
[80] Kihyuk Sohn, Honglak Lee, and Xinchen Yan. Learning structured output representation using deep conditional generative models. In C. Cortes, N. Lawrence, D. Lee, M. Sugiyama, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 28. Curran Associates, Inc., 2015. 4
[81] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. In ICLR. OpenReview.net, 2021. 3, 5, 6, 20
[82] Yang Song, Jascha Sohl-Dickstein, Diederik P. Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Scorebased generative modeling through stochastic differential equations. CoRR, abs/2011.13456, 2020. 1, 3, 4, 15
[83] Emma Strubell, Ananya Ganesh, and Andrew McCallum. Energy and policy considerations for modern deep learning research. In The Thirty-Fourth AAAI Conference on Artificial Intelligence, AAAI 2020, The Thirty-Second Innovative Applications of Artificial Intelligence Conference, IAAI 2020, The Tenth AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2020, New York, NY, USA, February 7-12, 2020, pages 13693–13696. AAAI Press, 2020. 2
[84] Wei Sun and Tianfu Wu. Learning layout and style reconfigurable gans for controllable image synthesis. CoRR, abs/2003.11571, 2020. 18, 25
[85] Roman Suvorov, Elizaveta Logacheva, Anton Mashikhin, Anastasia Remizova, Arsenii Ashukha, Aleksei Silvestrov, Naejin Kong, Harshith Goka, Kiwoong Park, and Victor S. Lempitsky. Resolution-robust large mask inpainting with fourier convolutions. ArXiv, abs/2109.07161, 2021. 8, 24, 30
[86] Tristan Sylvain, Pengchuan Zhang, Yoshua Bengio, R. Devon Hjelm, and Shikhar Sharma. Object-centric image generation from layouts. In Thirty-Fifth AAAI Conference on Artificial Intelligence, AAAI 2021, Thirty-Third Conference on Innovative Applications of Artificial Intelligence, IAAI 2021, The Eleventh Symposium on Educational Advances in Artificial Intelligence, EAAI 2021, Virtual Event, February 2-9, 2021, pages 2647–2655. AAAI Press, 2021. 17, 18, 25
[87] Patrick Tinsley, Adam Czajka, and Patrick Flynn. This face does not exist… but it might be yours! identity leakage in generative models. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, pages 1320–1328, 2021. 27
[88] Antonio Torralba and Alexei A Efros. Unbiased look at dataset bias. In CVPR 2011, pages 1521–1528. IEEE, 2011. 27
[89] Arash Vahdat and Jan Kautz. NVAE: A deep hierarchical variational autoencoder. In NeurIPS, 2020. 3
[90] Arash Vahdat, Karsten Kreis, and Jan Kautz. Scorebased generative modeling in latent space. CoRR, abs/2106.05931, 2021. 2, 3, 6
[91] Aaron van den Oord, Nal Kalchbrenner, Lasse Espeholt, koray kavukcuoglu, Oriol Vinyals, and Alex Graves. Conditional image generation with pixelcnn decoders. In Advances in Neural Information Processing Systems, 2016. 3
[92] Aaron van den Oord, Nal Kalchbrenner, and Koray ¨ Kavukcuoglu. Pixel recurrent neural networks. CoRR, abs/1601.06759, 2016. 3
[93] Aaron van den Oord, Oriol Vinyals, and Koray ¨ Kavukcuoglu. Neural discrete representation learning. In NIPS, pages 6306–6315, 2017. 2, 4, 27
[94] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, pages 5998–6008, 2017. 3, 4, 5, 6
[95] Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Remi Louf, Morgan Funtowicz, and Jamie ´ Brew. Huggingface’s transformers: State-of-the-art natural language processing. CoRR, abs/1910.03771, 2019. 24
[96] Zhisheng Xiao, Karsten Kreis, Jan Kautz, and Arash Vahdat. VAEBM: A symbiosis between variational autoencoders and energy-based models. In 9th International Conference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7, 2021. OpenReview.net, 2021. 6
[97] Wilson Yan, Yunzhi Zhang, Pieter Abbeel, and Aravind Srinivas. Videogpt: Video generation using VQ-VAE and transformers. CoRR, abs/2104.10157, 2021. 3
[98] Fisher Yu, Yinda Zhang, Shuran Song, Ari Seff, and Jianxiong Xiao. LSUN: construction of a large-scale image dataset using deep learning with humans in the loop. CoRR, abs/1506.03365, 2015. 5, 6
[99] Jiahui Yu, Xin Li, Jing Yu Koh, Han Zhang, Ruoming Pang, James Qin, Alexander Ku, Yuanzhong Xu, Jason Baldridge, and Yonghui Wu. Vector-quantized image modeling with improved vqgan, 2021. 3, 4
[100] Jiahui Yu, Zhe L. Lin, Jimei Yang, Xiaohui Shen, Xin Lu, and Thomas S. Huang. Free-form image inpainting with gated convolution. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), pages 4470–4479, 2019. 8
[101] K. Zhang, Jingyun Liang, Luc Van Gool, and Radu Timofte. Designing a practical degradation model for deep blind image super-resolution. ArXiv, abs/2103.14006, 2021. 21
[102] Richard Zhang, Phillip Isola, Alexei A. Efros, Eli Shechtman, and Oliver Wang. The unreasonable effectiveness of deep features as a perceptual metric. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 3, 7, 16
[103] Shengyu Zhao, Jianwei Cui, Yilun Sheng, Yue Dong, Xiao Liang, Eric I-Chao Chang, and Yan Xu. Large scale image completion via co-modulated generative adversarial networks. ArXiv, abs/2103.10428, 2021. 8
[104] Bolei Zhou, `Agata Lapedriza, Aditya Khosla, Aude Oliva, and Antonio Torralba. Places: A 10 million image database for scene recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40:1452–1464, 2018. 8, 24
[105] Yufan Zhou, Ruiyi Zhang, Changyou Chen, Chunyuan Li, Chris Tensmeyer, Tong Yu, Jiuxiang Gu, Jinhui Xu, and Tong Sun. LAFITE: towards language-free training for text-to-image generation. CoRR, abs/2111.13792, 2021. 6