[23] Self-conditioned Image Generation via Generating Representations

[paper | code]

用生成对象本身作为控制信号，实现无条件图像生成。
训练阶段。Step1：用预训练模型（例如：Moco v3）提取生成对象的特征编码；Step2：基于特征编码，训练一个扩散模型RDM；Step3：基于特征编码，和大量图片，训练一个图像生成器（例如：MAGE）；
推理阶段。从RDM从采样图像特征作为控制信号，生成图片；或者生成参考图像的特征编码作为控制信号，生成图片。
优点：无需人类标注标签，实现接近使用标签的生成模型的能力。

摘要

引言

方法

实验结果

Class-unconditioned Generation

Classifier-free Guidance

Ablations

Compuational Cost

Qualitative Results

摘要

提出一种无条件图像生成框架Representation-Conditioned image Generation (RCG)；
RCG的控制信号来自自监督表征分布，该分布是预训练编码器对图片处理得到；
生成过程中，RCG使用representation diffusion model (RDM) 从该分布中采样，作为控制条件生成图像；
在ImageNet 256 x 256分辨率下测试，RCG去得了Frechet Inception Distance (FID) 3.31和Inception Score (IS) 253.4的成绩，显著改善无条件图像生成方法，缩小了与有条件图像生成方法的差距。

引言

使用图片本身特征作为控制信号的优点：1）更直观：艺术家是先形成抽象概念，再形成作品；2）更多数据：无条件图像生成使得可用的训练数据变多；3）无需标注：适合分子设计和药物探索。
本文首先使用自监督图片编码器（例如：Moco v3），计算图像特征；其次，用Representation Diffusion Model (RDM) 学习图像特征分布。这样做的优点在于：1）RDM可以捕捉图像特征分布的多样性；2）图像特征维度较低，降低计算开销。
生成过程：RDM采样图像特征分布作为控制信号，pixel generator生成图像。

方法

RCG包含3个关键部分：1）预训练自监督图像编码器；2）图像表征生成器；3）图像生成器。

图像编码器：本文使用自监督对比学习方法Moco v3作为图像编码器。本文使用映射头（projection head）后的256维表征，每个表征基于其均值和方差归一化。
图像表征生成器：RDM如下图所示，每个块包含输入层（input layer）、时间编码映射层（timestep embedding projection layer）和输出层（output layer）。每层包含LayerNorm、SiLU和线性层。图像表征生成器通过两个参数控制：块数量N和中间特征维度C。

如下图所示，RDM遵循DDIM做训练和推理。图片特征 $z_0$ ，添加噪声得到 $z_t=\sqrt{\alpha_t}z_0 + \sqrt{1-\alpha_t}\epsilon$ ；RDM的训练目标是预测去噪结果 $z_0$ 。

图像生成器：如下图所示，可以使用任意图像生成器，唯一修改是把原有的控制条件，例如文本或分类标签，替换为self-supervised learning (SSL) 表征。训练时，输入masked image，输出完整图像；推理时输入为全部mak掉的图片，输出完整图像。训练和推理时都用图像编码作为控制信号。

Classifier-free Guidance：RCG遵循Muse实现classifier-free guidance。训练时，MAGE有10%的概率，在不受SSL表征控制下生成。推理时，MAGE预测不受SSL表征控制的输出 $l_u$ 和受表征控制的 $l_c$ ，最终预测为 $l_g=l_c+\tau(l_c-l_u)$