[paper | code]
- 用生成对象本身作为控制信号,实现无条件图像生成。
- 训练阶段。Step1:用预训练模型(例如:Moco v3)提取生成对象的特征编码;Step2:基于特征编码,训练一个扩散模型RDM;Step3:基于特征编码,和大量图片,训练一个图像生成器(例如:MAGE);
- 推理阶段。从RDM从采样图像特征作为控制信号,生成图片;或者生成参考图像的特征编码作为控制信号,生成图片。
- 优点:无需人类标注标签,实现接近使用标签的生成模型的能力。
目录
摘要
引言
方法
实验结果
Class-unconditioned Generation
Classifier-free Guidance
Ablations
Compuational Cost
Qualitative Results
摘要
- 提出一种无条件图像生成框架Representation-Conditioned image Generation (RCG);
- RCG的控制信号来自自监督表征分布,该分布是预训练编码器对图片处理得到;
- 生成过程中,RCG使用representation diffusion model (RDM) 从该分布中采样,作为控制条件生成图像;
- 在ImageNet 256 x 256分辨率下测试,RCG去得了Frechet Inception Distance (FID) 3.31和Inception Score (IS) 253.4的成绩,显著改善无条件图像生成方法,缩小了与有条件图像生成方法的差距。
引言
- 使用图片本身特征作为控制信号的优点:1)更直观:艺术家是先形成抽象概念,再形成作品;2)更多数据:无条件图像生成使得可用的训练数据变多;3)无需标注:适合分子设计和药物探索。
- 本文首先使用自监督图片编码器(例如:Moco v3),计算图像特征;其次,用Representation Diffusion Model (RDM) 学习图像特征分布。这样做的优点在于:1)RDM可以捕捉图像特征分布的多样性;2)图像特征维度较低,降低计算开销。
- 生成过程:RDM采样图像特征分布作为控制信号,pixel generator生成图像。
方法
RCG包含3个关键部分:1)预训练自监督图像编码器;2)图像表征生成器;3)图像生成器。
- 图像编码器:本文使用自监督对比学习方法Moco v3作为图像编码器。本文使用映射头(projection head)后的256维表征,每个表征基于其均值和方差归一化。
- 图像表征生成器:RDM如下图所示,每个块包含输入层(input layer)、时间编码映射层(timestep embedding projection layer)和输出层(output layer)。每层包含LayerNorm、SiLU和线性层。图像表征生成器通过两个参数控制:块数量N和中间特征维度C。
如下图所示,RDM遵循DDIM做训练和推理。图片特征,添加噪声得到;RDM的训练目标是预测去噪结果。
- 图像生成器:如下图所示,可以使用任意图像生成器,唯一修改是把原有的控制条件,例如文本或分类标签,替换为self-supervised learning (SSL) 表征。训练时,输入masked image,输出完整图像;推理时输入为全部mak掉的图片,输出完整图像。训练和推理时都用图像编码作为控制信号。
Classifier-free Guidance:RCG遵循Muse实现classifier-free guidance。训练时,MAGE有10%的概率,在不受SSL表征控制下生成。推理时,MAGE预测不受SSL表征控制的输出和受表征控制的,最终预测为
实验结果
生成了50K图像做测试