文生图模型演进:AE、VAE、VQ-VAE、VQ-GAN、DALL-E 等 8 模型本文中我们回顾了 AE、VAE、VQ-VAE、VQ-VAE-2 以及 VQ-GAN、DALL-E、DALL-E mini 和 CLIP-VQ-GAN 等 8 中模型,以介绍文生图模型的演进。https://mp.weixin.qq.com/s/iFrCEpAJ3WMhB-01lZ_qIA
1.AutoEncoder(AE)
2.Variational Autoencoder(VAE)
在AE基础上引入了概率生成模型,通过在隐空间引入概率分布,使模型能够生成多样性的样本,
Encoder将输入映射到隐空间的一个点,而不同的点与点之间是没有规律的,无法基于此来decoder出预期的内容。
模型在隐空间是一个高斯分布,
3.Vector Quantised VAE(VQ-VAE)
在VAE的基础上引入了离散的、可量化的隐空间表示,有助于模型更好的理解数据中的离散结构和语义信息,同时避免过拟合。
VQ是一种数据压缩和量化的技术,它可以将连续的向量映射到一组离散的具有代表性的向量中,VQ通常用于将连续的隐空间表示映射到一个有限的、离散的codebook中,现在图像tokenizer很多都是采用这种做法。
VQ中使用argmin来获取最小距离,不可导,因此无法将encoder和decoder联合训练,作者将量化后表示的梯度拷贝到量化钱的表示,以使其连续可导。
4.VQ-VAE+PixelCNN
有了上述VQ-VAE,可以实现图像压缩,重建,codeformer的超分修复等,但是无法生成新的图像,当然可以随机生成index,然后对应生成量化后的latnet code,进而使用decoder来生成图像,但是latent code完全没有全局信息甚至局部信息,因为每个位置都是随机生成的,引入了pixelcnn来自回归的生成全局信息的latent code,进而可以生成更真实的图像。
pixelcnn是一个自回归模型,可以逐个像素生成,每个位置都可以看到之前位置的信息,这样生成的latent code能够更全面的考虑空间信息。
5.Vector Quantised VAE-2(V1-VAE-2)
6.Vector Quantised GAN(VQ-GAN)
引入了GAN,将VQ-VAE当做生成器,并加入判别器,加入了感知重建损失;将pixelcnn换成了GPT2;引入了滑动窗口自注意力机制。
7.DALLE(dVAE)
8.DALLE-mini