论文解读——如何生成高分辨率图像PGGAN

论文：Progressive Growing of GANs for Improved Quality, Stability, and Variation（2017.10）
作者：Tero Karras, Timo Aila, Samuli Laine, Jaakko Lehtinen
链接：https://arxiv.org/abs/1710.10196
代码：https://github.com/tkarras/progressive_growing_of_gans

文章目录

1、算法概述
2、背景知识
3、Progressive Growing of GANs细节
- 3.1 Increasing Variation using Minibatch Standard Deviation
- 3.2 生成器和鉴别器的规范化
- 3.3 Multi-scale Statistical Similarity for Assessing GAN Results
4、实验

1、算法概述

本文提出了一种新的训练GAN网络的方法，通过逐步增加生成器和判别器的网络层数，让网络先从生成低分辨率开始，逐步过渡到生成高分辨率，这样可以使得训练速度加快也能使得训练更加稳定。另外，作者还提出了一种数据增强方法可以使得生成图像产生多样性，并改善了生成器和判别器之间的不良竞争关系。通过上述改进，作者构建了CELEB A数据集的更高质量版本。

2、背景知识

高分辨率图像的生成是困难的，因为更高的分辨率使得更容易将生成的图像与训练图像区分开来，从而大大放大了梯度问题。而且高分辨率由于训练显存限制必须采用小batchsize训练，这就进一步导致训练过程不稳定。所以作者的想法是可以逐步增长生成器和鉴别器，从更容易的低分辨率图像开始，并随着训练的进行添加引入更高分辨率细节的新层。

3、Progressive Growing of GANs细节

该论文主要贡献点就是提出了一种通过渐进式增加生成器和判别器网络层数来稳定训练GANs网络的训练方法，如下图所示，这种增量性质允许训练首先发现图像分布的大规模结构，然后将注意力转移到越来越精细的尺度细节上，而不必同时学习所有尺度。
在这里插入图片描述
PGGANs中生成器和鉴别器网络，它们是彼此的镜像，并且总是同步增长。在整个训练过程中，两个网络中的所有现有层都是可训练的。当向网络中添加新层时，新的层平滑地进入网络参与训练，如图下图所示。这个例子说明了从16 × 16图像(a)到32 × 32图像©的过渡。在过渡(b)期间，作者将在更高分辨率上操作的层视为残差块，其权重α从0到1线性增加。这避免了对已经训练有素的小分辨率层的突然冲击。
在这里插入图片描述
这种方式的优势是，可以让训练更加稳定，因为从小分辨率开始，网络需要学习更少的类信息和更少的模式。另一个优势是可以减小训练时间，随着GAN的逐渐增长，大多数迭代都是在较低的分辨率下完成的，根据最终输出分辨率的不同，可比的结果质量通常要快2-6倍。

3.1 Increasing Variation using Minibatch Standard Deviation

GAN倾向于只捕获训练数据中发现变化的子集，Salimans等人(2016)建议将“小批量可辨别性”(minibatch discrimination)作为解决方案。它们不仅计算单个图像的特征统计，还计算整个小批图像的特征统计，从而鼓励生成的小批图像和训练图像显示相似的统计。这是通过在鉴别器的末尾添加一个minibatch层来实现的，该层学习一个大张量，将输入激活投影到统计数据数组。为minibatch中的每个示例生成一组单独的统计数据，并将其连接到层的输出，以便鉴别器可以在内部使用统计数据。

作者大大简化了这种方法，同时也改善了变化。作者首先计算minibatch上每个空间位置的每个特征的标准差。然后，将这些估计值平均到所有特征和空间位置上，以得到一个单一的值。然后复制该值并将其连接到所有空间位置和minibatch上，从而产生一个额外的(恒定的)特征图。通过实验发现，把这一层插入到鉴别器的最后一层效果最好。

3.2 生成器和鉴别器的规范化

由于两个网络之间的不健康竞争，GAN容易产生信号强度的升级。大多数早期的解决方案通过使用批处理规范化(batch normalization)的变体来阻止这种情况。这些归一化方法最初是为了消除协变量移位而引入的。然而，作者并不认为这在GAN中是一个问题，因为作者认为GAN的实际需求是限制信号的大小和竞争。作者使用了一种不同的方法，它由两种成分组成，这两种成分都不包括可学习的参数。

EQUALIZED 学习率
作者使用简单的正态分布N(0,1)进行权重初始化，然后在运行时显式缩放权重。这种方法确保动态范围和学习速度对于所有权重都是相同的。
Pixelwise Feature Vector Normalization in Generator
为了防止由于竞争导致生成器和鉴别器中的幅度螺旋失控的情况，作者在每个卷积层之后将每个像素中的特征向量归一化为生成器中的单位长度。类似于局部响应归一化(local response normalization)的变体：

这里ε=10^-8，N代表特征图数量，a_x,y代表在像素(x,y)处原来的特征向量，而b_x,y代表在像素(x,y)处normalization后的特征向量。作者通过实验发现，这种严厉的约束似乎并没有以任何方式损害生成器，在大多数数据集上，它并没有改变结果多少，但它在需要时非常有效地防止了信号幅度的上升。

3.3 Multi-scale Statistical Similarity for Assessing GAN Results

一个好的生成器将产生其局部图像结构与所有尺度上的训练集相似的样本。作者基于这个观点提出：通过考虑从生成图像和目标图像中提取的局部图像块的拉普拉斯金字塔(Laplacian pyramid)表示分布之间的多尺度统计相似性来研究这一点。多尺度统计从16×16像素的低分辨率开始，按照标准做法，金字塔逐渐加倍，直到达到全分辨率，每一个连续的水平编码的差异到前一层的上采样版本。

直观上，较小的Wasserstein距离表明patch的分布相似，这意味着在该空间分辨率下，训练图像和生成器样本在外观和变化上都是相似的。特别是，从最低分辨率的16×16图像中提取的补丁集之间的距离表明了大尺度图像结构的相似性。