论文:A Style-Based Generator Architecture for Generative Adversarial Networks(2018.12)
作者:Tero Karras, Samuli Laine, Timo Aila
链接:https://arxiv.org/abs/1812.04948
代码:https://github.com/NVlabs/stylegan
文章目录
- 1、算法概述
- 2、StyleGAN细节
- 2.1 Properties of the style-based generator
- 2.2 Disentanglement studies
1、算法概述
作者仿照style transfer提出了一种GANs结构,这种结构能自动无监督地学习到图片的高级属性,比如人脸上训练时的姿势和身份,生成图像的随机变化(例如,雀斑、头发),它可以直观地,按比例控制合成。直观上,作者想尝试将Nerual Network中的latent vector跟图片的真实属性联系起来,方便人类通过直觉就能控制图片生成的风格。最后,作者还生成了一批多样化高质量的人脸数据集。
2、StyleGAN细节
传统的隐式编码(latent code)都是从生成器的输入层输入的,如下图a所示,而作者提出的方法是通过完全省略输入层并从一个学习常数开始来改变这种设计,如下图b所示。它由两部分组成,一个是Mapping network,负责将隐式编码z变成w,这个 w 就是用来控制生成图像的style,即风格;另一个是Synthesis network,它的作用是生成图像,创新之处在于给每一层子网络都喂了A和B,A是由w转换得到的仿射变换,用于控制生成图像的风格,B是转换后的随机噪声,用于丰富生成图像的细节,即每个卷积层都能根据输入的A来调整"style"。整个网络结构还是保持了 PG-GAN(progressive growing GAN)的结构。
- 1、给定在input latent space空间的latent code,使用非线性mapping network映射到intermediate latent space空间。
- 2、将映射过程中学习到的transformation拆分style={ys, yb},其中ys为scale,yb为bias,然后应用在每个卷积层后面的AdaIN操作上,完成对generator风格的控制。AdaIN操作公式如下:
每个特征图xi均被分别归一化。从上图可以看出,作者所提的风格转移方法,是从向量w而不是示例图像中计算空间不变的风格y。作者选择在y中重用“风格”这个词,因为类似的网络架构已经用于前馈风格传递、无监督图像到图像的翻译和域混合。与更一般的特征变换相比,由于它的效率和紧凑的表示,AdaIN特别适合作者的目的。 - 3、最后,通过引入显式噪声输入,作者为生成器提供了直接生成随机细节的方法。这些是由不相关高斯噪声组成的单通道图像,为合成网络的每一层提供一个专用的噪声图像。使用学习到的特征缩放因子将噪声图像广播到所有特征映射,然后添加到相应卷积的输出中,如图上图b所示。
生成图片的质量
生成图片的质量评估指标用FID值(Frechet inception distance)来表示
通过逐步增加本文所提的方法,在两个数据集上的FID值都在不断减小。
关于损失函数,对于CELEB A-HQ使用WGAN-GP,而对于FFHQ的配置A也使用WGAN-GP,对于配置B-F使用r1正则化的非饱和损失。
从上表可以看出,与传统的生成器(B)相比,FIDs非常显著,几乎达到20%,下图显示了使用作者所提的生成器从FFHQ数据集生成的一组未经整理的新图像。经FIDs证实,平均质量很高,甚至眼镜和帽子等配件也能成功合成。
2.1 Properties of the style-based generator
作者提出的生成器架构可以通过对样式进行特定比例的修改来控制图像合成。它把映射网络和仿射变换看作是一种从学习分布中为每种风格绘制样本的方法,而生成网络是一种基于风格集合生成新图像的方法。每种风格的效果在网络中都是局部化的,即修改风格的特定子集可以预期只影响图像的某些方面。
-
Style mixing
为了鼓励网络能更好地学习到风格,作者应用了混合正则化(mixing regularization)。在训练过程中,使用两个随机潜在编码生成给定百分比的图像。具体的,作者采用两个隐式向量z1,z2输入进mapping network,同时用w1和w2分别控制风格化进程,使w1在交叉点之前应用,w2在交叉点之后应用。这种正则化技术防止网络假设相邻的样式是相关的。
下表是采用混合正则化前后对比情况
下图表明不同层级样式对图像特征的控制情况
3个不同的尺度下混合两个隐码得到的合成图像。结果表明样式的子集控制了图像的高级属性,不同尺度的样式控制了图像不同的高级属性的生成。
对于粗分辨率(42-82):用sourceB的样式覆盖souceA的样式,从sourceB中获得姿势、发型、脸型和眼镜等高级特征,而保留了sourceA中眼睛、头发、光线的颜色和更精细的面部特征。
对于中等分辨率(162-322):从sourceB那里继承了较小尺度的面部特征、发型、睁眼/闭眼,而从sourceA那里保留了姿势、大致的脸型和眼镜。
对于精细分辨率(642-10242):从sourceB带来的主要是配色方案和微观结构。 -
Stochastic variation
人体肖像中有许多方面可以被认为是随机的,比如头发、胡茬、雀斑或皮肤毛孔的确切位置。只要它们遵循正确的分布,它们中的任何一个都可以被随机化,而不会影响我们对图像的感知。
传统生成器如何实现随机多样化生成图片的,因为网络的唯一输入是通过输入层,网络需要发明一种方法来生成空间变化的伪随机数,这占用了网络的能力也隐藏了随机信号的周期性。而作者通过在每次卷积后添加逐像素噪声来回避这些问题。下图是用同一张底片使用作者的生成器产生不同的噪声实现。我们可以看到,噪声只影响随机方面,使整体组成和高级方面,如身份完好无损。图5进一步说明了将随机变化应用于不同层子集的效果。
-
Separation of global effects from stochasticity
风格的变化具有全局影响(改变姿势,身份等),但噪声只影响无关紧要的随机变化(不同的梳理头发,胡须等)。在作者所提的生成器中,风格样式之所以会影响整张图像,因为整张特征图被设置了相同的缩放和偏置值,因此,全局效果,如姿态、亮度或背景风格等都可以统一控制。同时,因为噪声是被独立地添加到每一个像素中的,所以噪声的添加适合控制局部的随机变化。若试图使用噪声控制全局风格例如用来控制摆姿势,这将导致空间不一致判决,将会受到判别器的惩罚。因此,网络在没有明确指导情况下适当地使用全局和局部控制来学习。
2.2 Disentanglement studies
生成器将输入的隐码z嵌入一个中间的隐空间。因为输入的隐空间Z必须服从训练数据的概率密度,这在一定程度上导致了不可避免的纠缠,而嵌入的中间的隐空间W不受这个限制,因此可以被解耦。如下图所示
- Perceptual path length
平面空间插值可能会在图像中产生非线性变化。这是潜伏空间纠缠不清,变异因素分离不清的表现。为了量化这种效应,我们可以测量当我们在潜在空间中执行插值时图像所经历的剧烈变化。从直觉上讲,相对于高度弯曲的潜在空间,较小弯曲的潜在空间会产生更平滑的过渡。
为了量化这种效应,作者使用基于感知的成对图像距离,该距离计算两个VGG16嵌入之间的加权差,其中权重是拟合的,因此度量标准与人类的概念相似性判断一致。 - Linear separability
如果一个隐空间是充分解耦的,应该能够找到与每个变化因子对应的方向向量。我们提出了另一种度量方法来量化这种效果,测量通过线性超平面将隐空间点分割成两个不同的集合的程度,使每个集合对应于图像的特定的二元属性。