【PyTorch][chapter 19][李宏毅深度学习]【无监督学习][ GAN]【理论】

前言：

生成对抗网络（Generative Adversarial Nets，GAN）是一种基于对抗学习的深度生成模型。

2014年，蒙特利尔博士 lan Goodfellow 发表了论文《Generative Adaversarial Networks》，

一经提出便成为了学术界研究的热点，也将生成模型的热度推向了另一个新的高峰。
对该领域要深入了解，需要重点看一下

Yann LeCun 给于GAN 高度的评价

VAE 缺陷
GAN 简介
GAN 损失函数
训练方法
GAN 应用
GAN 模型的缺陷

一 VAE 缺陷

无法产生新的风格图片

VAE 通过Decoder 产生的图片只是要尽可能的跟输入的图像相似，但是无法产生新的以假乱真的图片

二 GAN 简介

2.1 模型结构

GAN 由一个生成模型和一个鉴别模型组成.
生成模型（enerative Model)：输入特征向量z,产生假的数据,试图欺骗判别模型.
判别模型（Discriminative Model): 对生成数据进行真伪鉴别,试图识别出所有的假的数据

在训练的过程中,两个模型持续的进化和对抗,最终两个网络达到一个动态均衡：

生成器生成的图像接近真实图像分布,判别器不能识别真假图像,对于
给定图像的预测为真的概率接近0.5

2.2 算法流程（forward）

s1: 输入特征z ,通过生成网络G 得到生成图片 $x_f=G(z)$

s2 : 输入图片x(真实的图片或生成的图片),鉴别图片真假 $y=D(x)$

三 GAN 损失函数

$L=min_{G}max_{D}V(G,D)$

$=E_{x \sim p_{data(x)}}[logD(x)]+E_{x \sim p(x_f)}[1-D(x_f)]$

生成器G 和判别器D 要分开来训练.

鉴别器D：输出图片真假的概率,是一个二分类问题.用交叉熵来作为损失函数

$P_{data}:$ 真实的图片

$x_f$ : 通过生成器生成的假图片

3.1 针对判别器D

$x \sim p_{data}$ 真实的图像的采样

我们期望 $D(x)=1.0$ , 所以 $E_{x \sim p_{data(x)}}[logD(x)]$ 最大化

$x_f=G(z)$ 生成的图像：

我们期望 $D(x_f)=0.0$ ,则 $1-D(x_f)=1.0$ , 所以 $E_{z \sim p_{z}}[1-D(x_f)]$ 最大化。

在训练的鉴别器的时候我们 $L=-L$ ,把它转化为求极小值问题

3.2 针对生成器G

$x_f$ 通过生成器生成的图片

我们期望 $D(x_f)=1.0$ .

则 $1-D(x_f)=0.0$

所以 $E_{z \sim p_{z}}[1-D(x_f)]$ 最小化

四训练方法

4.1 伪代码

先训练k轮鉴别模型,再训练生成模型

4.2 训练过程

如上图：黑线真实数据的分布,

绿线生成模型产生的分布

蓝线鉴别器鉴别真假的概率

图1：

生成模型很弱,绿线和黑线分布有较大的差异,鉴别模型很容易区分出真假.

图2

生成模型通过训练进化了,调整其参数,绿线和黑线分布接近了,鉴别模型还是能够分出真假

图3

生成模型通过训练进化了,调整其参数,绿线和黑线分布一致,鉴别模型无法给出真假

识别真假的能力为50%

五 GAN的应用

基于GAN 有大量的创新应用

GitHub - open-mmlab/mmgeneration: MMGeneration is a powerful toolkit for generative models, based on PyTorch and MMCV.

1：图像生成

输入一段文字,通过生成模型得到图像。

2：图像风格迁移（CycleGAN）

把一种图像的风格转换为另一种

3 图像翻译——pix2pix模型

有一类任务叫做image-to-image translation。也就是输入和输出是来自两个不同集合（设为A和B）的图片，且我们一般认为它们是有对应关系的。比如输入黑白照片（A）输出彩色照片（B），输入轮廓照片（A）输出色彩填充照片（B）等（如图1），本文介绍的pix2pix模型所处理的就是这类任务。并且原文作者通过一系列实验，证明了conditional GAN在这类问题上的有效性，也就是说，pix2pix本质上是一种特殊的conditional GAN。

5 声音的转换(CycleGAN-VC2)

将自己的声音风格转换

六 GAN 问题

问题：

JS散度值有一个缺陷,当两个分布完全不重叠时，其JS散度值都是一个常数,以至于梯度为0

6.1 优化目标

$V(D,G)=E_{x \sim p(x)}[logD(x)]+E_{x \sim q(x)}[log(1-D(x))]$

$=\int_x p(x)logD(x)+\int_x q(x) log(1-D(x))dx$

假设：

真实的图像服从 $x \sim p(x)$ 的分布

生成的图像服从 $x \sim q(x)$ 的分布

6.2 固定生成模型G, 判别模型D优化目标

对D求微分

$\frac{p(x)}{D(x)}-\frac{q(x)}{1-D(x)}=0$

$D^{*}(x)=\frac{p(x)}{p(x)+q(x)}$

6.3 固定判别模型D,生成模型优化目标

$V(G,D)=\int_x p log \frac{p}{p+q}+\int_x q log \frac{p}{p+q}$

$=JSD(p||q)-2log2$

JS 散度度量了两个概率分布的相似度 。一般地，JS散度是对称的，其取值是 0 到 1 之间 ( “JS散度” 是基于 “KL散度” 的变体，解决了KL散度非对称的问题)。

而JS散度值有一个缺陷，当两个分布完全不重叠时，即便两个分布的中心距离有多近，其JS散度值都是一个常数，以至于梯度为0

$JSD(p||q)=\frac{1}{2 }\int_x p(x)log \frac{2p(x)}{p(x)+q(x)}dx+\frac{1}{2 }\int_x q(x)log \frac{2q(x)}{p(x)+q(x)}dx$

$=\frac{1}{2}\int p(x)log \frac{p(x)}{p(x)+q(x)}+\frac{1}{2}\int q(x)log \frac{q(x)}{p(x)+q(x)}+log2$

$=\frac{1}{2}V(G,D)+log2$

所以

$V(G,D)=2JSD(p||q)-2log2$

6.4 问题

如上图，当p(x) 和q(x) 分布完全不重叠的时候

$JSD(p||q)=log2$

$V(G,D)= -log2$

$JSD(p||q)=\frac{1}{2 }\int_x p(x)log \frac{2p(x)}{p(x)+q(x)}dx+\frac{1}{2 }\int_x q(x)log \frac{2q(x)}{p(x)+q(x)}dx$

$=\frac{1}{2}\int_{-\infty}p(x)log \frac{p(x)}{p(x)+0}+\frac{1}{2}\int_0^{\infty}q(x)log \frac{q(x)}{q(x)+0}+log2$

$=0 + log2$