GAN详解，公式推导解读，详细到每一步的理论推导

在看这一篇文章之前，希望熟悉掌握熵的知识，可看我写的跟熵相关的一篇博客https://blog.csdn.net/m0_59156726/article/details/138128622

1. GAN

原始论文：https://arxiv.org/pdf/1406.2661.pdf
放一张GAN的结构，如下：我们有两个网络，生成网络G和判别网络D。生成网络接收一个（符合简单分布如高斯分布或者均匀分布的）随机噪声输入，通过这个噪声输出图片，记做G(z)。判别网络的输入是x，x代表一张图片，输出D(x)代表x为真实图片的概率。最终的目的式能够生成一个以假乱真的图片，使D无法判别真假，D存在的意义是不断去督促G生成的质量

在这里插入图片描述

先拿出论文中的优化公式，后面在详解由来。
$\underset{G}{min} \underset{D}{max}V(G,D) = E_{x\sim p_{data}(x)}[logD(x)] + E_{z\sim p_{z}(z)}[log(1 - D(G(z)))]$
这里 $p_{data}(x)$ 表示真实数据的分布，z是生成器G输入的噪声， $p_{z}(z)$ 是噪声的分布，乍一看这个公式是不是很难理解。没关系，接下来，我们慢慢分析由来。

2 GAN的优化函数

2.1 判别器D

我们先看判别器D,作用是能够对真实数据 $x\sim~p_{data}(x)$ 其能够准确分辨是真，对生成的假数据G(z)能够分辨是假，那么实际上这就是一个二分类的逻辑回归问题，还记得交叉熵吗？没错这也等价于交叉熵，只不过交叉熵是负对数，优化最小交叉熵必然等价于优化以下最大值：
$\underset{D}{max}V(G,D) = E_{x\sim p_{data}(x)}[logD(x)] + E_{z\sim p_{z}(z)}[log(1 - D(G(z)))]$
看过我前面写的熵的问题，公式由来很容易懂。我们现在单独从公式来看，这个函数要想取得最大值，必然当真实数据来的时候D(x)=1，当假数据G(z)来的时候D(x)=0。这也满足我们的初衷：能够分辨真假。实际上是一个二分类。
这一步目标是优化D，G是固定的不做优化，G为上一次迭代优化后的结果，因此可简写成：
$D_G^*= \underset{D}{max}V(G,D)$

2.2 生成器G

在来看看生成器，对于生成器来说，我不想判别器D能够识别我是真假，我希望判别器识别不出来最好，理想极端情况下：D(x)=0，D(G(z))=1，也就是真的识别成假，假的识别成真。反应在优化函数上就是，是不是很好理解了
$\underset{G}{min} = E_{x\sim p_{data}(x)}[logD(x)] + E_{z\sim p_{z}(z)}[log(1 - D(G(z)))]$
当理想情况下D(x)=0，D(G(z))=1，必然是最小值优化。
同样这一步优化是优化G，D不做优化，D为上一次迭代优化后的结果，因此可简写成：
$G_D^*= \underset{G}{min}V(G,D)$

2.3 互相博弈

作者习惯上把分开的两个优化写道一起，就变成了我们最初看到的论文中的公式：
$\underset{G}{min} \underset{D}{max}V(G,D) = E_{x\sim p_{data}(x)}[logD(x)] + E_{z\sim p_{z}(z)}[log(1 - D(G(z)))]$
但是实际上，D和G在迭代过程中是分开优化的。
上面说了，我生成器又要能够准确判断真假，又要不能够判断，作为判别器他说他好难啊，怎么办呢，干脆判别器最终输出0.5，这也是理想优化结果，谁也不偏向。这也是整个GAN优化的终极目的。

3 训练过程

在这里插入图片描述
对于判别器D优化，因为这是个二分类，ylogq + (1-y)log(1-q)：对于x，标签只会为1，因此只有log(D(x))这一项；对于g(z），其标签只会为0，因此只有log(1-D(G(z)))这一项，在损失函数上， $l oss = cross E n t ry L oss (1, D (x)) + cross E n t ry L oss (0 ， D (G (z)))$
对于生成器G优化：因为D(x)这一项，并不包含生成器的优化参数，因此在求梯度的时候D(x)这一项为0，因此只有log(1-D(G(z)))这一项，损失函数： $l oss = cross E n t ry L oss (1 ， D (G (z)))$

4 在看优化

4.1 D的最优解

还记得完美的优化结果是D=0.5吗？这到底是怎么来的呢。我们先看一下对于D的优化，去求D的最优解

$\underset{D}{max}V(G,D) = E_{x\sim p_{data}(x)}[logD(x)] + E_{z\sim p_{z}(z)}[log(1 - D(G(z)))]$
写成积分形式：不知道怎么来的可以补一下概率论均值的计算。
$\underset{D}{max}V(G,D) = \int_{x}p_{data}(x)logD(x)dx + \int_{x}p_{z}(z)log(1-D(g(z)))dz$
我们考虑在优化D的时候G是不变的，并且假设，通过G生成的g(z)满足的分布为 $p_g$ ，因此上式子可写为：
$\underset{D}{max}V(G,D) = \int_{x}p_{data}(x)logD(x) + p_{g}(x)log(1-D(x)dx$
上式什么时候取得最大结果呢， $a l o g (y) + b l o g (1 - y)$ 在[0,1]上最大值是y=a/(a+b)，因此上式最大值是

$D_G^*(x)= \cfrac{p_{data}(x)}{p_{data}(x)+p_g(x)}$
以上我们得到D的最优解，但是别忘了，我们目标是G能够生成的分布pg能和pdata一致，让D真假难辨，那么此时pg = pdata，D=0.5，判别器已经模棱两可了。然而这一结果只是我们的猜测。

4.2 G的最优解

作者也是先说了pg=pdata是G的最优解，后面才证明的。让我们跟着作者思路证明一下。
D的最优解已经得到了，带入求解G最优的公式，这里作者起了个C(G)的名称，按照他的思路来，已然求C(G)的最小值
$E_{x\sim p_{data}(x)}[logD_G^*(x)] + E_{z\sim p_{z}(z)}[log(1 - D_G^*(G(z)))] \\ =E_{x\sim p_{data}(x)}[logD_G^*(x)] + E_{x\sim p_{g}}[log(1 - D_G^*(x))] \\ =E_{x\sim p_{data}(x)}[log\cfrac{p_{data}(x)}{p_{data}(x)+p_g(x)} ] + E_{x\sim p_{g}}[log(\cfrac{p_{g}(x)}{p_{data}(x)+p_g(x)} )]\\ = \int_{x}p_{data}(x)log\cfrac{p_{data}(x)}{p_{data}(x)+p_g(x)} + p_{g}(x)log\cfrac{p_g(x)}{p_{data}(x)+p_g(x)}dx\\ = \int_{x}(log2-log2)p_{data}(x) + (log2-log2)p_{g}(x) + p_{data}(x)log\cfrac{p_{data}(x)}{p_{data}(x)+p_g(x)} + p_{g}(x)log\cfrac{p_g(x)}{p_{data}(x)+p_g(x)}dx\\ =-log2\int_{x}[p_{data}(x)+p_g(x)]dx + \int_{x}p_{data}(x)(log2 +log \cfrac{p_{data}(x)}{p_{data}(x)+p_g(x)}) + p_{g}(x)(log2 + log\cfrac{p_{g}(x)}{p_{data}(x)+p_g(x)})dx$
由于对概率积分结果为1，上式继续化简为：
$\int_{x}p_{data}(x)log\cfrac{p_{data}(x)}{[p_{data}(x)+p_g(x)]/2} + \int_{x}p_{g}(x)log\cfrac{p_{g}(x)}{[p_{data}(x)+p_g(x)]/2}$
看过熵的应该知道后两项其实式散度的形式，写为散度的形式，
$KL(p_{data}(x)||\cfrac{p_{data}(x)+p_g(x)}{2})+KL(p_{g}(x)||\cfrac{p_{data}(x)+p_g(x)}{2})$
在我写熵的那篇文章里已经详细介绍和推导过，KL(P||Q)散度取最小值0的时候P=Q，因此上式最小值的情况是：
$p_{data}(x) = \cfrac{p_{data}(x)+p_g(x)}{2}$ 和 $p_{g}(x) = \cfrac{p_{data}(x)+p_g(x)}{2}$ 。这两个当且仅当 $p_{g}(x)=p_{data}(x)$ 时满足。
又因为JSD散度和KL散度有如下关系：
$\cfrac{1}{2}KL(P||M)+\cfrac{1}{2}KL(Q||M),M= \cfrac{1}{2}(P+Q)$
因此继续简化：
$C(G)=-log4+2JSD(p_{data}||p_g)$
由于JSD的散度取值为（0，log2）,当为0的时候 $p_{g}=p_{data}$ ，同样也证明了G最优解的情况是 $p_{g}=p_{data}$ 。至此也完成论文中的证明，不得不说GAN中的理论真的很强，这些理论对后面各种生成模型用处非常大。虽然GAN是历史的产物，但是他带来的价值却很高，如果想做AIGC，GAN必学习。