深度学习中对抗生成网络GAN背后的数学原理

引言

GAN的风暴席卷了整个深度学习圈子,任何任务似乎套上GAN的壳子,立马就变得高大上了起来。那么,GAN究竟是什么呢?

GAN的主要应用目标:

生成式任务(生成、重建、超分辨率、风格迁移、补全、上采样等)

GAN的核心思想:生成器G和判别器D的一代代博弈

生成器:生成网络,通过输入生成图像

判别器:二分类网络,将生成器生成图像作为负样本,真实图像作为正样本

learn 判别器D:

给定G,通过G生成图像产生负样本,并结合真实图像作为正样本来训练D

learn 生成器G:

给定D,以使得D对G生成图像的评分尽可能接近正样本作为目标来训练G

G和D的训练过程交替进行,这个对抗的过程使得G生成的图像越来越逼真,D“打假”的能力也越来越强。

觉得不是很好理解嘛?别着急,慢慢往下看!


1 从极大似然估计说起

补充:
分布的表示:P(x)
表示该分布中采样到样本x的概率,试想如果我们知道该分布中每个样本的采样概率,那么这个分布也就可以以这种形式表示出来了。
确定分布的表示:P(x;𝜃)
其中𝜃表示该分布的参数,该分布的具体形式确定了(比如 P(x;𝜃) 可以是高斯分布,𝜃就是高斯分布的均值 µ和方差𝜌

先来介绍一下极大似然估计

1.1 极大似然估计要解决的问题

  • 给定一个数据分布 P_{data}(x)

  • 给定一个由参数𝜃定义的数据分布 P_G(x;\theta )

  • 我们希望求得参数𝜃使得 P_G(x;\theta )尽可能接近P_{data}(x)

可以理解成:

P_G(x;\theta )是某一具体的分布(比如简单的高斯分布),而 P_{data}(x)

是未知的(或者及其复杂,我们很难找到一个方式表示它),我们希望通过极大似然估计的方法来确定𝜃 ,让 P_G(x;\theta )能够大体表达P_{data}(x) 。

1.2 极大似然估计的解决方案

  1. 从 P_{data}(x) 采样m个样本 \left \{ x^1,x^2,x^3,\cdot \cdot \cdot x^m \right \}

  2. 计算采样样本的似然函数 L = \displaystyle \prod \limits_{i=1}^{m} P_G(x^i;\theta )

  3. 计算使得似然函数 L 最大的参数𝜃 : 

    图片

 这里再啰嗦一下极大似然估计为什么要这么做:

 P_{data}(x)可以理解成是非常复杂的分布,不可能用某个数学表达精确表示,因此我们只能通过抽象,使用一个具体的分布模型 P_G(x;\theta ) 近似 P_{data}(x)

所以,求 P_G(x;\theta ) 的参数 𝜃的策略就变成了:
我们认为来自 P_{data}(x) 的样本 \left \{ x^1,x^2,x^3,\cdot \cdot \cdot x^m \right \} 在 P_G(x;\theta )  分布中出现的概率越高,也就是 L = \displaystyle \prod \limits_{i=1}^{m} P_G(x^i;\theta ) 越大, P_G(x;\theta )  和   P_{data}(x) 就越接近。
因此,我们期待的𝜃就是使得 L = \displaystyle \prod \limits_{i=1}^{m} P_G(x^i;\theta ) 最大的𝜃.
即: 

图片

咱们继续推导:

图片

关于最后一步:

因为我们求取的是𝜃 ,而式一 \int _x P_{data}(x)logP_{data}(x)dx与𝜃无关,因此加上这一项并不影响等式。

加上这一项是为了后面的推导,把极大似然函数的式子化简成KL散度的表达式

(公式推导接上)

图片

KL散度:
KL(P||Q) 衡量P,Q这两个概率分布差异的方式:

图片

1.3 极大似然估计的本质

找到𝜃 使得 P_G(x;\theta ) 与目标分布 P_{data}(x) 的KL散度尽可能低,也就是使得两者的分布尽可能接近,实现用确定的分布P_G(x;\theta ) 极大似然 P_{data}(x)

2 GAN的基本思想

2.1 生成器:有问题?试试神经网络!

GAN的主要应用是集中在生成

本质就是在做一个极大似然估计的事情,我们希望可以用某一种具体的分布形式 P_G(x;\theta ) 尽可能逼真地表达分布 P_{data}(x)  ,这样我们就相当于是得到了 P_{data}(x) ,并据此分布 P_G(x;\theta ) 采样(也就是做生成式的任务):

  1. 确定具体分布的形式 P_G(x;\theta ) 

  2. 极大似然估计求得𝜃.我们认为我们可以使用 P_G(x;\theta ) 近似表达 P_{data}(x)  

  3. 基于 P_G(x;\theta ) 采样做生成

那么最直接的想法:  P_G(x;\theta ) 直接用高斯分布模型,但是高斯分布的capacity太弱了,不能很有效地推广至去拟合各种差异很大地目标图像分布

想要得到更general的 P_G(x;\theta ) ,为什么不考虑使用具有强大拟合能力的神经网络来做呢???!!!

我们不妨设计一个神经网络G来得到更general的 P_G(x;\theta ) ,大概的结构图如下:

图片

解释一下:

整体pipeline:

  1. 我们先选取一个简单的先验分布 P_{prior},并从该先验分布中采样z作为输入,输入到神经网络G,得 G(z)= x 生成图像 x .我们通过这种方式构建了生成分布  P_G(x;\theta ) 。此时该分布主要由神经网络G决定,参数𝜃由网络参数定义.我们可以通过输入z来在该分布上采样 x .

  2. 我们的目标是 P_{data}(x),我们希望我们构建的 P_G(x;\theta ) 与它尽可能接近。我们无法获得 P_{data}(x)的具体表达形式,我们只能获得它的样本。

  3. 类似极大似然估计,我们通过比较两个分布样本的差异设计loss来调节优化神经网络G的参数𝜃,从而实现将分布 P_G 向 P_{data} 拉近,从而达到用 P_G 拟合表达 P_{data} 的效果。

P_{prior}表示一个先验分布,我们生成图像 x 需要输入的code z 就是服从这个先验分布的。这个先验分布比如可以是:高斯分布

图片

指示函数 I_{\left [ G(z;\theta ) == x \right ]} 表示当 [] 内的条件为真时取值为1,为假时取值为0

也就是说分布 P_G 采样 x 的概率是所有能够使得 G(z;\theta ) == x 成立的z出现的概率之和,而z在这里是符合先验分布 P_{prior}(z) 的。

显然, P_G(x;\theta ) 的计算是非常困难的。

然而, P_G(x;\theta ) 的计算又是非常必要的,因为我们需要验证  P_G(x;\theta ) 在不断靠近 P_{data}(x) .

现在这种情况使用极大似然估计根本无从下手啊!!!

那么现在,GAN来了!!!

2.2 判别器:有问题?GAN来了!

GAN由生成器G和判别器D组成。

其实上面我们已经基本介绍了生成器G的由来了,并且我们遇到了一个问题:  P_G(x;\theta ) 极其复杂的计算方式导致使用极大似然估计根本无从下手啊!!!

为了解决这个问题,我们引入了判别器D!

现在GAN的结构就完备了!!

对于生成器G:

  1. G 是一个函数,输入 z ~ P_{prior} ,输出(上面已经介绍了)x ~ P_G

  2. 先验分布 P_{prior},  P_{prior} 和G共同决定的分布 P_G对于判别器D:

  3. D是一个函数,输入 x ~ P_G ,输出一个scalar

  4. D用于评估 P_G(x;\theta ) 和  P_{data}(x) 之间的差异(解决上一小节提出的问题)

那么,GAN的最终目标-->用符号化语言表示就是:

图片

我们的目标是得到使得式子 max_D \,\,V(G,D) 最小的生成器 G^*.

关于V:

图片

给定G, max_D \,\,V(G,D)  衡量的就是分布 P_G 和 P_{data} 的差异。

因此,arg\,\, min_G \,\,max_D \,\,V(G,D) 也就是我们需要的使得差异最小的 G .

详细解释 V(G,D) :

对于 max_D \,\,V(G,D) ​​​​​​:

固定G ,最优 D^* 最大化:

图片

假设D(x) 可以表达任何函数

此时再固定 x ,则对于 P_{data}(x)logD(x)+P_G(x)log(1-D(x)),我们可将其看成是关于D的函数: f(D)=a \,logD+b \,log(1-D)

图片

解得

图片

即:

图片

则此时对于原式 V(G,D) (将 D^* 代入):

图片

JSD表示JS散度,它是KL散度的一种变形,也表示两个分布之间的差异: 

图片

与KL散度不同,JS散度是对称的。 

以上的公式推导,证明了  max_D \,\,V(G,D) 确实是衡量了 P_{data}(x) 和 P_G(x) 之间的差异。

图片

此时,最优的G:

图片

也就是使得 JSD(P_{data}(x) \left | \right | P_G(x)) 最小的G

图片

当 JSD(P_{data}(x) \left | \right | P_G(x)) = 0 时,表示两个分布完全相同。

对于 G^* = arg \,\, min_G \,\, max_D \,\, V(G,D) ,令 L(G)=max_D \,\, V(G,D)=V(G,D^*)

我们该如何优化从而获得 G^* 呢???

我们希望通过最小化损失函数L(G) ,找到最优的G。

这一步可以通过梯度下降实现:

图片

具体算法参考:

第一代:

  1. 给定 G_0 (随机初始化)

  • 确定 D^*_0 使得 V(G_0,D)  最大。此时 V(G_0,D^*_0) , 表示 P_{data}(x) 和 P_{G_0}(x) 的JS散度

  • 梯度下降:\theta _G \leftarrow \theta _G -\eta \frac{\partial V(G,D^*_0)}{\partial \theta _G} .得到 G_1

第二代:

2. 给定 G_1

  • 确定 D^*_1 使得 V(G_1,D) 最大。此时 V(G_1,D^*_1) , 表示 P_{data}(x) 和 P_{G_1}(x) 的JS散度

  • 梯度下降:\theta _G \leftarrow \theta _G -\eta \frac{\partial V(G,D^*_1)}{\partial \theta _G} .得到 G_2 

 。。。

后面的依此类推

以上算法有一个问题:如何确定 D^* 使得 V(D,G) 最大???

也就是:给定 G,如何计算 arg \,\, max_D \,\, V(G,D) 

回答:

从 P_{data}(x) 采样 \left \{ x^1,x^2,x^3,\cdot \cdot \cdot x^m \right \}

从 P_G(x) 采样 \left \{ \tilde{x^1}, \tilde{x^2},\cdot \cdot \cdot \tilde{x^m} \right \} 

因此我们可以将 max_D \,\, V(G,D) 从期望值计算改写为对样本计算(近似估计):

图片

这很自然地让我们想到二分类问题中常使用的交叉熵loss

因此,我们不妨联想:

D是一个二分类器,参数是 \theta _D 来自  P_{data}(x) 的采样 \left \{ x^1,x^2,x^3,\cdot \cdot \cdot x^m \right \} 作为正样本

来自 P_G(x) 的采样 \left \{ \tilde{x^1}, \tilde{x^2},\cdot \cdot \cdot \tilde{x^m} \right \} 作为负样本

那么此时,我们就将问题转化成了一个二分类问题:

交叉熵loss大 --> P_{data} 和 P_G JS散度小

交叉熵loss小 --> P_{data} 和 P_G JS散度大

此时,D就是可以使用一个神经网络作为二分类器,那么确定D,也就是可以使用梯度下降来优化获得D的最终参数。

GAN的最终算法流程:

初始化参数 \theta _D(for D)和 \theta _G(for G)

对于训练的每一轮:

第一部分 学习优化判别器D:

  • 从 P_{data}(x) 采样 \left \{ x^1,x^2,x^3,\cdot \cdot \cdot x^m \right \}

  • 从 P_{prior}(z) 采样 \left \{ z^1,z^2,z^3,\cdot \cdot \cdot z^m \right \} 

  • 通过生成器 \tilde{x^i}=G(z^i) 获得生成样本 \left \{ \tilde{x^1}, \tilde{x^2},\cdot \cdot \cdot \tilde{x^m} \right \} 

  • 梯度下降更新 \theta _D来最大化 : 

    图片

    :

    图片

注:以上第一部分可以重复多次:此过程本质上是在测量两分布之间的JS散度

第二部分 学习优化生成器G:

  • 再从 P_{prior}(z) 采样另一组 \left \{ z^1,z^2,z^3,\cdot \cdot \cdot z^m \right \}  

  • 梯度下降更新 \theta _G 来最小化 : 

    图片

    :

    图片

     .实际上 \tilde{V} 第一项与G无关,梯度下降只需最小化

    图片

    即可。

注:以上过程仅一次

最后的话:

其实在GAN之前,就已经有Auto-Encoder,VAE这样的方法来使用神经网络做生成式任务了。

GAN的最大的创新就是在于非常精妙地引入了判别器,从样本的维度解决了衡量两个分布差异的问题。

这种生成器和判别器对抗学习的模式,也必将在各种生成式任务中发挥其巨大的威力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/149792.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

27岁想转行IT,还来得及吗?

“种一棵树最好的时间是十年前,其次是现在! ” 任何时候,只要开始,一切都来得及,如果你真的想要转行,何时都不会晚,只要你付出相应的努力,坚持下去,一切都会朝着自己希望…

大数据可视化Echarts基础快速入门

目录 一、什么是Ehcarts? 二、如何使用Echarts (1)引入Echarts的js文件 (2)查看文档,根据文档编写代码 一、什么是Ehcarts? 首先我们要知道什么数据可视化。什么是数据可视化?…

go-zero微服务的使用

一、入门案例 1、使用goland创建一个工程 2、新建一个user.proto syntax "proto3";package user; // 这个地方表示生成的go的包名叫user option go_package "./user";message UserInfoRequest {int64 userId 1; }message UserInfoResponse {int64 user…

深度学习人体跌倒检测 -yolo 机器视觉 opencv python 计算机竞赛

0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 **基于深度学习的人体跌倒检测算法研究与实现 ** 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐! 🥇学长这里给一个题目综合评分(每项满…

Frames X for figma 组件库设计系统 Local Variables下载

简而言之,Frames X 是最出色、易于使用且文档齐全的Figma 设计系统之一。 它包括经过深思熟虑的设计指南和现成的组件,并且还提供一本全面的电子书,其中将详细解释如何使用该套件中包含的所有内容。 事实上,电子书使Frames X 与…

【docker】Docker网络与iptables

Docker能为我们提供很强大和灵活的网络能力,很大程度上要归功于与iptables的结合。在使用时,你可能没有太关注到 iptables在其中产生的作用,这是因为Docker已经帮我们自动的完成了相关的配置。 iptables在Docker中的应用主要是用于网络流量控…

【机器学习】特征工程:特征选择、数据降维、PCA

各位同学好,今天我和大家分享一下python机器学习中的特征选择和数据降维。内容有: (1)过滤选择;(2)数据降维PCA;(3)sklearn实现 那我们开始吧。 一个数据集中…

es的优势

系列文章目录 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 例如:第一章 Python 机器学习入门之pandas的使用 提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目…

【论文精读】VOYAGER: An Open-Ended Embodied Agent with Large Language Models

Understanding LSTM Networks 前言Abstract1 Introduction2 Method2.1 Automatic Curriculum2.2 Skill Library2.3 Iterative Prompting Mechanism 3 Experiments3.1 Experimental Setup3.2 Baselines3.3 Evaluation Results3.4 Ablation Studies3.5 Multimodal Feedback from …

vscode 设置vue3 通用页面模板

实现效果&#xff1a; 实现步骤&#xff1a; 1.在项目的 .vscode 目录下创建一个名为 vue3.2.code-snippets 的文件&#xff0c;它是一个 JSON 格式的代码片段文件 {"Vue3.2快速生成模板": {"prefix": "Vue3.2","body": ["<…

RK3568 AD按键改成GPIO按键

authordaisy.skye的博客_CSDN博客-嵌入式,Qt,Linux领域博主 相对路径 kernel/arch/arm64/boot/dts/rockchip/ido-evb3568-v2b.dtsi 代码解析 linux,input-type <1>;//input类型 <EV_KEY>按键 即1 gpios <&gpio1 RK_PB2 GPIO_ACTIVE_HIGH>;//io脚地址…

深入浅出讲解python闭包

一、定义 在 Python 中&#xff0c;当一个函数内部定义的函数引用了外部函数的局部变量时&#xff0c;就形成了一个闭包。这个内部函数可以访问并修改外部函数的局部变量&#xff0c;而这些局部变量的状态会一直被保存在闭包中&#xff0c;即使外部函数已经执行完毕。 这种机…

springboot上传文件后显示权限不足

前言&#xff1a; 最近一个老项目迁移&#xff0c;原本一直好好的&#xff0c;迁移后上传文件的功能使用不正常&#xff0c;显示文件没有可读取权限&#xff0c;这个项目并不是我们开发和配置的&#xff0c;由第三方开发的&#xff0c;我们只是接手一下。 前端通过api上传文件…

深度学习人脸表情识别算法 - opencv python 机器视觉 计算机竞赛

文章目录 0 前言1 技术介绍1.1 技术概括1.2 目前表情识别实现技术 2 实现效果3 深度学习表情识别实现过程3.1 网络架构3.2 数据3.3 实现流程3.4 部分实现代码 4 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; 深度学习人脸表情识别系…

16位 (MCU) R7F101G6G3CSP、R7F101G6E3CSP、R7F101G6G2DSP、R7F101G6E2DSP是新一代RL78通用微控制器

产品描述 RL78/G24微控制器具有RL78系列MCU的最高处理性能&#xff0c;CPU工作频率高达48MHz&#xff0c;设有灵活的应用加速器 (FAA)。FAA是一款专门用于算法运算的协处理器&#xff0c;可以独立于CPU运行&#xff0c;提供更高处理能力。RL78/G24 MCU具有增强的模拟功能和大量…

SQL零基础入门教程,贼拉详细!贼拉简单! 速通数据库期末考!(九)

UNION ALL UNION ALL 用于合并两个或多个 SELECT 语句的结果。 请注意&#xff0c;UNION ALL 合并的每个 SELECT 语句必须是查询相同数量&#xff0c;相同数据类型的字段&#xff0c;且顺序也必须一致。另外结果集中的列名总是等于 UNION ALL 中第一个 SELECT 语句中的列名。 …

xlua源码分析(三)C#访问lua的映射

xlua源码分析&#xff08;三&#xff09;C#访问lua的映射 上一节我们主要分析了lua call C#的无wrap实现。同时我们在第一节里提到过&#xff0c;C#使用LuaTable类持有lua层的table&#xff0c;以及使用Action委托持有lua层的function。而在xlua的官方文档中&#xff0c;推荐使…

Vatee万腾科技创新之舟:Vatee数字化力量引领未来的独特路径

在数字化的大潮中&#xff0c;Vatee万腾如一艘科技创新之舟&#xff0c;在未来的海洋中翱翔。vatee万腾以强大的数字化力量为桨&#xff0c;引领着行业向着新的、独特的路径前行&#xff0c;塑造着数字时代的未来。 Vatee万腾不仅仅是一家科技公司&#xff0c;更是一艘创新之舟…

光伏拉晶厂RFID智能化生产工序管理

一、项目背景 随着全球能源短缺和气候变暖的挑战日益突显&#xff0c;清洁能源已成为国内能源发展的主要目标之一&#xff0c;作为清洁能源的重要组成部分&#xff0c;光伏行业在过去几十年中取得了巨大的发展&#xff0c;成为我国的战略性新兴产业之一。在智能制造的大环境下…

Linux:安装软件的两种方式rpm和yum

一、rpm方式 1、简单介绍 RPM是RedHat Package Manager的缩写&#xff0c;它是Linux上打包和安装的工具。通过rpm打包的文件扩展名是.RPM。这个安装包就类似Windows系统中的.exe文件。rpm工具实现Linux上软件的离线安装。 2、软件相关信息的查询命令 查询Linux系统上所有已…