GAN原理,优缺点、应用总结

    <h1 class="csdn_top" id="gan原理优缺点应用总结"><a name="t0"></a>GAN原理,优缺点、应用总结</h1> <br>
本文已投稿至微信公众号–机器学习算法全栈工程师,欢迎关注</article><p></p>


1.GAN的 ‘前世’?

大家都知道GAN是Ian Goodfellow 2 014年放出的一篇开山之作,在深度学习界评价很高,可以说GAN的出现,给深度学习界带来了很多的研究(shui)课(lun)题(wen)。但是如果说GAN是另外一种网络的变种,不知道你是否相信呢?但是有一个人是坚信不疑的,这个人就是德国AI科学家Jürgen Schmidhuber,说到这个人可能很多人不太了解,毕竟不是像Hinton Yoshua bengio, Yan lecun这样出名的人,事实上他对AI界做出了很大的贡献,LSTM就是他在97年发明的。其本人照片如下:

640?wx_fmt=png&wxfrom=5&wx_lazy=1

OK!Jürgen Schmidhuber之所以认为GAN是其他模型的变种,主要他在92年提出了一种PM(Predictability Minimization)模型,其与GAN有一些相似之处(起码他自己这样认为),所以他一直认为GAN是goodfellow在自己PM模型上的改进。他92年提出的PM模型才是“第一个对抗网络”,而GAN跟PM的主要差别仅仅在于方向反过来了,可以把GAN名字改成“inverse PM”,即反过来的PM。并且多次与goodfellow邮件往来说明这个问题,毫无疑问得到了goodfellow的否决。事情甚至发展到Jürgen Schmidhuber在2016NIPS大会上与goodfellow公开互怼。

事情是这样子的:

2016NIPS大会上,goodfellow正在做GAN的tutorial,这时,Jürgen Schmidhuber打断了演讲,站起来首先介绍了一下自己92年提出的PM模型,其实就差直接阐明PM和GAN很相似,然后反问goodfellow,如何看待GAN和PM的相似点。

0?wx_fmt=png

外人看上去只是普通的一次提问或者辩证,但是goodfellow反应及其激烈,甚至都要发火了。原来早在GAN提出之后,他们两人就已经互相往来邮件讨论过这个问题,大概流程就是Jürgen Schmidhuber认为GAN是他的PM模型的演化,现在GAN那么出名了,goodfellow应该承认PM对GAN的贡献。Goodfellow当然说不,自己的成果平白无故被上了一个套,要谁谁也不干,而且在本质上GAN和PM也有很大的不同。但是Jürgen Schmidhuber还是不死心,以至于事情闹到了NIPS大会上,结果就是:

0?wx_fmt=png

可能是动了真怒,Goodfellow直接明说他们之前已经在邮件里讨论了这个问题,不想牵扯到NIPS大会上来做无意义的争辩,最后结果就是goodfelllow的一番话赢得了在场大佬的多次掌声。

题外话

Jürgen Schmidhuber已经五十多岁了,而且是Dalle Molle人工智能研究所的联席主任。他表示自己的早期研究常常被忽视,另外据网上传言,LeCun教授在一封电子邮件中说道,“Jürgen太想得到大家的认可,每次别人讲完话他都会站起来,说刚刚提出的东西有他的功劳,但是这种方式却不是特别恰当。”

实际上,Jürgen Schmidhuber的确对人工智能界做出了很大的贡献,LSTM就是一个典型的例子。


接下来简单介绍一下PM模型。可以用下图来表示PM模型的原理,图片来自郑华滨的知乎文章,下文有关PM的部分均是从他的文章中总结而来,以简单的文字形式来表述,详情可参考链接:

https://zhuanlan.zhihu.com/p/27159510?utm_source=wechat_session&utm_medium=social

0?wx_fmt=png


图片的左边是一个自编码器,自编码器对输入输出重构,输入数据经过编码解码后得到输出数据,输入输出存在一个重构误差,当重构误差越小时,说明自编码器中的隐藏层越能学习到表示数据的特征,但是我们希望不仅能学习到特征,而且希望学习到好的特征,于是Jürgen Schmidhuber就提出了PM模型,如何衡量好的标准,假设自编码器隐藏层学习到的特征是三维的向量,每一维用c来表示,有人认为,当每一维的特征向量是相互独立即解耦的,说明特征就很好,那么Jürgen Schmidhuber就提出使用一个预测器f(PM中的P部分),f根据其中两个维度的值去预测另外一个维度的值,如果预测的很准,说明他们C之间的独立性就很差,解耦性不好,学习到的特征不好,如果预测的很不准,说明编码器学习到的特征很好。既然这样,可以通过一个损失函数

0?wx_fmt=png

建立编码器和f预测能力之间的对抗,自编码器希望得到很好的特征表示,令c相互独立,但是f希望预测的很准,预测的准就表示c的独立性差,所以他们之间也有一种‘对抗’,然后通过对抗得到很好的特征表示。


2.PM与GAN的区别:

乍一看或许他们两个很相似,都有‘对抗’机制,实际上差别还是很大的。

首先,PM种的对抗只是相当于一种对获得好的特征表示的辅助,但是GAN的特点就是对抗训练,对抗训练是GAN 的主体。

其次,PM是从复杂分布得到的解耦分布做对抗,而GAN直接对复杂的原始分布做处理,得到最后的判别,所以说GAN或许是inversePM。

再者,PM判别每一个数据的维度,而GAN最后的判别是一维的,即对与错的程度(概率)。

而且PM的作用有限,拓展性不强,而GAN可以用在很多领域,拓展性更强。

我还是很支持GAN是原创的。

有关GAN前世就简单介绍到这里,下文介绍GAN本身的部分,包括GAN的特点,优缺点总结,常用的训练tricks,以及GAN的一些改进成果,有基础的可以直接跳过这一部分。本文的第三部分会介绍一些GAN的变种以及复现很好的GitHub代码链接,感兴趣的可以看一下。在本文的第四部分,我会列举一些GAN的应用,介绍其原理,同时附有github代码链接。

0?wx_fmt=png



2

首先,啰嗦一下什么是GAN(Generative adversarial nets),中文是生成对抗网络,他是一种生成式模型,也是一种无监督学习模型。其最大的特点是为深度网络提供了一种对抗训练的方式,此方式有助于解决一些普通训练方式不容易解决的问题。并且Yan lecun明确表示GAN是近几十年除了面包机最伟大的发明,并且希望是自己发明的GAN。

 关于GAN的入门可以参考机器学习算法全栈工程师公众号之前的文章:GAN入门与实践,里面包含了GAN的入门介绍以及生成人脸图片的实践tensorflow代码。


1. GAN诞生背后的故事:

学术界流传,GAN创始人 Ian Goodfellow 在酒吧微醉后与同事讨论学术问题,当时灵光乍现提出了GAN初步的想法,不过当时并没有得到同事的认可,在从酒吧回去后发现女朋友已经睡了,于是自己熬夜写了代码,发现还真有效果,于是经过一番研究后,GAN就诞生了,一篇开山之作。附上一张大神照片。

0?wx_fmt=png

 Ian goodfellow

0?wx_fmt=png


2. GAN的原理:

GAN的主要灵感来源于博弈论中零和博弈的思想,应用到深度学习神经网络上来说,就是通过生成网络G(Generator)和判别网络D(Discriminator)不断博弈,进而使G学习到数据的分布,如果用到图片生成上,则训练完成后,G可以从一段随机数中生成逼真的图像。G, D的主要功能是:

●  G是一个生成式的网络,它接收一个随机的噪声z(随机数),通过这个噪声生成图像 

●  D是一个判别网络,判别一张图片是不是“真实的”。它的输入参数是x,x代表一张图片,输出D(x)代表x为真实图片的概率,如果为1,就代表100%是真实的图片,而输出为0,就代表不可能是真实的图片

训练过程中,生成网络G的目标就是尽量生成真实的图片去欺骗判别网络D。而D的目标就是尽量辨别出G生成的假图像和真实的图像。这样,G和D构成了一个动态的“博弈过程”,最终的平衡点即纳什均衡点.


3. GAN的特点:

●  相比较传统的模型,他存在两个不同的网络,而不是单一的网络,并且训练方式采用的是对抗训练方式

●  GAN中G的梯度更新信息来自判别器D,而不是来自数据样本


4. GAN 的优点:

(以下部分摘自ian goodfellow 在Quora的问答)

●  GAN是一种生成式模型,相比较其他生成模型(玻尔兹曼机和GSNs)只用到了反向传播,而不需要复杂的马尔科夫链

●  相比其他所有模型, GAN可以产生更加清晰,真实的样本

●  GAN采用的是一种无监督的学习方式训练,可以被广泛用在无监督学习和半监督学习领域

●  相比于变分自编码器, GANs没有引入任何决定性偏置( deterministic bias),变分方法引入决定性偏置,因为他们优化对数似然的下界,而不是似然度本身,这看起来导致了VAEs生成的实例比GANs更模糊

●  相比VAE, GANs没有变分下界,如果鉴别器训练良好,那么生成器可以完美的学习到训练样本的分布.换句话说,GANs是渐进一致的,但是VAE是有偏差的

●  GAN应用到一些场景上,比如图片风格迁移,超分辨率,图像补全,去噪,避免了损失函数设计的困难,不管三七二十一,只要有一个的基准,直接上判别器,剩下的就交给对抗训练了。


5. GAN的缺点:

●  训练GAN需要达到纳什均衡,有时候可以用梯度下降法做到,有时候做不到.我们还没有找到很好的达到纳什均衡的方法,所以训练GAN相比VAE或者PixelRNN是不稳定的,但我认为在实践中它还是比训练玻尔兹曼机稳定的多

●  GAN不适合处理离散形式的数据,比如文本

●  GAN存在训练不稳定、梯度消失、模式崩溃的问题(目前已解决)


模式崩溃(model collapse)原因

一般出现在GAN训练不稳定的时候,具体表现为生成出来的结果非常差,但是即使加长训练时间后也无法得到很好的改善。

具体原因可以解释如下:GAN采用的是对抗训练的方式,G的梯度更新来自D,所以G生成的好不好,得看D怎么说。具体就是G生成一个样本,交给D去评判,D会输出生成的假样本是真样本的概率(0-1),相当于告诉G生成的样本有多大的真实性,G就会根据这个反馈不断改善自己,提高D输出的概率值。但是如果某一次G生成的样本可能并不是很真实,但是D给出了正确的评价,或者是G生成的结果中一些特征得到了D的认可,这时候G就会认为我输出的正确的,那么接下来我就这样输出肯定D还会给出比较高的评价,实际上G生成的并不怎么样,但是他们两个就这样自我欺骗下去了,导致最终生成结果缺失一些信息,特征不全。

关于梯度消失的问题可以参考郑华滨的令人拍案叫绝的wassertein GAN,里面给出了详细的解释,不过多重复。

0?wx_fmt=png局部极小值点

0?wx_fmt=jpeg

鞍点



为什么GAN中的优化器不常用SGD

1. SGD容易震荡,容易使GAN训练不稳定,

2. GAN的目的是在高维非凸的参数空间中找到纳什均衡点,GAN的纳什均衡点是一个鞍点,但是SGD只会找到局部极小值,因为SGD解决的是一个寻找最小值的问题,GAN是一个博弈问题。



为什么GAN不适合处理文本数据

1. 文本数据相比较图片数据来说是离散的,因为对于文本来说,通常需要将一个词映射为一个高维的向量,最终预测的输出是一个one-hot向量,假设softmax的输出是(0.2, 0.3, 0.1,0.2,0.15,0.05)那么变为onehot是(0,1,0,0,0,0),如果softmax输出是(0.2, 0.25, 0.2, 0.1,0.15,0.1 ),one-hot仍然是(0, 1, 0, 0, 0, 0),所以对于生成器来说,G输出了不同的结果但是D给出了同样的判别结果,并不能将梯度更新信息很好的传递到G中去,所以D最终输出的判别没有意义。

2. 另外就是GAN的损失函数是JS散度,JS散度不适合衡量不想交分布之间的距离。

(WGAN虽然使用wassertein距离代替了JS散度,但是在生成文本上能力还是有限,GAN在生成文本上的应用有seq-GAN,和强化学习结合的产物)



训练GAN的一些技巧

1. 输入规范化到(-1,1)之间,最后一层的激活函数使用tanh(BEGAN除外)

2. 使用wassertein GAN的损失函数,

3. 如果有标签数据的话,尽量使用标签,也有人提出使用反转标签效果很好,另外使用标签平滑,单边标签平滑或者双边标签平滑

4. 使用mini-batch norm, 如果不用batch norm 可以使用instance norm 或者weight norm

5. 避免使用RELU和pooling层,减少稀疏梯度的可能性,可以使用leakrelu激活函数

6. 优化器尽量选择ADAM,学习率不要设置太大,初始1e-4可以参考,另外可以随着训练进行不断缩小学习率,

7. 给D的网络层增加高斯噪声,相当于是一种正则



GAN的变种

自从GAN出世后,得到了广泛研究,先后几百篇不同的GANpaper横空出世,国外有大神整理了一个GAN zoo(GAN动物园),链接如下,感兴趣的可以参考一下:

https://github.com/hindupuravinash/the-gan-zoo

GitHub上已经1200+star了,顺便附上一张GAN的成果图,可见GAN的研究火热程度:

0?wx_fmt=png

由于GAN的变种实在太多,这里我只简单介绍几种比较常常用的成果,包括DCGAN,, WGAN, improved-WGAN,BEGAN,并附有详细的代码github链接。



GAN的广泛应用

1. GAN本身是一种生成式模型,所以在数据生成上用的是最普遍的,最常见的是图片生成,常用的有DCGAN WGAN,BEGAN,个人感觉在BEGAN的效果最好而且最简单。

2. GAN本身也是一种无监督学习的典范,因此它在无监督学习,半监督学习领域都有广泛的应用,比较好的论文有

Improved Techniques for Training GANs

Bayesian GAN(最新)

Good Semi-supervised Learning

3. 不仅在生成领域,GAN在分类领域也占有一席之地,简单来说,就是替换判别器为一个分类器,做多分类任务,而生成器仍然做生成任务,辅助分类器训练。

4. GAN可以和强化学习结合,目前一个比较好的例子就是seq-GAN

5. 目前比较有意思的应用就是GAN用在图像风格迁移,图像降噪修复,图像超分辨率了,都有比较好的结果,详见pix-2-pix GAN 和cycle GAN。但是GAN目前在视频生成上和预测上还不是很好。

6. 目前也有研究者将GAN用在对抗性攻击上,具体就是训练GAN生成对抗文本,有针对或者无针对的欺骗分类器或者检测系统等等,但是目前没有见到很典范的文章。

注:配图来自网络


参考文献:

https://www.zhihu.com/question/56171002/answer/148593584

http://www.inference.vc/instance-noise-a-trick-for-stabilising-gan-training/

https://github.com/soumith/ganhacks

https://github.com/hindupuravinash/the-gan-zoo

https://zhuanlan.zhihu.com/p/25071913


后续连载。。

~敬请期待~


1. GAN的入门与实践

2. 史上最详细的XGBoost实战(上)

3. 机器学习从零开始系列连载(2)——线性回归

3. Scikit-learn之决策树

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480528.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java程序员进阶必读书单

以下是我推荐给Java开发者们的一些值得一看的好书&#xff0c;从java基础开始到高级&#xff0c;以及从高级进阶到架构等的书单。 基本都是经典之作&#xff0c;可以利用工作闲暇的时间&#xff0c;系统阅读。 本文作者&#xff0c;优知学院创始人 陈睿 优知学院是IT人在线进…

胡伟 | 面向多实体人机协作消解的对比表生成自动化方法

众包实体消解实体消解&#xff08;Entity Resolution&#xff0c;简称ER&#xff09;旨在发现不同知识图谱中指称真实世界相同对象的实体。众包实体消解&#xff08;Crowd ER&#xff09;在使用机器的基础上&#xff0c;还使用人来完成实体消解任务。众包实体消解的一个常见流程…

poj 1250 解题(链表法)

http://poj.org/problem?id1250 题意大意 住宿床位有限&#xff0c;按顺序入住&#xff0c;用ABC等代表单个人&#xff0c;第1次出现代表入住&#xff0c;第2次出现代表离开 输入&#xff1a; 1 ABCBCA 代表有1个床位&#xff0c; A入住&#xff0c; B入住&#xff0c;入住…

怎样高效阅读一份深度学习项目代码?

犹豫很久要不要把读代码这个事情专门挑出来写成一篇推文。毕竟读代码嘛&#xff0c;大家可能都会读。而且笔者个人读的和写的代码量也并不足以到指导大家读代码的程度。但笔者还是决定大胆地写一点&#xff1a;就当是给自己设立今后读代码的标准&#xff0c;也将一些之前未能践…

令人拍案叫绝的Wasserstein GAN

本文后续&#xff1a;Wasserstein GAN最新进展&#xff1a;从weight clipping到gradient penalty&#xff0c;更加先进的Lipschitz限制手法 在GAN的相关研究如火如荼甚至可以说是泛滥的今天&#xff0c;一篇新鲜出炉的arXiv论文《Wasserstein GAN》却在Reddit的Machine Learnin…

java架构师进阶之独孤九剑:数据结构以及书籍推荐

这是整个java架构师连载系列&#xff0c;分为9大步骤&#xff0c;我们现在还在第一个步骤&#xff1a;程序设计和开发->数据结构与算法。 “ 如果说 Java 是自动档轿车&#xff0c;C 就是手动档吉普。数据结构呢&#xff1f;是变速箱的工作原理&#xff0c; 你完全可以不…

中文文本蕴含计算项目(88万中文文本蕴含数据集+中文文本蕴含模型)

ChineseTextualInference ChineseTextualInference project including chinese corpus build and inferecence model, 中文文本推断项目,包括88万文本蕴含中文文本蕴含数据集的翻译与构建,基于深度学习的文本蕴含判定模型构建. 项目地址:https://github.com/liuhuanyong/Chine…

论文浅尝 | 打通推荐系统与知识图谱: 第一个公开的大规模链接数据集合

本文转载自&#xff1a;RUC智能情报站&#xff0c;知乎专栏链接&#xff1a;https://zhuanlan.zhihu.com/RucAIBox前言&#xff1a;近年来&#xff0c;知识图谱&#xff08;KB&#xff09;被广泛应用于推荐系统&#xff08;RS&#xff09;&#xff0c;但尚未有公开将推荐系统物…

数据结构--链表--判断一个字符串是否为回文串(单向链表,双向链表)

回文串为首尾对称的字符串&#xff1a; 如a&#xff0c;aba&#xff0c;abba等 单链表思路 1.将字符读入链表 2.找到链表中点 3.将链表从中点断开成2条&#xff0c;将后半条反转 4.比较两条链表是否相等&#xff08;比较次数以少的为准&#xff08;长度为奇数时&#xff…

丁香园在语义匹配任务上的探索与实践

前言语义匹配是NLP领域的基础任务之一&#xff0c;直接目标就是判断两句话是否表达了相同或相似意思。其模型框架十分简洁&#xff0c;通常包含文本表示和匹配策略两个模块&#xff0c;因而很容易扩展到相关应用场景&#xff0c;如搜索、推荐、QA系统等。此类模型通常依赖数据驱…

19本高并发编程书籍推荐

Java并发编程实战 &#xff08;java并发的圣经&#xff09; 多处理器编程的艺术 &#xff08;并发编程的各种算法&#xff0c;java实现&#xff0c;有点难度&#xff09; 并发的艺术 &#xff08;多核处理器的共享内存模型中的各种算法&#xff09; Java虚拟机并发编程 &#x…

Wasserstein metric的通俗解释

Wasserstein metric的通俗解释​关注他166 人赞同了该文章本文收录在无痛的机器学习第二季目录。Wasserstein GAN可以算是GAN界的一大突破了&#xff0c;有关它的介绍和使用心得的文章也已经满天飞了&#xff0c;感兴趣的童鞋随便一搜就能好多&#xff0c;今天就不说太多大家说…

肖仰华 | 领域知识图谱落地实践中的问题与对策

本文转载自公众号&#xff1a;知识工场。肖仰华教授2万字长文为您深度剖析领域知识图谱&#xff0c;对领域知识图谱技术与落地应用中的一系列关键问题做了系统的梳理与解答。肖仰华博士&#xff0c;复旦大学计算机科学与技术学院教授&#xff0c;博士生导师&#xff0c;知识工场…

数据结构--链表--约瑟夫环问题(单向循环链表)

问题&#xff1a;一群人站成一个圆圈&#xff0c;从一个人开始报数&#xff0c;1&#xff0c; 2 &#xff0c;。。。m&#xff0c;报到m的拉出去砍了&#xff0c;求被砍的顺序和最后一个活下来的。 利用单向循环链表实现 C代码如下&#xff1a;&#xff08;参考书籍&#xff…

献给新一代人工智能后浪——《后丹》

一只小狐狸带你解锁炼丹术&NLP秘籍视频来源&#xff1a;AIZOO《后丹》那些口口声声&#xff0c;掉包调参侠的人&#xff0c;应该看着你们像我一样&#xff0c;我看着你们&#xff0c;满怀羡慕。人类积攒了几十年的科技&#xff0c;所有的模型、数据、框架和显卡&#xff0c…

神经网络算法学习---mini-batch++++mini-batch和batch的区别

Batch_Size&#xff08;批尺寸&#xff09;是机器学习中一个重要参数&#xff0c;涉及诸多矛盾&#xff0c;下面逐一展开。 首先&#xff0c;为什么需要有 Batch_Size 这个参数&#xff1f; Batch 的选择&#xff0c;首先决定的是下降的方向。如果数据集比较小&#xff0c;完全…

进阶阿里架构师:算法、编程语言、数据库、架构设计!书单推荐!

阿里架构师必读书单 数据结构与算法&#xff1a;算法、算法导论等。 编程语言&#xff1a;java编程思想、java核心技术等 模式与设计&#xff1a;设计模式、代码重构、深入理解java虚拟机 数据库&#xff1a;mysql优化、oracle、redis实战、mongodb权威指南等。 架构设计&a…

刘知远 | 语义表示学习

本文转载自公众号&#xff1a;人工智能图灵。刘知远&#xff0c;清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。2011年获得清华大学博士学位&#xff0c;已在ACL、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文60余篇&#…

数据结构--链表--LRU缓存

LRU&#xff08;Least Recently Used&#xff09;缓存策略&#xff1a; 通俗的讲就是&#xff0c;最近使用的放在最前面&#xff0c;不经常使用的放后面&#xff0c;满了就删除 C代码实现 //用单链表实现LRU策略 2019.3.17 #include <iostream> #include <string…

透过现象看机器学习:奥卡姆剃刀,没有免费的午餐,丑小鸭定理等

一只小狐狸带你解锁炼丹术&NLP 秘籍本文对PAC学习理论、没有免费的午餐定理、丑小鸭定理、奥卡姆剃刀原理等机器学习中有名的理论或定理进行了详细的梳理。在机器学习中&#xff0c;有一些非常有名的理论或定理&#xff0c;这些理论不仅有助于我们从本质理解机器学习特性&a…