了解GAN网络

GAN网络,第一次听说它就不明觉厉。其他网络都是对输入图像进行某种处理,得到某种特定的输出。而GAN网络居然可以“无中生有”,无论是去除马赛克,还是换脸,还是对灰度图像上色,都显得不可思议,怎么可能凭空产生多余的信息?

在做了一点初步的了解之后发现,GAN网络确实和直观的感觉一样,它不需要带标签的图像进行训练,这也是它得到Yann Lecunc称赞为机器学习十年来最有意思的想法的原因,它使无监督学习成为可能。但作为一个机器学习方法,它依然应该有机器学习的三要素:模型,策略,算法。先再介绍一下GAN网络的基本情况,再来从三要素分析之。

GAN网络(Generative Adversarial Networks),生成对抗网络,由lan Goodfellow在2014年提出,发表在NIPS会议(神经信息处理系统大会)上。https://arxiv.org/abs/1406.2661

模型

GAN网络使用了两个模型,一个是生成器Generator(属于生成模型),一个是鉴别器Discriminator(属于判别模型)。两个模型的关系是相互对抗又相互促进,就像军备竞赛一样,这也是这个网络名字的由来。生成器使用随机噪声或者潜在变量生成逼真的样本。鉴别器实质就是一个二分类器,判断当前输入是真实样本还是仿冒样本。

下面是GAN网络的基本架构。

 

从图中可以看到GAN网络基本分为G和D两部分。G和D有时相连接,有时断开,这时D的输入是真正的样本(但是不带标签)。这种特殊的连接关系实际是之后要讲的训练方法:单独交替迭代训练。

策略

训练的结果,这两个模型会达到纳什均衡,鉴别器再也分不清楚生成器生成的样本是真是假,若分类器是软判决的,那么输出的概率都分布在0.5附近,距离1和0的距离相同。

纳什均衡是博弈学中的一个概念,被广泛应用于经济学中。比如两个厂商,它们的定价策略有各种组合形式,那么存在这么一直策略组合是稳定的,在这种局面下,任何一方单独改变策略,都无法获得收益,于是没有哪一方会主动改变策略,从而继续维持稳定。GAN就是生成器和鉴别器之间的博弈。考虑鉴别器D,我们站在鉴别器的角度考虑问题。输出是概率,分布在0~1之间,1代表真实样本,0代表假样本,当D的输入是真实样本时,希望输出越大越好;当D的输入是生成器产生的假样本时,希望输出越小越好,即能正确识别真假。

考虑生成器G,我们希望G生成的样本也可以以假乱真,被D判别为近似1。

算法

具体算法还需要研究作者的文章。在这里分析一下前面提到的单独交替迭代训练。鉴别器比较容易理解,就是一个带监督的分类器。虽然说我们提供的样本是没有标签的,那只是意味着我们不知道样本图像具体的类别,我们也不需要知道,我们只需要知道它是真样本还是假样本就可以了(把真/假作为标签)。这时候鉴别器不需要和生成器相连。也可以理解为先固定生成器的参数,之后还要固定鉴别器的参数,更新生成器的权重。

对于生成网络,就需要两个模型相连,这样我们才能得到反馈。这时候保持鉴别器D的参数不变,还需要注意的是要把生成器生成的结果的标签置1,因为我们希望鉴别器能把它判为1,这样把鉴别器的输出一直逼近1就达到了训练的目的。

链接中给了使用matlab的DeepLearnToolbox生成mnist图像的例子。但是在github有说明这个项目已经不再维护,作者推荐使用Theano,torch,TensorFlow。

除了普通的GAN,还有条件GAN,让生成的样本符合我们的预期。这个条件可以是类别标签(例如 MNIST 手写数据集的类别标签),也可以是其他的多模态信息(例如对图像的描述语言)等。

使用方法分两步

    Download.

addpath(genpath('DeepLearnToolbox'));

然后就可以在test文件夹中运行测试用例了。

P.s 在matlab中使用自定义函数,要将函数定义在同名m文件中,用function修饰

Reference:

  1. 好在哪里 https://blog.csdn.net/heyc861221/article/details/80128351
  2. 单独交替迭代https://blog.csdn.net/on2way/article/details/72773771
  3. 三篇文章https://www.cnblogs.com/Charles-Wan/p/623803html
  4. DeepLearnToolbox:https://blog.csdn.net/zhenyu_zhang/article/details/78266415?locationNum=3&fps=1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493669.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

新能源汽车:大变革催生十万亿市场空间

来源:新时代证券(开文明)新能源汽车发展空间巨大,随着新能源汽车性能提升以及痛点的改善,新能源汽车带来的冲击越来越大,渗透率随之提升。根据BNEF预测,到2025年全球新能源汽车的销量将达到1100…

dlib+vs2013+opencv实现人脸特征点检测

刷知乎的时候发现dlib做特征点检测和人脸识别的效果都好于OpenCV,就想着动手玩一下。没想到也是遇坑重重。 首先,在官网 install命令和setup.py文件进行安装时报错,先是报错cmake没有找到,添加了环境变量之后仍然报错c11需要在vs…

对号入座,看看未来几年机器人是否会取代你的工作

来源:资本实验室摘要:面对未来,你是否准备好了?“机器是否会取代人类的工作”是当前讨论最多的话题之一。这主要源自于近几年以人工智能为代表的新技术的快速发展与商业化。尽管各研究机构的预测数据有所不同,但相同的…

冈萨雷斯《数字图像处理》读书笔记(十一)——表示和描述

虽然不是专门研究图像分割的(峰兄才是),但多少接触了一点,并且图像分割是图像处理中的最为复杂的,通过图像分割可以很好地认识图像处理的好多方法。今天看的是边界追踪和链码的表示。网易计算机视觉工程师的第一道选择…

细胞内钾多钠少——原初生物的第三大遗迹?

来源:科学网在我们每日的饮食中,食盐(氯化钠)是少不了的,难以想象我们怎么能够每天吃完全没有盐味的食物。不仅人类如此,许多动物,例如食草的动物如牛和羊,也会主动寻找土表盐粒。我…

冈萨雷斯《数字图像处理》读书笔记(九)——形态学图像处理

形态学来自于生物学,研究动植物的形态和结构。运用在图像中可提取如边界、骨架和凸壳。初学形态学都是在二值化的图像上研究,之后可以扩展到灰度图像。 膨胀和腐蚀 数学形态学与集合论分不开,因为形态学中的操作是基于两个集合的&#xff0…

云计算行业现状及未来发展趋势

来源:国元证券、乐晴智库摘要:按照服务类型云计算被分为IaaS、PaaS、SaaS。▌云计算产业链构成按照服务类型云计算被分为IaaS、PaaS、SaaS。IaaS基础设施及服务:IaaS主要提供计算基础设施服务,主要包括CPU、内存、存储、网络、虚拟化软件、分…

冈萨雷斯《数字图像处理》读书笔记(三)——空间滤波

滤波这个词来源于频域处理,因为它的目的就是针对频率分量而言的,滤除一定的频率分量。但其实滤波在时域(图像中对应为空域)中也可以完成相应的操作,比如低通滤波器滤除了代表细节的高频分量,我们可以直接在…

WinInet:HTTPS 请求出现无效的证书颁发机构的处理

首先,微软提供的WinInet库封装了对网页访问的方法。 最近工作需要从https服务器获取数据,都知道https和http网页的访问方式不同,多了一道证书认证程序,这样就使得https在请求起来比http要复杂的多;好在,Win…

热度下的冷思考——智能眼镜到底有没有前途?

来源:环球网我们曾期望Google眼镜能够成为革命性的新产品,因为它某种程度上实现了大家对未来的幻想。然而Google眼镜作为概念产品虽然有趣,但它仍然太不成熟,而且因为存在侵犯隐私的可能还被大众抵触,更重要的是它花去…

TFRecords文件的存储与读取

将cats和dogs两个文件夹各1000张图片存储为:train.tfrecords#将图片文件生成train record import os import tensorflow as tf from PIL import Image #生成cats和dogs的record文件 path./data/train filenamesos.listdir(path) writertf.python_io.TFRecordWriter(…

对比激光SLAM与视觉SLAM:谁会成为未来主流趋势?

来源:智车科技摘要:SLAM(同步定位与地图构建),是指运动物体根据传感器的信息,一边计算自身位置,一边构建环境地图的过程,解决机器人等在未知环境下运动时的定位与地图构建问题。目前…

链表中的指针

中期答辩改在了国庆之后,终于有时间可以看看剑指offer了。在看到单向链表的部分,对指针,尤其是头指针有点疑惑。首先容易理解的是链表的节点是一个结构体,该结构体包含一个数据(一般是int型),还…

实现TFrecords文件的保存与读取

import os import cv2 import numpy as np import tensorflow as tf """ 将train文件夹下的cats和dog文件夹处理成train.tfrecords放在train文件夹里 """ #将图片的路径和对应的标签存储在list中返回 def deal(dir):images []temp []for root,…

工具推荐-css3渐变生成工具

今天工作用到了css3渐变,但是写起来才发现太麻烦了,而却很浪费时间,所以在这里向大家推荐一个在线的css3 渐变生成工具 地址是:http://www.colorzilla.com/gradient-editor/ 这个工具是可视化视图,用起来就和photoshop…

神经网络相关的笔试题目集合(一)

在找工作的过程中发现好多公司没有专门的、传统的图像处理岗位,所以只能参加算法类的笔试甚至AI类的笔试。在AI的笔试中几乎全是关于神经网络的问题,其实也都是很基础的一些问题,如果事先做了准备,可以从容应对。而对于我这种从传…

中美超算“你追我赶” 中国优势可圈可点

来源:新华网摘要:中美超算“你追我赶” 中国优势可圈可点新一期全球超级计算机500强榜单12日在美国达拉斯发布。与半年前的榜单相比,全球格局变化不大,美国在最快超算上…

吴恩达作业1:逻辑回归实现猫的分类

思路:输入样本X与随机初始权重W相乘,利用sigmoid激活函数输出值,对于二分类问题,用交叉熵损失函数来计算损失值,通过交叉熵损失函数利用链式法则求出W和b的偏导,梯度下降更新W和b即可,&#xff…

双摄与双目视觉

越来越多的手机开始上双摄,首先解释一下双摄的目的,双摄可以达到什么样的效果。首先双摄可以分为两类,一类是利用双摄获得图像中物体到镜头或者焦距的距离,得到景深信息就可以进行后续的3D重建、图像分割、背景虚化等;…

“脑补”的科学依据:眼前的黑不是黑,靠得是你的大脑

一个在眨眼的婴儿 | 图片来源:Leungcho Pan/Shutterstock撰文:Mindy Weisberger来源:科研圈编译:向菲菲人们常说:“别眨眼,精彩稍纵即逝。”但其实在我们眨眼的时候,精彩仍在我们眼前上演。我们…