GPT与GAN结合生成图像——VQGAN原理解析

1、前言

这篇文章,我们讲VQ_GAN,这是一个将特征向量离散化的模型,其效果相当不错,搭配Transformer(GPT)或者CLIP使用,达到的效果在当时可谓是令人拍案叫绝!

原论文:Taming Transformers for High-Resolution Image Synthesis (arxiv.org)

参考代码:dome272/VQGAN-pytorch: Pytorch implementation of VQGAN

视频:[GPT与GAN结合生成图像——VQGAN原理解析-哔哩哔哩]

效果演示:

图像生成
在这里插入图片描述

其他任务

在这里插入图片描述

2、VQVAE

VQGAN其实是VQVAE修改过来的,是VQVAE先对VAE中的编码向量离散化。而后,VQGAN就是在VQVAE的基础上进行了一些修改,以提高其生成效果

由于这篇文章讲的是VQGAN,所以不会涉及VQVAE里面的公式推导,我们就直观的理解就行了,后续我看看是否需要补一个VQVAE

3、VQGAN

论文里面提到,VQGAN的出现的动机是针对transformer,由于transformer在NLP(自然语言处理)取得了令人惊讶的效果。所以,就有很多人尝试,是否可以将transformer应用在图像处理领域

在这篇论文之前,已经有人进行尝试,transformer可以应用在图像领域,并且取得了相当不错的效果。然而,相对于NLP,图像处理的难度却比较大,在transformer中,一句话的长度往往不会很长,里面的自注意力机制的计算量仍然可以接收;可图像处理领域的每个像素如果都要做自注意力的话,在低像素的或许还可以接收,但是一旦到了高像素,其计算量往往令人望而生畏。

受VQVAE的启发,作者先把图像通过编码器,编码成维度较低的向量,从而减少自注意力机制的计算量。并且,会把编码后的向量离散化。作者认为,在自然界中,图像本身应该是由一个个离散的量组合而成的,就好比东一个西一个,就拼成了车。

4、VQGAN流程

在这里插入图片描述

首先,从左下角开始,有一张狗的照片(红框),把这张图送给一个卷积编码器( E E E),输出向量 z ^ \hat z z^

接着,初始化一个码本(Codebook Z ∈ R ( n u m , d i m ) Z\in R^{(num,dim)} ZR(num,dim),num是码本有多少行,dim是每行多少维度),把向量 z ^ \hat z z^在像素层面上,都在码本中找到与它最像的一个向量(使用最近邻搜索)。得到 z q z_q zq(图中像素上面的数字代表码本对应位置向量)

把得到的 z q z_q zq,送给解码器G,恢复图像,然后把这张还原的图像和生成的图像,送给卷积判别器D,判断真伪。

这就是整个流程。

我们看图中的码本,码本中对应的向量,分别表示图中那只狗某一块的特征,这种就是特征的离散化,能够让特征充分解耦。

5、VQVAE的损失

VQGAN的目标,就是学习到一个足够好的码本,编码器和解码器。

在讲VQGAN之前,我们先来看VQVAE。

5.1、VQVAE重构损失

这是VQVAE的模型图(与VQGAN相比,少了判别网络D)

在这里插入图片描述

如果你知道VAE或者AE,就应该知道,我们要让编码后再解码得到的图像和原始图像很像,那就说明这两个编码和解码器足够好。所以,我们要让重构的损失最小。即
L r e c = ∣ ∣ x − x ^ ∣ ∣ 2 = ∣ ∣ x − G ( z q ) ∣ ∣ 2 L_{rec} = ||x-\hat x||^2=||x-G(z_q)||^2 Lrec=∣∣xx^2=∣∣xG(zq)2
x ^ \hat x x^表示重构出来的图像, G G G是解码器。

这是一种非常朴素的想法,但是,这里有个问题,那就是里面的 z q z_q zq z ^ \hat z z^在码本中最近邻搜索弄出来,这种最近邻匹配的方法是没有办法把梯度传递会编码器E那边的。于是,作者提出了straight-through estimator,具体做法如下,我们令
z q = z ^ + s g ( z q − z ^ ) (1) z_q = \hat z+ sg(z_q-\hat z)\tag{1} zq=z^+sg(zqz^)(1)
其中,里面的sg就是停止梯度的意思,也就是当反向传播的时候,括号里面那一项梯度不计。

于是,便有
s g = { s g = 1 ; 正向传播 s g = 0 ; 反向传播 sg=\left\{\begin{matrix}sg = 1;正向传播\\sg=0;反向传播\end{matrix}\right. sg={sg=1;正向传播sg=0;反向传播
当正向传播,把 s g = 1 sg=1 sg=1代入式(1),等式成立;反向传播的时候, s g = 0 sg=0 sg=0,会导致直接传梯度到 z ^ \hat z z^

也就是说,当正向传播时,有损失
L r e c = ∣ ∣ x − G ( z ^ + s g ( z q − z ^ ) ) ∣ ∣ 2 = ∣ ∣ x − G ( z q ) ∣ ∣ 2 L_{rec}=||x-G(\hat z+ sg(z_q-\hat z))||^2=||x-G(z_q)||^2 Lrec=∣∣xG(z^+sg(zqz^))2=∣∣xG(zq)2
反向传播时,有
L r e c = ∣ ∣ x − G ( z ^ + s g ( z q − z ^ ) ) ∣ ∣ 2 = ∣ ∣ x − G ( z ^ ) ∣ ∣ 2 L_{rec}=||x-G(\hat z+ sg(z_q-\hat z))||^2=||x-G(\hat z)||^2 Lrec=∣∣xG(z^+sg(zqz^))2=∣∣xG(z^)2
或许你会想,为什么可以这样做,这样做真的可以收敛吗?是可以的!

试想一下,当 z ^ \hat z z^通过与码本中找到最相近的向量替代原来的向量,得到 z q z_q zq,换句话说, z ^ \hat z z^ z q z_q zq是近似的,那么其更新方向也是近似相等的。

5.2、码本损失

我们要构造一个足够好的码本,去表示图像的离散特征。而我们知道 z ^ \hat z z^是编码器编码图像得到的特征,那么理所应当的,我们只需要让
L c o d e = z i ∈ Z ∣ ∣ E ( x ) − z q ∣ ∣ 2 2 L_{code}=_{z_i\in Z}||E(x)-z_q||_2^2 Lcode=ziZ∣∣E(x)zq22
z q z_q zq是像素点,在码本的对应最近邻向量。

作者认为,编码器 E E E和码本向量不应该以一样的速率优化,码本的是要学习把自己的向量与编码器的向量尽量的接近,码本的学习速率必须要快于编码器,否则码本自己优化,而不是向着编码器的方向优化。

所以将其拆分成两项
L c o d e = ∣ ∣ s g ( E ( x ) ) − z q ∣ ∣ 2 2 + β ∣ ∣ E ( x ) − s g ( z q ) ∣ ∣ 2 2 L_{code}=||sg(E(x))-z_q||_2^2+\beta ||E(x)-sg(z_q)||_2^2 Lcode=∣∣sg(E(x))zq22+β∣∣E(x)sg(zq)22
β \beta β是学习速率。取值 0.1 0.1 0.1 2.0 2.0 2.0之间,但是作者经过实验发现, β \beta β的取值对结果的影响很小,几乎没有。在VQVAE中, β = 0.25 \beta=0.25 β=0.25

5.3、总损失

故而,我们得到VQVAE的总损失函数
L V Q = L r e c + L c o d e \mathcal{L}_{VQ}=L_{rec}+L_{code} LVQ=Lrec+Lcode

6、VQGAN损失

在这里插入图片描述

6.1、感知损失

与VQVAE相比,VQGAN的作者首先把里面的重构损失 L r e c L_{rec} Lrec换成感知损失(perceptual loss)

所谓的感知损失,在一般请看下,就是把真实的图像,和解码器复原的图像,一起送给一个神经网络,比如VGG16,把这两张图像经过VGG16,都编码成特征向量,然后计算特征向量的差别,比如
L p e r = ∣ ∣ V G G ( x ) − V G G ( x ^ ) ∣ ∣ 2 (2) L_{per}=||VGG(x)-VGG(\hat x)||_2\tag{2} Lper=∣∣VGG(x)VGG(x^)2(2)
这只是举个例子,在文章中VQGAN的代码中,比这个复杂一点,它是在很多层都进行都去计算式(2)。

另外,值得注意的是,虽然论文里面写的是把重构损失换成感知损失,但是在本文上面的代码中,其实两种损失都用到了。我个人觉得也没什么不妥的,很显然重构损失是在图像层面的差异,而感知损失是特征向量的差异,所以两者加起来应当不会有什么问题。

6.2、判别网络的损失

VQGAN比VQVAE多了一个判别网络,故而加上一个判别网络的损失,以优化参数让解码器G生成的图像更好。公式如下(这是GAN的基本公式,在此不过多赘述)
L G A N ( { E , G , Z } , D ) = [ log ⁡ D ( x ) + log ⁡ ( 1 − D ( x ^ ) ) ] \mathcal{L}_{GAN}(\{E,G,Z\},D)=[\log D(x)+\log(1-D(\hat x))] LGAN({E,G,Z},D)=[logD(x)+log(1D(x^))]
因此,最终的损失函数如下
L = min ⁡ E , G , Z max ⁡ D E x ∼ p ( x ) [ L V Q ( E , G , Z ) + λ L G A N ( { E , G , Z } , D ) ] L=\min\limits_{E,G,Z}\max\limits_{D}\mathbb{E}_{x\sim p(x)}\left[\mathcal{L}_{VQ}(E,G,Z)+\lambda\mathcal{L}_{GAN}(\{E,G,Z\},D)\right] L=E,G,ZminDmaxExp(x)[LVQ(E,G,Z)+λLGAN({E,G,Z},D)]
其中, λ \lambda λ是动态变化的,其公式如下
λ = ∇ G L [ L r e c ] ∇ G L [ L G A N ] + δ \lambda = \frac{\nabla_{G_L}[\mathcal{L_{rec}}]}{\nabla_{G_L}[\mathcal{L}_{GAN}]+\delta} λ=GL[LGAN]+δGL[Lrec]
论文里面, δ = 1 0 − 6 \delta=10^{-6} δ=106 ∇ G L \nabla_{G_L} GL是关于解码器最后一层求梯度。

7、GPT及图像生成

在VQGAN里面,当训练好之后,就会得到一个训练好的编码器,解码器,以及码本。

可是,我们该如何生成图像呢?就是依靠transformer,换句话中,作者在实验的时候,其实用的是GPT2

以下为具体流程(以单张图像为例):

首先,从训练图像中,采样出一张图像。送给编码器,得到编码向量,并按像素,寻找在码本中的最近邻。但是,得到的最近邻我们不要它的向量值,只要对应的索引。

于是,我们得到的就是一行索引。比如indexs=【1,5,9,3,5,1,10,20】。

接着,只需要按照GPT的训练步骤,随机掩掉一部分值,比如indexs_mask=【1,?,?,3,5,?,10,?】

掩掉的这一部分(也就是问号),写入一些随机值,然后把indexs_mask送给GPT,让其预测出index。更准确的说,其实就是让它预测那些被掩码掉的部分,以这种方式,学习到索引之间的关系。

在这个过程中,VQGAN的参数固定不变,只训练GPT,训练完成后,就可以依靠GPT,随机初始化一个开始值,然后一点点的预测出后面的索引,得到了索引后,送给解码器,得到图像。

8、结束

其实VQGAN可以配合CLIP模型使用,达到文生图的效果。

以上,就是VQGAN的全部内容了,如有问题,还望指出。阿里嘎多!

系。

在这个过程中,VQGAN的参数固定不变,只训练GPT,训练完成后,就可以依靠GPT,随机初始化一个开始值,然后一点点的预测出后面的索引,得到了索引后,送给解码器,得到图像。

8、结束

其实VQGAN可以配合CLIP模型使用,达到文生图的效果。

以上,就是VQGAN的全部内容了,如有问题,还望指出。阿里嘎多!

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/2470.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【视频异常检测】Open-Vocabulary Video Anomaly Detection 论文阅读

Open-Vocabulary Video Anomaly Detection 论文阅读 AbstractMethod3.1. Overall Framework3.2. Temporal Adapter Module3.3. Semantic Knowledge Injection Module3.4. Novel Anomaly Synthesis Module3.5. Objective Functions3.5.1 Training stage without pseudo anomaly …

网盘——查看文件

本文主要讲解文件操作过程中,查看文件如何实现,实现步骤如下: 1、实现步骤: A、首先客户端发送查看请求(包含目录信息) B、服务器将文件名字还有文件的类型发送给客户端(只发送文件的名字&am…

Linux2.6内核进程调度队列

目录 运行队列runqueue 活跃队列&过期队列 queue[140]&优先级&队列数组下标 bitmap[5]&O(1)调度算法 nr_active active指针和expired指针 O(1)调度算法之调度过程 本篇是Linux进程概念篇的最后一篇,Linux2.6内核是一个具体的/可行的/实际的存…

【Node.js】03 —— HTTP 模块探索

🌟Node.js之HTTP模块探索✨ 🌟引言 在网络编程中,HTTP协议无处不在。在Node.js的世界里,我们可以通过内置的http模块来轻松创建HTTP服务器和客户端,实现数据的接收和发送。今天就让我们一起打开这扇门,探索…

Fisher判别示例:鸢尾花(iris)数据(R)

先读取iris数据,再用程序包MASS(记得要在使用MASS前下载好该程序包)中的线性函数lda()作判别分析: data(iris) #读入数据 iris #展示数据 attach(iris) #用变量名绑定对应数据 library(MASS) #加载MASS程序包 ldlda(Species~…

Python打怪升级(4)

在计算机领域常常有说"合法"和"非法"指的是:是否合理,是否有效,并不是指触犯了法律。 random.randint(begin,end) 详细讲解一下这个random是指模板,也就是别人写好的代码直接来用,在Python当中,…

C语言入门课程学习笔记1

C语言入门课程学习笔记1 第1课 - 概论第2课 -helloworld第3课 -数据输出第4课 -数据类型与变量第5课 - 深入数据类型与变量第6课 - 类型与变量编程练习第7课 - 程序中的数据输入 本文学习自狄泰软件学院 唐佐林老师的 C语言入门课程,图片全部来源于课程PPT&#xff…

食用油5G智能工厂数字孪生可视化平台,推进食品制造业数字化转型

食用油5G智能工厂数字孪生可视化平台,推进食品制造业数字化转型。在食用油产业中,数字化转型已成为提升生产效率、优化供应链管理、确保产品质量和满足消费者需求的关键。食用油5G智能工厂数字孪生可视化平台作为这一转型的重要工具,正在推动…

《html自用使用指南》--基于w3School实践

1.基础标签 文本输入时&#xff0c;在编辑器中的换行&#xff0c;多个空格&#xff0c;都被编辑器看作一个空格 <p> 这个段落 在源代码 中 包含 许多行 但是 浏览器 忽略了 它们。 </p>结果&#xff1a;这个段落 在源代码 中 包含 许多行 但是 浏览器…

STM32H750时钟频率和功耗以及RTC功能测试

STM32H750时钟频率和功耗和RTC功能测试 &#x1f4cc;相关篇《STM32H750片外QSPI启动配置简要》 ✨在使用STM32CubeMX修改STM32H750时钟树参数时&#xff0c;如果使用软件自动求解&#xff0c;这是一个非常耗时的操作&#xff0c;有时候还不一定成功&#xff0c;还是推荐使用手…

《ElementPlus 与 ElementUI 差异集合》el-select 差异点,如:高、宽、body插入等

宽度 Element UI 父元素不限制宽度时&#xff0c;默认有个宽度 207px&#xff1b; 父元素有固定宽度时&#xff0c;以父元素宽度为准&#xff1b; Element Plus 父元素不限制宽度时&#xff0c;默认100%&#xff1b; 父元素有固定宽度时&#xff0c;以父元素宽度为准&#x…

CDN、边缘计算与云计算:构建现代网络的核心技术

在数字化时代&#xff0c;数据的快速传输和处理是保持竞争力的关键。内容分发网络&#xff08;CDN&#xff09;、边缘计算和云计算共同构成了现代互联网基础架构的核心&#xff0c;使内容快速、安全地到达用户手中。本文将探讨这三种技术的功能、相互关系以及未来的发展趋势。 …

使用表格法插入公式和编号

如何将公式和编号优雅地插入到论文当中呢&#xff1f; 首先插入一个1行2列的表格 调整一下 输入公式方法一&#xff1a;感觉墨迹公式挺好用的&#xff0c;word自带的 输入公式方法二&#xff1a;图片转LATEX代码 这个方法更快 分享一个公式识别网站 图片识别得到LATEX代码&…

atlas 500容器(ubuntu20.04)搭建

1.docker 及环境搭建略 2.宿主机驱动安装略 3.宿主机中能正确使用npu-smi 4.docker 拉取略 5.docker 容器启动 docker run -itd --device/dev/davinci0 --device/dev/davinci_manager --device/dev/devmm_svm --device/dev/hisi_hdc -v /run/board_cfg.ini:/run/b…

Pycharm远程连接实验室服务器Conda环境配置

如何配置Pycharm和远程服务器 这类博客较多&#xff0c;参考内容 https://blog.csdn.net/fengbao24/article/details/125515542 Python解释器选择&#xff08;conda3&#xff09; 1. Settings -> Add Interpreter -> On SSH 注意&#xff0c;这里的SSH需要在你把远程…

OpenHarmony南向开发案例:【 智能家居中控】

应用场景简介 智能家居。 今天打造的这一款全新智能家庭控制系统&#xff0c;凸显应用在智能控制和用户体验的特点&#xff0c;开创国内智能家居系统体验新局面。新的系统主要应用在鸿蒙生态。 工程版本 系统版本/API版本&#xff1a;OpenHarmony SDK API 8IDE版本&#xf…

c++的策略模式,就是多态

一、定义&#xff1a; 策略模式定义了一系列的算法&#xff0c;并将每一个算法封装起来&#xff0c;而且使它们还可以相互替换。 策略模式让算法独立于使用它的客户而独立变化。 二&#xff0c;核心 抽象策略&#xff08;抽象基类&#xff09;&#xff08;Strategy&#xff09…

酷开科技逐步为用户构建健全的智慧家庭生活场景

大规模与精细化人群技术则是通过大量的计算能力和精细化的运营能力&#xff0c;建立用户专属数据储存区域&#xff0c;使得用户在使用不同电视的观影偏好和兴趣能够能够得以延续。 不拘泥于自有品牌终端数量&#xff0c;酷开系统除了集成在创维电视上&#xff0c;还服务于飞利…

idea上传项目到gitee(码云)

1、打开码云&#xff0c;新建仓库 2、创建 3、这就是创建成功的页面 4、复制仓库地址&#xff0c;后面需要用到 2、打开我们的项目&#xff1a;例如我现在的项目 1、idea创建git仓库 2、选择我们项目文件夹的目录 3、查看文件是否变色&#xff0c;变色表示成功了 4、添加到缓…

0元实现网站HTTP升级到HTTPS(免费https证书)

HTTPS就是在HTTP的基础上加入了SSL&#xff0c;将一个使用HTTP的网站免费升级到HTTPS主要包括以下几个步骤&#xff1a; 1 获取SSL证书 永久免费的https证书申请通道https://www.joyssl.com/certificate/select/free.html?nid16 免费的SSL证书同样能实现HTTPS&#xff0c;国…