风格迁移--U-GAT-IT模型(ICLR 2020)

1 论文简介

论文题目: U-gat-it: Unsupervised generative attentional networks with adaptive layer-instance normalization for image-to-image translation
论文代码:https://github.com/taki0112/UGATIT
论文数据集:https://github.com/znxlwm/UGATIT-pytorch
本文以倒序的方式来介绍这篇论文,首先看效果,然后分析其原理。

2 效果

在这里插入图片描述
Figure 2: Visualization of the attention maps and their effects shown in the ablation experiments: (a) Source images, (b) Attention map of the generator, (c-d) Local and global attention maps of the discriminator, respectively. (e) Our results with CAM, (f) Results without CAM.
在这里插入图片描述
Figure 3: Comparison of the results using each normalization function: (a) Source images, (b) Our results, © Results only using IN in decoder with CAM, (d) Results only using LN in decoder with CAM, (e) Results only using AdaIN in decoder with CAM, (f) Results only using GN in decoder with CAM.

3 基本框架

本文提出了一种新的无监督图像到图像转换方法,以端到端的方式结合新的注意力模块和新的可学习归一化函数。

  • 注意力模块根据辅助分类器获得的注意力图,引导模型专注于区分源域和目标域的更重要的区域(帮助模型知道在哪里进行密集转换)。 与之前无法处理域之间几何变化的基于注意力的方法不同,本文的模型可以转换需要整体变化的图像和需要大形状变化的图像。
  • AdaLIN 函数帮助注意力模型灵活控制形状和纹理的变化量,而无需修改模型架构或超参数。
  • 实验结果表明,与具有固定网络架构和超参数的现有最先进模型相比,所提出的方法具有优越性。

模型分为生成器和判别器两部分,结构几乎一致。生成器比判别器多了AdaLIN算法实现的Decoder模块。
图1描述了网络结构,以生成器为例,输入图像通过Encoder编码阶段(下采样+残差模块)得到特征图,然后添加一个辅助分类引入Attention机制通过特征图的最大池化,经过全连接层输出一个节点的预测,然后将这个全连接层的参数和特征图相乘从而得到Attention的特征图。最后经过Decoder模块得到输出图像。
在这里插入图片描述
Figure 1: The model architecture of U-GAT-IT. The detailed notations are described in Section Model

本文的目标是训练一个函数 Gs→tG_{s \rightarrow t}Gst,该函数使用从每个域中抽取未配对的样本将图像从源域XsX_sXs 映射到目标域 XtX_tXt

  • 该框架由两个生成器 Gs→tG_{s \rightarrow t}GstGt→sG_{t \rightarrow s}Gts 以及两个鉴别器 DsD_sDsDtD_tDt 组成;
  • 将注意力模块集成到生成器和鉴别器中;
  • 判别器中的注意力模块引导生成器关注对生成逼真图像至关重要的区域;
  • 生成器中的注意力模块关注与其他域不同的区域(判别器注意力模块已经引导生成器聚焦了一个域,那么生成器的注意力模块则聚焦其它的域)。

3.1 生成器

在这里,我们只解释Gs→tG_{s \rightarrow t}GstDtD_tDt(见图 1),反之亦然。
符号说明:
x∈{Xs,Xt}x \in\left\{X_{s}, X_{t}\right\}x{Xs,Xt}:来自源域和目标域的样本;
Gs→tG_{s \rightarrow t}Gst:包括一个编码器EsE_sEs,一个解码器GtG_tGt,和一个辅助分类器ηs\eta_sηs
ηs(x)\eta_s(x)ηs(x):表示xxx来自XsX_sXs的概率;
Esk(x)E_{s}^{k}(x)Esk(x):编码器的第 kkk 个激活映射(map);
Eskij(x)E_{s}^{k_{i j}}(x)Eskij(x):在(i,j)(i, j)(i,j)上的值;
wskw_s^kwsk:通过使用全局平均池化和全局最大池化训练辅助分类器以学习源域的第kkk 个特征图的权重,例如:ηs(x)=σ(ΣkwskΣijEskij(x))\eta_{s}(x)=\sigma\left(\Sigma_{k} w_{s}^{k} \Sigma_{i j} E_{s}^{k_{i j}}(x)\right)ηs(x)=σ(ΣkwskΣijEskij(x))
利用 wskw_s^kwsk,可以计算一组特定领域的注意力特征图:
as(x)=ws∗Es(x)={wsk∗Esk(x)∣1≤k≤n}a_{s}(x)=w_{s} * E_{s}(x)=\left\{w_{s}^{k} * E_{s}^{k}(x) \mid 1 \leq k \leq n\right\}as(x)=wsEs(x)={wskEsk(x)1kn}
nnn:编码特征图的数量。

AdaLIN⁡(a,γ,β)=γ⋅(ρ⋅aI^+(1−ρ)⋅aL^)+β,aI^=a−μIσI2+ϵ,aL^=a−μLσL2+ϵρ←clip⁡[0,1](ρ−τΔρ)(1)\begin{array}{c} \operatorname{AdaLIN}(a, \gamma, \beta)=\gamma \cdot\left(\rho \cdot \hat{a_{I}}+(1-\rho) \cdot \hat{a_{L}}\right)+\beta, \\ \hat{a_{I}}=\frac{a-\mu_{I}}{\sqrt{\sigma_{I}^{2}+\epsilon}}, \hat{a_{L}}=\frac{a-\mu_{L}}{\sqrt{\sigma_{L}^{2}+\epsilon}} \\ \rho \leftarrow \operatorname{clip}_{[0,1]}(\rho-\tau \Delta \rho) \end{array}\tag1 AdaLIN(a,γ,β)=γ(ρaI^+(1ρ)aL^)+β,aI^=σI2+ϵaμI,aL^=σL2+ϵaμLρclip[0,1](ρτΔρ)(1)
公式(1)的符号说明:

  • γ\gammaγβ\betaβ由注意力图的全连接层动态计算;
  • μI\mu_IμI , μL\mu_LμLσI\sigma_IσI, σL\sigma_LσL 分别是通道方式、层方式均值和标准差;
  • τ\tauτ为学习速率;
  • ΔρΔ \rhoΔρ 表示优化器确定的参数更新向量(如梯度);
  • ρ\rhoρ的值被限制在[0,1][0,1][01]的范围内,只需在参数更新步骤中设置界限即可;生成器调整该值,以便在实例规范化很重要的任务中ρ\rhoρ的值接近1,而在层归一化(LN)很重要的任务中ρ\rhoρ的值接近0。在解码器的残差块中,ρ\rhoρ的值初始化为1,在解码器的上采样块中,ρ\rhoρ的值初始化为0。

公式(1)中最核心的部分是:
ρ⋅IN+(1−ρ)⋅LNaI^=a−μIσI2+ϵaL^=a−μLσL2+ϵ(2)\begin{array}{c} \rho \cdot IN+(1-\rho) \cdot LN \\ \hat{a_{I}}=\frac{a-\mu_{I}}{\sqrt{\sigma_{I}^{2}+\epsilon}} \\ \hat{a_{L}}=\frac{a-\mu_{L}}{\sqrt{\sigma_{L}^{2}+\epsilon}} \\ \end{array}\tag2 ρIN+(1ρ)LNaI^=σI2+ϵaμIaL^=σL2+ϵaμL(2)
在这里插入图片描述

  • 层归一化(Layer Norm,LN):通道(channel)方向做归一化,算CHW(通道、高、宽)的均值,主要对RNN作用明显;更多的考虑输入特征通道之间的相关性,LN比IN风格转换更彻底,但是语义信息保存不足;
  • 实例归一化(Instance Norm,IN):一个通道(channel)内做归一化,算H*W的均值,用在风格化迁移;因为在图像风格化中,生成结果主要依赖于某个图像实例,所以对整个batch归一化不适合图像风格化中,因而对HW做归一化。可以加速模型收敛,并且保持每个图像实例之间的独立;更多考虑单个特征通道的内容,IN比LN更好的保存原图像的语义信息,但是风格转换不彻底。

3.2 判别器

3.3 损失函数

模型包括四个损失函数:

  • 对抗损失:Llsgans→t=(Ex∼Xt[(Dt(x))2]+Ex∼Xs[(1−Dt(Gs→t(x)))2])L_{l s g a n}^{s \rightarrow t}=\left(\mathbb{E}_{x \sim X_{t}}\left[\left(D_{t}(x)\right)^{2}\right]+\mathbb{E}_{x \sim X_{s}}\left[\left(1-D_{t}\left(G_{s \rightarrow t}(x)\right)\right)^{2}\right]\right)Llsganst=(ExXt[(Dt(x))2]+ExXs[(1Dt(Gst(x)))2]),保证风格迁移图像的分布与目标图像分布相匹配;
  • 循环损失:Lcycle s→t=Ex∼Xs[∥x−Gt→s(Gs→t(x)))∥1]\left.L_{\text {cycle }}^{s \rightarrow t}=\mathrm{E}_{x \sim X_{s}}\left[\| x-G_{t \rightarrow s}\left(G_{s \rightarrow t}(x)\right)\right) \|_{1}\right]Lcycle st=ExXs[xGts(Gst(x)))1],保证一个图像x∈Xsx \in X_sxXs,在从XsX_sXsXtX_tXtXtX_tXtXsX_sXs一系列转化后,该图像能成功的转化回原始域;
  • 一致性损失:Lidentity s→t=Ex∼Xt[∥x−Gs→t(x)∥1]L_{\text {identity }}^{s \rightarrow t}=\mathrm{E}_{x \sim X t}\left[\left\|x-G_{s \rightarrow t}(x)\right\|_{1}\right]Lidentity st=ExXt[xGst(x)1],保证输入图像与输出图像的颜色分布相似,给定一个图像x∈Xtx \in X_txXt,在使用Gs→tG_{s→t}Gst翻译之后,图像不应该改变;
  • 分类激活映射损失:Lcams→t=−(Ex∼Xs[log⁡(ηs(x))]+Ex∼Xt[log⁡(1−ηs(x))]LcamDt=Ex∼Xt[(ηDt(x))2]+Ex∼Xs[(1−ηDt(Gs→t(x))2]\begin{array}{l} L_{c a m}^{s \rightarrow t}=-\left(\mathrm{E}_{x \sim X_{s}}\left[\log \left(\eta_{s}(x)\right)\right]+\mathrm{E}_{x \sim X_{t}}\left[\log \left(1-\eta_{s}(x)\right)\right]\right. \\ L_{c a m}^{D t}=\mathrm{E}_{x \sim X_{t}}\left[\left(\eta_{D t}(x)\right)^{2}\right]+\mathrm{E}_{x \sim X_{s}}\left[\left(1-\eta_{D t}\left(G_{s \rightarrow t}(x)\right)^{2}\right]\right. \end{array}Lcamst=(ExXs[log(ηs(x))]+ExXt[log(1ηs(x))]LcamDt=ExXt[(ηDt(x))2]+ExXs[(1ηDt(Gst(x))2],辅助分类器ηsη_sηsηDtη_{D_t}ηDt带来的损失。

最后,联合训练编码器、解码器、判别器和辅助分类器以优化最终目标函数:
min⁡Gs→t,Gt→s,ηs,ηtmax⁡Ds,Dt,ηDs,ηDtλ1Llsgan +λ2Lcycle +λ3Lidentity +λ4Lcam \min _{G_{s \rightarrow t}, G_{t \rightarrow s}, \eta_{s}, \eta_{t}} \max _{D_{s}, D_{t}, \eta_{D_{s}}, \eta_{D_{t}}} \lambda_{1} L_{\text {lsgan }}+\lambda_{2} L_{\text {cycle }}+\lambda_{3} L_{\text {identity }}+\lambda_{4} L_{\text {cam }} Gst,Gts,ηs,ηtminDs,Dt,ηDs,ηDtmaxλ1Llsgan +λ2Lcycle +λ3Lidentity +λ4Lcam 
其中λ1=1,λ2=10,λ3=10,λ4=1000\lambda_{1}=1, \lambda_{2}=10, \lambda_{3}=10, \lambda_{4}=1000λ1=1,λ2=10,λ3=10,λ4=1000Llsgan =Llsgan s→t+Llsgan t→s,Lcycle =Lcycle s→t+Lcycle t→s,Lidentity =Ldentity s→t+Lidentity t→s,Lcam =Lcam s→t+Lcam t→sL_{\text {lsgan }}=L_{\text {lsgan }}^{s \rightarrow t}+L_{\text {lsgan }}^{t \rightarrow s}, L_{\text {cycle }}=L_{\text {cycle }}^{s \rightarrow t}+L_{\text {cycle }}^{t \rightarrow s}, L_{\text {identity }}=L_{\text {dentity }}^{s \rightarrow t}+L_{\text {identity }}^{t \rightarrow s}, L_{\text {cam }}=L_{\text {cam }}^{s \rightarrow t}+L_{\text {cam }}^{t \rightarrow s}Llsgan =Llsgan st+Llsgan ts,Lcycle =Lcycle st+Lcycle ts,Lidentity =Ldentity st+Lidentity ts,Lcam =Lcam st+Lcam ts

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/507515.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

毕业大论文到底怎么写?

本文主要写给本科生的,研究生也可以作为参考。 1 题目 题目建议控制在25字以内,能突出显示自己的主要工作即可。 “问题方法”式。比如:恶意流量检测的矩阵分解算法研究,问题是恶意流量检测,方法为矩阵分解&#xf…

麻雀优化算法_多种智能优化算法应用案例分享-附代码

1.智能优化算法应用:基于灰狼算法的Otsu图像多阈值分割智能优化算法应用:基于灰狼算法的Otsu图像多阈值分割-附代码_Jack旭的博客-CSDN博客​blog.csdn.net2.智能优化算法应用:基于灰狼算法的二维Otsu图像阈值分割智能优化算法应用&#xff1…

Transform机制(1)

本文是对李宏毅老师的课程进行了整理。 视频地址为: https://www.bilibili.com/video/BV1Wv411h7kN?p35 1 引入 Transform的应用场景 2 基本原理 Transform机制由编码器(Encoder)和解码器(Decoder)构成。 编码器…

CGCKD2021大会报告整理(1)--宽度学习

本文先把这次听陈俊龙老师的报告截图发出来,后面再来整理宽度学习的基本原理。

java根据逗号拆分_Excel技巧—超实用的字符串拆分小技巧

点赞再看,养成习惯;当断不断,反受其乱。微信搜索【亦心Excel】关注这个不一样的自媒体人。本文GitHub https://github.com/hugogoos/Excel已收录,包含Excel系统学习指南系列文章,以及各种Excel资料。我们每天都在Excel…

动漫变身调研报告

1 问题描述 由于手机等移动设备计算资源有限,导致目前风格迁移模型无法在手机等移动设备上实现高分辨率图像的风格转换。 2 竞品调研 为了了解已有产品中对动漫变身技术的使用情况,通过调研,我们发现了在醒图 APP (抖音&#x…

网站维护页面_营销型企业网站有哪些功能?

营销型企业网站是企业进行网络营销的一个利器,现在也越来越多企业重视做一个营销型网站。因为网站是客户和企业在网络上互相沟通的一个平台。所以营销型网站的功能也是运营人员在运营的过程中非常重视的体验,今天牛商网就和你说说营销型企业网站有哪些功…

如何写研究周报?

本文适合准备做研究的本科生或者研究生,目前还是一个初稿,请多提宝贵建议,我会及时更新。 1 为什么要写研究周报? 锻炼自己的文档整理能力;理清自己的思路;研究周报不是写给导师看的,而是写给…

一文重新认识联邦学习

重要申明:本文转载自https://user.guancha.cn/main/content?id674888。 人工智能助力抗疫又添新场景。据报道,英国剑桥爱登布鲁克医院(Addenbrooke’s Hospital)与全球20家医院和医疗科技中心联合医疗科技领军企业英伟达采用人工…

spi四种工作模式时序图_还没学会SPI总线协议?干货都在这里

SPI总线基本概念SPI是一种高速、全双工、同步的串行通信总线,全称是Serial Peripheral Interface,使用时在芯片的管脚上只占用三根或者四根线(如果单向传输的话只需三根线就可以了),节约了芯片的管脚资源,所以在实际项目中应用也非…

命令不识别_互助问答138期:GMM命令代码中如何识别年份国家及异方差检验问题...

老师您好,有两个关于系统GMM的问题想请教一下:(1)在所学的教程里,系统GMM没有引入时间,我目前是分行业分国家的时间为T年的面板数据,请问时间应该放入xtdpdsys的命令中的哪个位置?代码是写作i.year吗&#…

【二叉树】【单调双向队列】LeetCode239:滑动窗口最大值

作者推荐 map|动态规划|单调栈|LeetCode975:奇偶跳 涉及知识点 单调双向队列 二叉树 题目 给你一个整数数组 nums,有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只向右移动一位。 返回 滑动…

如何理解马尔可夫决策过程?

1 引言 马尔可夫性:无后效性,指系统的下个状态只与当前状态信息有关,而与更早之前的状态无关; 马尔可夫链(Markov Chain, MC):系统的下一个状态只与当前状态相关; 马尔可夫决策过程(Markov Decision Proce…

雷电3接口能干嘛_acasis阿卡西斯推出首款雷电3接口WIFI6网卡:内置Intel AX200

手机、笔记本、平板等智能移动设备已经无声无息成为人们不可或缺的一部分,5G、WiFi是作为信息首发的主要通讯技术。还记得以前连接路由器的人多了就开始卡起来,这是旧式WiFi信道拥堵所造成的,随着技术发展,WiFi从802.11n到802.11a…

萤火虫小程序_9.9元起!萤火虫中秋文化节来了!特价门票限量秒杀,手慢无!...

记忆中关于儿时夏天的美好:睡莲娇绽,绿树成荫,抱着大半个西瓜对着吹风扇,叼着冰棍在院子里玩蛐蛐儿,叫上小伙伴们浅溪里扑棱水,带上手电去树林里寻萤火虫…然而充满浪漫色彩的夏天转瞬即逝,心心…

jmeter 加密解密_犯罪大师入门篇密文答案 谜之解密入门篇密文解题详解_游戏资讯...

第一关犯罪大师入门篇密文答案是什么?犯罪大师谜之解密开启了新的入门篇解密,这次的解密分为四章,每章的内容涉及猪圈密码、埃特巴什密码和元音密码三个内容。因此对玩家来讲难度是很高的,那么具体的答案是什么呢?这里就为大家带…

人工智能+录/测井数据的一些应用举例

1 横波速度的预测(油层段) https://www.bilibili.com/video/BV1xt4y1B7Mx?spm_id_from333.337.search-card.all.click 2 泥质含量的预测 https://www.bilibili.com/video/BV1tr4y1P7x6?spm_id_from333.337.search-card.all.click 3 甜点和非甜点预…