图像太宽无法输出请裁剪图像或降低分辨率然后重试_真·无监督!延世大学提出图像到图像无监督模型,实验结果超SOTA...

2f747dece107c41bb13f880dac9c5829.png

作者 | 蒋宝尚

编辑 | 丛 末

图像翻译目的是用模型将源域图像转换到目标域图像,通常涉及标签图到场景图的转换、图像风格、人脸的属性变换、标签图到场景图的转换。

图像翻译任务自生成对抗网络提出就得到了快速发展,例如经典的pix2pix、CycleGAN、StarGAN。

上述模型虽然实现了从源域图像到目标域图像的转换,但也需要一定的标签参与或者需要建立源域和目标域各自的生成器。

而近日韩国延世大学的一篇名为《Rethinking the Truly Unsupervised Image-to-Image Translation》的论文号称实现了真正的“无监督”学习。

a1f9ee8cf065c54b0c72bd243ec5ef70.png

论文地址:https://arxiv.org/pdf/2006.06500.pdf

论文的导语部分提到,近期的图像到图像的一些模型都至少使用了图像级别(输入输出对(input-output pairs))或者集合级别(set-level)(域标签)监督中的一种。后者往往被称为“无监督”,而这种方法还有一个重要的假设:域标签是先验的。

在论文中作者提出了一种真正无监督的图像到图像转换方法(truly unsupervised image-to image translation method,TUNIT),此方法既不需要“输入输出对”也不需要域标签。其通过信息理论方法学习分离图像域,并使用估计的域标签生成相应的图像。

另外,作者在不同数据集上对比了FUNIT和MSGAN这俩最先进的多域和跨域图像到图像的翻译模型。实验结果表明,作者提出的方法能成功地实现域的分离和跨域的图像翻译。在半监督环境下,作者也声称其方法的性能优于当前现有的集合级监督方法。

1

思想简介

b48c9db52d7a3d43c68a21c6f59a2fad.png

图注:方法概述如上,上图说明了模型转换猫品种的过程:1.使用引导网络的估计域训练多任务鉴别器;2.引导网络为生成器提供参考图像( reference image )的样式代码。另外,估计域再次用于GAN训练。

具体而言,作者通过三个子问题来解决这一问题:1)区分图像(即域)的集合特征;2)对输入图像的个别内容和风格进行编码;3)学习估计域之间的映射函数。

另外,作者引入了一个引导网络(guiding network),从而提供用于识别器和生成器的伪域标签和编码风格特征。为了估计域标签,作者还采用了一种能够最大化图像的域分配与其增强版本之间相互信息(mutual information)的无监督方法。这有助于引导网络将相似的图像分组在一起,并同时均匀地分隔类别。另外,通过参与图像翻译过程,引导网络还可以利用来自生成器和鉴别器的梯度。

注:增强版本是对指对原图像随机裁剪、水平翻转之后生成的图像。

对于嵌入风格码,作者采用了对比损失,其使得模型能够更好地理解图像之间的差异性,从而更好地进行表示学习。另外,引导网络和对抗性网络之间的交互,也让模型成功地分离域和翻译图像。

2

主要方法

前面也提到,引导网络有两个作用,其一是将风格代码(style code)提供给生成器,其二是将伪域标签提供给鉴别器来指导翻译。另外,生成器还会根据鉴别器的反馈合成目标域的图像,同时尊重参考图像的风格(例如毛皮图案)保持源图像的内容(例如姿势)。

主要的方法有两个部分,第一是学习如何产生域标签以及编码风格特征。

在这一部分中作者使用无监督聚类方法自动产生给定图像的域标签,也就是前面所说的最大化图像的域分配与其增强版本之间相互信息。公式如下:

8a41924b7a20f611511b8fd411248d58.png

其中

0a4629ef304499dd930117c1a2e716e5.png

为:

1e3b49c71e9b723374e0f99bb1e01be6.png

虽然L_MI提供了一种自动生成输入图像的域标签方法,但是当图像的分辨率高于64x64或样本变得复杂多样时它无法放大。因此我们作者向引导网络中添加辅助支路Estyle并施加对比损耗来克服这一点,公式如下:

47fc8abd8b214e1851636a9ef031bf22.png

第二部分是域引导下的图像到图像的翻译。这部分是为了解决翻译模式应该提供包含目标域视觉特征的逼真图像。为此作者采用了三种损失:1)对抗性损失以生成逼真的图像;2)风格对比损失以鼓励模型不忽略风格代码;3)图像重建损失以保持域不变特征。

其中,对于对抗性损失训练,作者采用多任务鉴别器,其设计目的是同时对每个领域进行歧视(discrimination)。然后仅利用估计输入图像的域的损失来计算其梯度。

另外,为了防止出现生成器忽略给定的风格代码而合成域的随机图像的退化情况,对生成器施加的风格对比损失函数如下:

647032f2f91270d2ab08a8ac251d559d.png

为了保证生成器在给定其原始风格时可以重建源图像,其施加图像重建损失为:

913d93089ac963c41d3dd4643a38ca19.png

上述公式不仅能保证生成器可以保留其输入图像的域不变性特征(例如,姿态),而且还有助于通过提取源图像的原始风格来学习引导网络的风格表示。

最后,总的训练模型公式表示如下:

4c148398187d26e0a70b056413367212.png

图注: λ是超参数。

3

实验结果

在实验部分,一共进行了三个,分别是分析目标函数和训练策略的效果、在三个未标记的数据集上进行无监督的图像到图像的翻译、在半监督监督环境下与最先进的(SOTA)技术的比较。

在训练策略效果实验中,作者选择了AnimalFaces 10数据集,并验证了引入引导网络中的对抗损失能够提高模型的整体翻译性能。通过对训练策略的研究,证实了引导网络与GAN之间的互动确实提高了翻译效果。

作者为了研究所提出的方法能够处理无监督的图像到图像的翻译,在AFHQ、FFHQ和LSUN CAR数据集上对模型进行了评估。整体结果如下图:

859b603ab160676f4c33e3dfe8860fe7.png

上图是在AFHQ野生类上训练的引导网络的t-SNE结果和来自每个域的示例图像。

9b120c8fab12ea1abb58853c56edbe4a.png

上图是定性的图像翻译结果,每幅图像由源图像和每个域中所有测试图像的平均风格码码合成。可以清晰的看出,每个输出都成功地反映了每个领域的视觉特征(即毛皮图案和颜色)以及其物种的视觉特征。

67036f137a345881c8f91ecd7ad1d729.png

FHQ和LSUN CAR的结果如图8所示。虽然还不清楚如何在FFHQ中定义“域”,但该网络成功地将图像分成了视觉上不同的类别,如眼镜、发色和刘海。

作者的第三个实验是与半监督学习环境下在两种方案下训练的最先进的翻译模型进行比较。如下图,展示了与使用朴素方案训练的基线之间的定性比较。

681d9086212beb78a932321f6349dd20.png

下图分别展示了在Summer2wendor和AnimalFaces-10上使用class-wise FID的定量结果。随着比值(γ)的降低,基线模型的性能显著下降,而作者提出的模型无论γ如何,都将FID值维持在60和45左右。

3f1a97f7457884d8f72f5a4b5eb71c41.png

招 聘

AI 科技评论希望能够招聘 科技编辑/记者 一名

办公地点:北京

职务:以跟踪学术热点、人物专访为主

工作内容:

1、关注学术领域热点事件,并及时跟踪报道;

2、采访人工智能领域学者或研发人员;

3、参加各种人工智能学术会议,并做会议内容报道。

要求:

1、热爱人工智能学术研究内容,擅长与学者或企业工程人员打交道;

2、有一定的理工科背景,对人工智能技术有所了解者更佳;

3、英语能力强(工作内容涉及大量英文资料);

4、学习能力强,对人工智能前沿技术有一定的了解,并能够逐渐形成自己的观点。

感兴趣者,可将简历发送到邮箱:jiangbaoshang@yanxishe.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/558307.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

php serialize和json_encode哪个更快_世界 10 大编程语言,Java 不是第一,PHP 才第五...

来源:toutiao.com/a6764554659349676557/如果你是软件开发领域的新手,那么你会想到的第一个问题是“如何开始?”编程语言有数百种可供选择,但是你怎么发现哪个最适合你,你的兴趣和职业目标又在哪里呢?选择最…

tomcat7.0支持什么版本的jdk_恭喜你喜提JDK,那你知道JDK是什么吗?先来看看吧

点击蓝字关注一行JDK 大家都知道电脑的操作系统是由汇编和C语言写出,因此操作系统无法直接识别其他语言。这时我们就需要为我们写的Java程序配备一名翻译官 ----- 编译环境,将Java程序翻译成电脑可以识别的程序,C或者汇编。 那么对于这个…

我的python 入门 安装 -- hello world

我的python 安装–>“hello world” 最近老听到关于python的声音,而且越来越强烈。就好奇下载了下,在win10 的应用商店下载的 够傻瓜了吧 环境变量也不用配置 直接上手 hello world了 cmd 窗口 输入 python -v 正常显示 显示版本号 不能正常显示…

记录spring、springboot集成apollo配置中心

一, spring集成apollo,前提是apollo配置中心服务端已经在运行中 上面是我在阿里云服务搭建的apollo配置中心服务端,登录后的样子。没有搭建服务端的小伙伴,请先搭建好apollo的服务端 然后点击‘创建项目’,新建测试用的项目 填…

基本农田卫星地图查询_发现谷歌地图替代网站,卫星地图街景功能都能用

众所周知,由于谷歌地图(Google Maps)在国内不能访问,很多人就没有办法通过谷歌地图来获得服务。谷歌地图是目前全球最受欢迎的世界地图网站,在2005年以前,谷歌地图就收录了美国、英国、加拿大三个国家的地图…

记录 Linux crontab 的使用

记录一次简单的Linux定时任务----》每周定时备份数据库结构及数据 环境:阿里云服务器 vim 命令:输入i/a 进入输入模式,输入完成后,esc键,退出输入模式,确定无误后,输入“:wq”,保存退出 Linux 环…

python random函数_Python随机函数random使用详解

在python中用于生成随机数的模块是random,在使用前需要import, 下面看下它的用法。1、random.randomrandom.random()用于生成一个0到1的随机符点数: 0 < n < 1.0注意&#xff1a; 以下代码在Python3.5下测试通过&#xff0c; python2版本可稍加修改描述random() 方法返回…

Graphicsmagick linux 中文水印乱码-new

文章目录Graphicsmagick linux 中文水印l乱码&#xff08;中文显示成正方形&#xff09;本人在Windows上安装Graphicsmagick 并使用Graphicsmagick 添加中文水印成功&#xff0c;但是在Linux下一直乱码&#xff0c;现将解决办法分享给有需要的朋友。 1.Linux下默认安装Graphic…

postman 使用_Postman使用方法

一 Postman背景介绍用户在开发或者调试网络程序或者是网页B/S模式的程序的时候是需要一些方法来跟踪网页请求的&#xff0c;用户可以使用一些网络的监视工具比如著名的Firebug等网页调试工具。今天给大家介绍的这款网页调试工具不仅可以调试简单的css、html、脚本等简单的网页基…

bool python 运算_python基础知识和pycharm安装

昨天大家对我(Python)有了一定的了解&#xff0c;那么今天带大家更加系统化的认识一下我&#xff0c;已经了解我的工作方式先说一下如果让我去做一件事情得需要那些“配置”&#xff0c;其实很简单的&#xff0c;不要把我想的太复杂&#xff0c;毕竟还是个单纯的孩子。让我做事…

视频显示边缘空白的真相

在多媒体开发过程中&#xff0c;难免会使用到video这一类型。但一直有部分开发者或产品人员总提出 “视频画面没有充满”其给定的窗口&#xff0c;其原因在于对视频不了解&#xff0c;想当然的去认为要“充满”。被问到此问题只能苦笑一声&#xff0c;哭笑不得。 先看下几个效果…

word公式编辑器_毕业论文里面的各种公式该如何编辑

毕业论文中很多专业都会需要书写很多公式&#xff0c;而对于对Word使用不够熟练的朋友肯定会在编辑公式上很苦恼了&#xff0c;Word自带的公式编辑器又不够方便&#xff0c;本节给大家介绍一种很方便的公式编辑方法&#xff0c;而且更改公式后公式序号会自动跟着变。安装好后打…

Gensee移动SDK之(二)协议

首先&#xff0c;对于协议而言&#xff0c;有标准的&#xff0c;也有私有的&#xff0c;就看具体使用场景的修饰与更改情况了。部分朋友在接触SDK的时候会提出此疑问&#xff0c;只能说“各怀鬼胎”。第一&#xff0c;即便我们告知我们使用的协议&#xff0c;该用sdk的时候&…

vs点击方法跳不到对于的地方_内脏脂肪怎么测?这个方法也太方便了!| EASD 2020...

我马上开始减肥还不行么&#xff1f;秋天——丰收的日子&#xff0c;看着肥美的鱼蟹&#xff0c;软糯的栗蓉&#xff0c;甜美的桂花糕&#xff0c;不认真贴秋膘都对不起这么丰盛的美食&#xff01;等等&#xff0c;别想了&#xff0c;看看肚子上层层叠起的肥肉&#xff0c;量量…

Android DDMS的打开以及查看手机页面布局层次

ddms 查看android的界面布局层次 有时候看到一个比较好的界面或体验好的界面&#xff0c;就忍不住想看看其实现结果&#xff0c;那么可以通过DDMS工具来看相连设备层次以及使用哪些view。 上图是查看微信布局展现。说明&#xff0c;这里查看的就是显示在当前屏幕上的界面&am…

fft之后求模值和相位_如何利用相位噪声测量表征时钟抖动来加速设计验证过程...

随着数据速率的提高&#xff0c;时钟抖动分析的需求也在与日俱增。在高速串行数据链路中&#xff0c;时钟抖动会影响发射机、传输线和接收机的数据抖动。时钟质量保证的测量方法也在不断发展。目前的重点是针对比特误码率(BER) 建立时钟性能和系统性能之间的直接联系。今天我们…

Android Studio 内存不足

android studio 4.2.2 编译的项目的时候&#xff0c;出现的内存不足问题&#xff0c;实际上android studio会有引导设置内存大小&#xff0c;可能都不太在意在哪个地方&#xff0c;设置完就完事了&#xff0c;在不提示的情况下可能找不到在哪设置&#xff0c;在此记录一笔。 出…

监控mysql锁定状态_企业实战Mysql不停机维护主从同步

实战环境&#xff1a;Mysql-5.7Xtrabackup-2.4Xtrabackup 介绍&#xff1a;Percona XtraBackup是一款基于MySQL的服务器的开源热备份实用程序&#xff0c;在备份过程中不会锁定数据库。它可以备份来自MySQL5.1&#xff0c;5.5&#xff0c;5.6和5.7服务器上的InnoDB&#xff0c;…

三相四线怎样查漏电_老电工支招!漏电保护器的接线方法

家居装修中&#xff0c;电路问题是比较重要的&#xff0c;尤其是现在家居中使用的电器越来越多&#xff0c;所以漏电保护器是一定要的&#xff0c;能有很好的保护作用&#xff0c;那漏电保护器接线图是怎样的呢&#xff0c;漏电保护器接线方法以及注意事项有哪些&#xff0c;快…

vc 通过句柄修改窗口大小_漫画:对象是如何被找到的?句柄 OR 直接指针?

小贴士&#xff1a;想要使用并定位 Java 对象&#xff0c;就要用到 Java 虚拟机栈&#xff08;Java Virtual Machine Stack&#xff09;&#xff0c;它描述的是 Java 方法执行的线程内存模型&#xff1a;每个方法被执行的时候&#xff0c;Java 虚拟机都会同步创建一个栈帧&…