裤子换裙子,就问你GAN的这波操作秀不秀

全世界只有3.14 % 的人关注了

数据与算法之美


把照片里的绵羊换成长颈鹿、牛仔长裤换成短裙。听起来有点不可思议,但韩国科学技术院和浦项科技大学的研究人员目前已实现了这一骚操作。


他们开发的一种机器学习算法可在多个图像数据集上实现这种操作。其论文《InstaGAN: Instance-Aware Image-to-Image Translation》已被 ICLR2019 接收。


640?wx_fmt=png

长裤变短裙


图像到图像的转换系统——即学会把输入图像映射到输出图像的系统——并非什么新鲜事。去年 12 月,Google AI 研究人员开发了一种模型,该模型通过预测对象的大小、遮挡、姿势、形状等,可以逼真地将其插入照片中的合理位置。但正如 InstaGAN 的创建者在论文中所说的一样,即使当前最先进的方法仍是不够完美的。


本文要介绍的这项新研究基于 CycleGAN 实现了实例级别的图像转换。


640?wx_fmt=png

图源:Context-Aware Synthesis and Placement of Object Instances


克服了 pix2pix 在图像转换中必须一一配对的限制,给定两个无序图像集 X 和 Y,CycleGAN 可以自动对它们进行互相「翻译」。


640?wx_fmt=png


但它无法编码图像中的实例信息,因此在涉及目标类别特征的图像转换时,效果不太理想。


「由于其近期基于生成对抗网络取得的进步令人印象深刻,无监督的图像到图像转换已受到大量关注。然而,以前的方法在面对具有挑战性的任务时常常失败,尤其是当图像具有多个目标实例并且任务涉及形状的大幅变化时。」研究人员表示。


他们的解决方案是 InstaGAN 系统,该系统结合了多个任务目标的实例信息。InstaGAN 会生成图像的实例分割掩码(属于同一实例的像素组),它会结合目标的边界并同时忽略颜色等细节。


新奇的是,InstaGAN 转换了一幅图像和一组相应的实例属性,并同时力求保留背景语境。当与一种创新的技术(该技术允许其在传统硬件上处理大量实例属性)结合时,它可以推广到具有许多实例的图像。如下图所示,把两个人的牛仔裤换成裙子,把四只绵羊换成长颈鹿都不是问题。


640?wx_fmt=png

640?wx_fmt=png


「据我们所知,在我们之前,还没有人实现过图像到图像转换中的多实例转换任务。和以前在简单设置中的结果不同,我们的重点是和谐,让实例与背景自然地渲染。」


研究人员为 InstaGAN 系统提供了来自不同数据集(包括 multi-human parsing(MHP)数据集、MS COCO 数据集和 clothing co-parsing(CCP)数据集)的两类图像。与图像到图像转换的公认基线 CycleGAN 相比,InstaGAN 能够更成功地在保留原始语境的同时生成目标实例的「合理形状」。


「在不同数据集上的实验成功实现了图像至图像转换中的挑战性任务——多实例转换,包括把时尚图像中的牛仔裤换成短裙等新任务。探索新任务和新信息将是未来有趣的研究方向。」研究人员写道。


这篇论文已被 ICLR2019 接收为 Poster 论文,获得了 7、8、7 的高分,其中一位评审在评审意见中写道:


本文作者对多图像实例进行非成对的跨域转换,他们提出了一种方法——InstaGAN。该方法基于 CycleGAN,考虑了以每个实例分割掩码形式存在的实例信息。


本文文笔较好,容易理解。该方法很新颖,解决了一类之前方法无法解决的信息问题。该模型及训练目标每个部分的动机在该问题的语境中都得到了清晰的解释。结果看起来相当不错,明显优于 CycleGAN 和其它基线。


论文:INSTAGAN: INSTANCE-AWARE IMAGE-TO-IMAGE TRANSLATION


640?wx_fmt=png


  • 论文链接:https://arxiv.org/pdf/1812.10889.pdf

  • 项目地址:https://github.com/sangwoomo/instagan

  • ICLR 链接:https://openreview.net/forum?id=ryxwJhC9YX


摘要:由于生成对抗网络的快速发展,无监督图像到图像的转换吸引了大量研究者的目光。然而,之前的方法通常不适用于较难的任务,尤其是在图像拥有多个目标实例或转换任务涉及极具挑战性的形状问题时,如将时尚图片中的裤子转换成短裙。


为了解决这一问题,本文提出了一种新的方法——instance-aware GAN(InstaGAN),这种 GAN 结合了实例信息(如目标分割掩码),提高了多实例转换的能力。在保持实例置换不变性的同时,该 GAN 对图像和相应的实例属性集进行转换。为此,研究人员引入了一个语境保留损失函数,鼓励网络学习目标实例之外的恒等函数。


此外,他们还提出了一种序列 mini-batch 推理/训练技术,这种技术借助有限的 GPU 内存处理多个实例,增强了该网络在多实例任务中的泛化能力。对比评估证明了该方法在不同图像数据集上的有效性,尤其是在上述具有挑战性的情况下。


640?wx_fmt=png

图 1:先前方法(CycleGAN, Zhu et al. (2017))的转换结果 vs InstaGAN。后者在多实例转换问题中得到的结果更好。


640?wx_fmt=png

在谷歌搜索图片上的结果(裤子→短裙)


640?wx_fmt=png

在 YouTube 视频上的结果(裤子→短裙)


研究者还在 GitHub 给出了两个预训练模型,感兴趣的读者可以下载试试。点击以下链接下载预训练模型(裤子→短裙及/或绵羊→长颈鹿):


地址:https://drive.google.com/drive/folders/10TfnuqZ4tIVAQP23cgHxJQKuVeJusu85


640?wx_fmt=png

图 2:(a)InstaGAN 架构概览,其中的生成器 G_XY、G_YX 和判别器 D_X、D_Y 分别遵循(b)和(c)中的架构。每个网络都同时编码一幅图像及相应的一套实例掩码。


InstaGAN 成功地把牛仔裤和短裙互换,把短裤和长裤互换。


640?wx_fmt=png

图 4:在 clothing co-parsing(CCP)(Yang et al., 2014)数据集上的转换结果。


绵羊和长颈鹿互换,杯子和瓶子互换都不是问题。


640?wx_fmt=png

图 6:在 COCO(Lin et al., 2014)数据集上的转换结果。


我们可以只给第一位小姐姐换短裙,也可以只给第二位小姐姐换,当然一起换也 OK。


640?wx_fmt=png

图 7:输入掩码不同,InstaGAN 得到的结果也不同。


具体的玩法自然不限于此,作者可没说需要限制性别。


640?wx_fmt=png

图 13:在 MHP 数据集上的更多转换结果(裤子→短裙)。


从展示的案例中也可以发现,CycleGAN 的转换效果总是受到源图像的形状偏差影响,所以其转换偏向于目标的纹理层面。比如,在下图中,CycleGAN 就把短脖子的绵羊变成了短颈鹿。


640?wx_fmt=png

图 15:在 COCO 数据集上的更多转换结果(绵羊→长颈鹿)。


给予赞赏的同时,同一位评审也指出了该论文的一些不足,并给出了相应的建议:


就测试领域的数量(三类图像对——长颈鹿/绵羊,长裤/短裙,杯子/瓶子)来看,结果有一定的局限性。从某种意义上来说,这也是可以理解的。谁也不会没事用它来转换从未在相同语境出现过或者大小不同的目标(如杯子和长颈鹿)。但如果示例对更多会更好,也会使该系统更具说服力。


此外,如果单个模型可以在多个类别对上训练并从它们之间共享的信息中受益,那将很有趣。


评估主要是定性的。我希望看更多该模型的控制变量实验。


640?wx_fmt=png

图 9:关于本文所述方法每个组成部分效果的控制变量研究。这些部分包括:InstaGAN 架构、语境保留损失函数、序列 mini-batch 推理/训练算法,分别表示为 InstaGAN、L_ctx 及 Sequential。


640?wx_fmt=png

图 10:关于序列 mini-batch 推理/训练技术效果的控制变量研究。「One」和「Seq」分别表示「one-step」推理和序列推理。


参考:李宏毅老师slides 

版权归原作者所有,转载仅供学习使用,不用于任何商业用途,如有侵权请留言联系删除,感谢合作。


640?wx_fmt=png精品课程推荐:

640?wx_fmt=png

640?wx_fmt=png

选购数学科普正版读物

严选“数学思维好物”

送给孩子的益智礼物   |   办公室神器

算法工程师成长阅读   |   居家高科技

理工科男女实用型礼物精选   

640?wx_fmt=png

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

----640?点击头像关注----

640?wx_fmt=png

超级数学建模

640?wx_fmt=png

数据与算法之美

640?wx_fmt=jpeg

少年数学家

640?wx_fmt=jpeg

数锐学堂

640?wx_fmt=jpeg

惊喜酱(个人号)

640?wx_fmt=jpeg

玩酷屋COOL


640?wx_fmt=gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/302037.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows UI风格的设计(11)

转载于:https://blog.51cto.com/8382359/1342271

教之初计算机考试函数应用题,教之初计算机考试系统

教之初计算机考试系统官方版是一款发布长达12年之久的免费考试系统软件,已经有数千万次使用的软件。教之初考试系统是专业的考试软件,您所考虑的功能,教之初都已经非常贴心地替您想好,如果您发现需要的功能并不存在,那…

这里聚集了优秀的数学老师、家长,有超多惊喜在等你!

全世界有3.14 % 的人已经关注了数据与算法之美今天的这篇文章,是向大家推荐一个数学公众号“少年数学家”。“少年数学家”是一个致力为数学老师与家长,提供丰富的数学课外知识、数学人物、数学趣谈、科技与数学的公众号,希望通过这些万物背后…

librosa能量_语音MFCC提取:librosa amp;amp; python_speech_feature(2019.12)

最近在阅读语音方向的论文,其中有个被提及很多的语音信号特征MFCC(Mel-Frequency Cepstral Coefficients),找到了基于python的语音库librosa(version0.7.1)和python_speech_features(version0.6),下文对这两个库计算MFCC的流程细节稍作梳理。…

Uno 平台 一 WinUI终极跨平台方案(一)

以下是 Uno 平台的官方介绍:关于 Uno 平台Uno平台能够创建像素级完美的,只通过C#XAML编写的应用程序,能够跨平台运行在Windows,iOS,安卓,macOS,Linux和Web上,Uno 平台是免费和开源的…

Python程序员的30个常见错误

全世界只有3.14 % 的人关注了数据与算法之美在这篇文章中,我将总结新老Python程序员常犯的一些错误,以帮助你们在自己的工作避免犯同样或类似错误。推荐阅读《Python3.0科学计算指南》首先我要说明一下的是,这些都是来源于第一手的经验。我以…

Java程序员从笨鸟到菜鸟之(一百零四)java操作office和pdf文件(二)利用POI实现数据导出excel报表...

在上一篇博客中,我们简单介绍了java读取word,excel和pdf文档内容 ,但在实际开发中,我们用到最多的是把数据库中数据导出excel报表形式。不仅仅简单的读取office中的数据.尤其是在生产管理或者财务系统中用的非常普遍,因…

为什么 HTTP3.0 使用 UDP 协议?

还记得以前我提过的常见面试题么:从浏览器地址栏输入网址,到网页彻底打开,中间都发生了什么?从浏览器输入网址,到网页打开,发生了什么,这题有多经典,很多业内技术大牛说用过这题面试…

程序员为啥365天都背电脑包?这答案我服!

全世界只有3.14 % 的人关注了数据与算法之美最近微博上有个最新热门话题“关于报BUG(漏洞)的礼仪”不要跟程序员说程序有BUG他们第一反应是:你的环境有问题吧?接着就是:XXX你会用吗!(此处不可描…

html li 做瀑布流,js实现瀑布流效果(自动生成新的内容)

当滚动条接近底部会自动生成新的内容(色块)效果图:代码如下:Title*{list-style: none;}div{overflow: hidden;}ul{float: left;}li{width:300px; margin-bottom:10px;}function rnd(n,m){return parseInt(Math.random()*(m-n))n;}function cl(){var li …

jquery实现多行滚动效果

2019独角兽企业重金招聘Python工程师标准>>> 有时jquery博客想,整那么多demo有什么用呢? 有些前端新手朋友不会,为他们服务吧。还有喜欢自己留点字迹,也好方便自己回过头看看。 温故而知新嘛。 前端需要那么多js特效&a…

.NET 搭建简单的通知服务

搭建简单的通知服务Intro很多情况下,我们都会遇到一些需要进行通知报警的场景,比如说服务器资源监控报警,抢到火车票后通知用户进行付款。原来主要是用的钉钉群里的机器人来做的通知,周末看到原来做 【Server 酱】的大佬写了一个简…

c#程序设计教程 唐大仕pdf_C# 添加PDF水印

概述一般我们在向文档添加水印时,会分为直接添加文字水印和加载图片添加图片水印两种情况。常见的,在添加文字水印时会多以声明文档版权、权威性的文字、标语或者名称等;同样的,图片水印也通常可以是某组织的LOGO、印章、或者其他…

电脑病毒竟然被程序员当宠物养!网友:这些都是我逝去的青春

全世界只有3.14 % 的人关注了数据与算法之美起电脑病毒,大家第一时间应该是想到的熊猫烧香,木马等等吧。很多电脑病毒破坏力惊人,熊猫烧香在当年也是让全国人民都陷入一种恐慌状态。但对于我们程序员来说,看过的病毒跟吃的米一样多…

.NET5 WPF进阶教程

↑↑↑ 点击左上角蓝字关注我,为您提供技术新动态。本期内容一、概要本系列将继《.net wpf快速入门教程》带领大家了解wpf,帮助各位在初级向中级过渡的中掌握基本该具备的能力。本系列视频长度大约在15分钟到30分钟左右,视频内容不仅仅会讲解…

python二维列表写入excel_用Python实现合并excel列表

python操作excel主要用到xlrd和xlwt这两个库,即xlrd是读excel,xlwt是写excel的库。安装xlrd模块,在安装好python的环境下,打开cmd,输入pip install xlrd 回车。安装好后,再输入pip install xlrd回车&#x…

C语言入门经典材料领走不谢!

小天从大学开始,便开启资料收集功能。近几年以大数据的飞速发展,计算机科技进入新的发展阶段,再加上日常的深入研究,小天收集整理了丰富的C语言资料,内容涵盖“入门经典”,“考试必备材料”等。截止到今天&…

vue html引入图片,vue引入图片的几种方式

情况1:图片在/public目录下把图片放到与index.html同级的目录下情况1-1.png方式1因为vue编译后会生成index.html,所以我们将图片与index.html放在同一目录下,相当于在index.html中使用引入图片情况2:图片在/src/assets目录下把图片…

WPF 分页控件的简单实现

想做个分页控件,想了想逻辑实现太复杂了,这不,用奇怪的方式实现了它,就如这张图一样。。。看看效果:下面就直接粘代码喽:新建一个Pagination类:using System; using System.Collections.Generic…

两向量点乘坐标运算_高三数学冲刺复习之向量小题的题型总结(含好用的补充公式)...

高考中,向量小题常从以下几个方面来考查:1、平面向量的有关概念与平面向量的线性运算,主要考查向量的加法、减法运算,考查向量的数乘运算及其几何意义。2、考查平面向量的坐标:主要考查平面向量基本定理及其意义&#…