裤子换裙子,就问你GAN的这波操作秀不秀

全世界只有3.14 % 的人关注了

数据与算法之美


把照片里的绵羊换成长颈鹿、牛仔长裤换成短裙。听起来有点不可思议,但韩国科学技术院和浦项科技大学的研究人员目前已实现了这一骚操作。


他们开发的一种机器学习算法可在多个图像数据集上实现这种操作。其论文《InstaGAN: Instance-Aware Image-to-Image Translation》已被 ICLR2019 接收。


640?wx_fmt=png

长裤变短裙


图像到图像的转换系统——即学会把输入图像映射到输出图像的系统——并非什么新鲜事。去年 12 月,Google AI 研究人员开发了一种模型,该模型通过预测对象的大小、遮挡、姿势、形状等,可以逼真地将其插入照片中的合理位置。但正如 InstaGAN 的创建者在论文中所说的一样,即使当前最先进的方法仍是不够完美的。


本文要介绍的这项新研究基于 CycleGAN 实现了实例级别的图像转换。


640?wx_fmt=png

图源:Context-Aware Synthesis and Placement of Object Instances


克服了 pix2pix 在图像转换中必须一一配对的限制,给定两个无序图像集 X 和 Y,CycleGAN 可以自动对它们进行互相「翻译」。


640?wx_fmt=png


但它无法编码图像中的实例信息,因此在涉及目标类别特征的图像转换时,效果不太理想。


「由于其近期基于生成对抗网络取得的进步令人印象深刻,无监督的图像到图像转换已受到大量关注。然而,以前的方法在面对具有挑战性的任务时常常失败,尤其是当图像具有多个目标实例并且任务涉及形状的大幅变化时。」研究人员表示。


他们的解决方案是 InstaGAN 系统,该系统结合了多个任务目标的实例信息。InstaGAN 会生成图像的实例分割掩码(属于同一实例的像素组),它会结合目标的边界并同时忽略颜色等细节。


新奇的是,InstaGAN 转换了一幅图像和一组相应的实例属性,并同时力求保留背景语境。当与一种创新的技术(该技术允许其在传统硬件上处理大量实例属性)结合时,它可以推广到具有许多实例的图像。如下图所示,把两个人的牛仔裤换成裙子,把四只绵羊换成长颈鹿都不是问题。


640?wx_fmt=png

640?wx_fmt=png


「据我们所知,在我们之前,还没有人实现过图像到图像转换中的多实例转换任务。和以前在简单设置中的结果不同,我们的重点是和谐,让实例与背景自然地渲染。」


研究人员为 InstaGAN 系统提供了来自不同数据集(包括 multi-human parsing(MHP)数据集、MS COCO 数据集和 clothing co-parsing(CCP)数据集)的两类图像。与图像到图像转换的公认基线 CycleGAN 相比,InstaGAN 能够更成功地在保留原始语境的同时生成目标实例的「合理形状」。


「在不同数据集上的实验成功实现了图像至图像转换中的挑战性任务——多实例转换,包括把时尚图像中的牛仔裤换成短裙等新任务。探索新任务和新信息将是未来有趣的研究方向。」研究人员写道。


这篇论文已被 ICLR2019 接收为 Poster 论文,获得了 7、8、7 的高分,其中一位评审在评审意见中写道:


本文作者对多图像实例进行非成对的跨域转换,他们提出了一种方法——InstaGAN。该方法基于 CycleGAN,考虑了以每个实例分割掩码形式存在的实例信息。


本文文笔较好,容易理解。该方法很新颖,解决了一类之前方法无法解决的信息问题。该模型及训练目标每个部分的动机在该问题的语境中都得到了清晰的解释。结果看起来相当不错,明显优于 CycleGAN 和其它基线。


论文:INSTAGAN: INSTANCE-AWARE IMAGE-TO-IMAGE TRANSLATION


640?wx_fmt=png


  • 论文链接:https://arxiv.org/pdf/1812.10889.pdf

  • 项目地址:https://github.com/sangwoomo/instagan

  • ICLR 链接:https://openreview.net/forum?id=ryxwJhC9YX


摘要:由于生成对抗网络的快速发展,无监督图像到图像的转换吸引了大量研究者的目光。然而,之前的方法通常不适用于较难的任务,尤其是在图像拥有多个目标实例或转换任务涉及极具挑战性的形状问题时,如将时尚图片中的裤子转换成短裙。


为了解决这一问题,本文提出了一种新的方法——instance-aware GAN(InstaGAN),这种 GAN 结合了实例信息(如目标分割掩码),提高了多实例转换的能力。在保持实例置换不变性的同时,该 GAN 对图像和相应的实例属性集进行转换。为此,研究人员引入了一个语境保留损失函数,鼓励网络学习目标实例之外的恒等函数。


此外,他们还提出了一种序列 mini-batch 推理/训练技术,这种技术借助有限的 GPU 内存处理多个实例,增强了该网络在多实例任务中的泛化能力。对比评估证明了该方法在不同图像数据集上的有效性,尤其是在上述具有挑战性的情况下。


640?wx_fmt=png

图 1:先前方法(CycleGAN, Zhu et al. (2017))的转换结果 vs InstaGAN。后者在多实例转换问题中得到的结果更好。


640?wx_fmt=png

在谷歌搜索图片上的结果(裤子→短裙)


640?wx_fmt=png

在 YouTube 视频上的结果(裤子→短裙)


研究者还在 GitHub 给出了两个预训练模型,感兴趣的读者可以下载试试。点击以下链接下载预训练模型(裤子→短裙及/或绵羊→长颈鹿):


地址:https://drive.google.com/drive/folders/10TfnuqZ4tIVAQP23cgHxJQKuVeJusu85


640?wx_fmt=png

图 2:(a)InstaGAN 架构概览,其中的生成器 G_XY、G_YX 和判别器 D_X、D_Y 分别遵循(b)和(c)中的架构。每个网络都同时编码一幅图像及相应的一套实例掩码。


InstaGAN 成功地把牛仔裤和短裙互换,把短裤和长裤互换。


640?wx_fmt=png

图 4:在 clothing co-parsing(CCP)(Yang et al., 2014)数据集上的转换结果。


绵羊和长颈鹿互换,杯子和瓶子互换都不是问题。


640?wx_fmt=png

图 6:在 COCO(Lin et al., 2014)数据集上的转换结果。


我们可以只给第一位小姐姐换短裙,也可以只给第二位小姐姐换,当然一起换也 OK。


640?wx_fmt=png

图 7:输入掩码不同,InstaGAN 得到的结果也不同。


具体的玩法自然不限于此,作者可没说需要限制性别。


640?wx_fmt=png

图 13:在 MHP 数据集上的更多转换结果(裤子→短裙)。


从展示的案例中也可以发现,CycleGAN 的转换效果总是受到源图像的形状偏差影响,所以其转换偏向于目标的纹理层面。比如,在下图中,CycleGAN 就把短脖子的绵羊变成了短颈鹿。


640?wx_fmt=png

图 15:在 COCO 数据集上的更多转换结果(绵羊→长颈鹿)。


给予赞赏的同时,同一位评审也指出了该论文的一些不足,并给出了相应的建议:


就测试领域的数量(三类图像对——长颈鹿/绵羊,长裤/短裙,杯子/瓶子)来看,结果有一定的局限性。从某种意义上来说,这也是可以理解的。谁也不会没事用它来转换从未在相同语境出现过或者大小不同的目标(如杯子和长颈鹿)。但如果示例对更多会更好,也会使该系统更具说服力。


此外,如果单个模型可以在多个类别对上训练并从它们之间共享的信息中受益,那将很有趣。


评估主要是定性的。我希望看更多该模型的控制变量实验。


640?wx_fmt=png

图 9:关于本文所述方法每个组成部分效果的控制变量研究。这些部分包括:InstaGAN 架构、语境保留损失函数、序列 mini-batch 推理/训练算法,分别表示为 InstaGAN、L_ctx 及 Sequential。


640?wx_fmt=png

图 10:关于序列 mini-batch 推理/训练技术效果的控制变量研究。「One」和「Seq」分别表示「one-step」推理和序列推理。


参考:李宏毅老师slides 

版权归原作者所有,转载仅供学习使用,不用于任何商业用途,如有侵权请留言联系删除,感谢合作。


640?wx_fmt=png精品课程推荐:

640?wx_fmt=png

640?wx_fmt=png

选购数学科普正版读物

严选“数学思维好物”

送给孩子的益智礼物   |   办公室神器

算法工程师成长阅读   |   居家高科技

理工科男女实用型礼物精选   

640?wx_fmt=png

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

----640?点击头像关注----

640?wx_fmt=png

超级数学建模

640?wx_fmt=png

数据与算法之美

640?wx_fmt=jpeg

少年数学家

640?wx_fmt=jpeg

数锐学堂

640?wx_fmt=jpeg

惊喜酱(个人号)

640?wx_fmt=jpeg

玩酷屋COOL


640?wx_fmt=gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/302037.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python中字典长度可变吗_python中列表长度可变吗

python中列表长度可变吗?下面给大家介绍一下python中可变和不可变的类型:可变、不可变可变/不可变类型,指的是:内存id不变,type也不变的前提下,value是否是可变的。int()和str()都是不可变类型列表、字典是可变类型对于…

Windows UI风格的设计(11)

转载于:https://blog.51cto.com/8382359/1342271

教之初计算机考试函数应用题,教之初计算机考试系统

教之初计算机考试系统官方版是一款发布长达12年之久的免费考试系统软件,已经有数千万次使用的软件。教之初考试系统是专业的考试软件,您所考虑的功能,教之初都已经非常贴心地替您想好,如果您发现需要的功能并不存在,那…

这里聚集了优秀的数学老师、家长,有超多惊喜在等你!

全世界有3.14 % 的人已经关注了数据与算法之美今天的这篇文章,是向大家推荐一个数学公众号“少年数学家”。“少年数学家”是一个致力为数学老师与家长,提供丰富的数学课外知识、数学人物、数学趣谈、科技与数学的公众号,希望通过这些万物背后…

ASP.NET Core文件上传IFormFile于Request.Body的羁绊

前言在上篇文章深入探究ASP.NET Core读取Request.Body的正确方式[1]中我们探讨了很多人在日常开发中经常遇到的也是最基础的问题,那就是关于Request.Body的读取方式问题,看是简单实则很容易用不好。笔者也是非常荣幸的得到了许多同学的点赞支持&#xff…

librosa能量_语音MFCC提取:librosa amp;amp; python_speech_feature(2019.12)

最近在阅读语音方向的论文,其中有个被提及很多的语音信号特征MFCC(Mel-Frequency Cepstral Coefficients),找到了基于python的语音库librosa(version0.7.1)和python_speech_features(version0.6),下文对这两个库计算MFCC的流程细节稍作梳理。…

线性代数与矩阵论 习题 1.2.2

试利用辗转相除法,求有理系数多项式$u(x)$和$v(x)$,使得$u(x)f(x)v(x)g(x)(f(x),g(x))$. (1)$f(x)3x^3-2x^2x2$,$g(x)x^2-x1$. 解:\begin{align*} 3x^3-2x^2x2&3x(x^2-x1)(x^2-2x2)\\x^2-x1&(x^2-2x2)(x-1)\\x^2-2x2&x(x-1)-(x-2)\\x-1&x-21\\\end{…

Uno 平台 一 WinUI终极跨平台方案(一)

以下是 Uno 平台的官方介绍:关于 Uno 平台Uno平台能够创建像素级完美的,只通过C#XAML编写的应用程序,能够跨平台运行在Windows,iOS,安卓,macOS,Linux和Web上,Uno 平台是免费和开源的…

Python程序员的30个常见错误

全世界只有3.14 % 的人关注了数据与算法之美在这篇文章中,我将总结新老Python程序员常犯的一些错误,以帮助你们在自己的工作避免犯同样或类似错误。推荐阅读《Python3.0科学计算指南》首先我要说明一下的是,这些都是来源于第一手的经验。我以…

米兰大学计算机科学,米兰大学

很多去意大利留学的学生会选择去米兰大学留学,那么留学米兰大学需要了解哪些重要事项呢?跟着出国留学网来看看吧!欢迎阅读。意大利留学米兰大学解析院校基本信息欧洲排名7所在省州伦巴第大区所在城市Milano学校性质公立建校年代1923年学校人数60406人官方…

650c公路车推荐_2020最具性价比的中高端公路整车盘点

当你从小白成为进阶玩家后,发现陪伴自己多年公路车逐渐不能满足自己需求时,你渐渐将目光转向高端公路车,当你被“坑蒙拐骗”试骑了顶级公路车后,换车的想法在脑中油然而生。然而理想很丰满,现实很骨感。干瘪腰包把你从…

Java程序员从笨鸟到菜鸟之(一百零四)java操作office和pdf文件(二)利用POI实现数据导出excel报表...

在上一篇博客中,我们简单介绍了java读取word,excel和pdf文档内容 ,但在实际开发中,我们用到最多的是把数据库中数据导出excel报表形式。不仅仅简单的读取office中的数据.尤其是在生产管理或者财务系统中用的非常普遍,因…

为什么 HTTP3.0 使用 UDP 协议?

还记得以前我提过的常见面试题么:从浏览器地址栏输入网址,到网页彻底打开,中间都发生了什么?从浏览器输入网址,到网页打开,发生了什么,这题有多经典,很多业内技术大牛说用过这题面试…

程序员为啥365天都背电脑包?这答案我服!

全世界只有3.14 % 的人关注了数据与算法之美最近微博上有个最新热门话题“关于报BUG(漏洞)的礼仪”不要跟程序员说程序有BUG他们第一反应是:你的环境有问题吧?接着就是:XXX你会用吗!(此处不可描…

html li 做瀑布流,js实现瀑布流效果(自动生成新的内容)

当滚动条接近底部会自动生成新的内容(色块)效果图:代码如下:Title*{list-style: none;}div{overflow: hidden;}ul{float: left;}li{width:300px; margin-bottom:10px;}function rnd(n,m){return parseInt(Math.random()*(m-n))n;}function cl(){var li …

六元均匀直线阵的各元间距为_实验二 均匀直线阵

实验二均匀直线阵一、实验目的:通过MATLAB编程,了解均匀直线阵的辐射特性,熟悉影响天线阵辐射的各种因素及其产生的影响。二、实验环境:MATLAB软件三、实验原理:单个天线的方向性是有限的,为了加强天线的定…

jquery实现多行滚动效果

2019独角兽企业重金招聘Python工程师标准>>> 有时jquery博客想,整那么多demo有什么用呢? 有些前端新手朋友不会,为他们服务吧。还有喜欢自己留点字迹,也好方便自己回过头看看。 温故而知新嘛。 前端需要那么多js特效&a…

.NET 搭建简单的通知服务

搭建简单的通知服务Intro很多情况下,我们都会遇到一些需要进行通知报警的场景,比如说服务器资源监控报警,抢到火车票后通知用户进行付款。原来主要是用的钉钉群里的机器人来做的通知,周末看到原来做 【Server 酱】的大佬写了一个简…

systrace html空白,Android性能优化之Systrace工具介绍(一) _ Systrace生成的trace.html打开空白或者打不开的解决办法...

1.必须用Chrome打开2.在mac电脑上,可能Chrome打开也是空白,解决办法是:在chrome地址栏中输入”chrome:tracing”,然后点击load按钮load你的trace.html文件。Systrace简单介绍Systrace是Android4.1中新增的性能数据采样和分析工具。…

c#程序设计教程 唐大仕pdf_C# 添加PDF水印

概述一般我们在向文档添加水印时,会分为直接添加文字水印和加载图片添加图片水印两种情况。常见的,在添加文字水印时会多以声明文档版权、权威性的文字、标语或者名称等;同样的,图片水印也通常可以是某组织的LOGO、印章、或者其他…