学界 | 史上最强GAN图像生成器,Inception分数提高两倍

640?wx_fmt=jpeg

来源:Openreview,机器之心

摘要:ICLR 2019 大会即将在明年 5 月 6 日于美国举行,9 月 27 日论文提交截止时间已过。本次大会共接收到了 1591 篇论文的投稿,数量相较今年的 1000 篇提升了近 60%。在双盲评审时,人们可以在 Openreview 平台上看到所有论文内容。


在向 ICLR 2019 提交的论文中,有一篇 GAN 生成图像的论文引起了所有人的注意,很多学者惊呼:不敢相信这样高质量的图像竟是 AI 生成出来的。其中生成图像的目标和背景都高度逼真、边界自然,并且图像插值每一帧都相当真实,简直能称得上「创造物种的 GAN」。该论文还引起了 Oriol Vinyals、Ian Goodfellow 的关注。


640?wx_fmt=jpeg


论文:LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS 


尽管近期由于生成图像建模的研究进展,从复杂数据集例如 ImageNet 中生成高分辨率、多样性的样本仍然是很大的挑战。为此,在这篇提交到 ICLR 2019 的论文中,研究者尝试在最大规模的数据集中训练生成对抗网络,并研究在这种规模的训练下的不稳定性。研究者发现应用垂直正则化(orthogonal regularization)到生成器可以使其服从简单的「截断技巧」(truncation trick),从而允许通过截断隐空间来精调样本保真度和多样性的权衡。这种修改方法可以让模型在类条件的图像合成中达到当前最佳性能。当在 128x128 分辨率的 ImageNet 上训练时,本文提出的模型—BigGAN—可以达到 166.3 的 Inception 分数(IS),以及 9.6 的 Frechet Inception 距离(FID),而之前的最佳 IS 和 FID 仅为 52.52 和 18.65。


640?wx_fmt=png

图 1:由 BigGAN 生成的类条件样本。


近年来生成图像建模领域进展迅速,GAN 的提出为我们带来了能直接从数据中学习生成高保真度和多样图像的模型。GAN 的训练是动态的,并且对几乎所有层面的设置都很敏感(从最优化参数到模型架构),但有大量的研究在经验和理论上获得了在多种设置中实现稳定训练的洞察。尽管得到了这样的进展,当前在条件 ImageNet 建模上的当前最佳结果仍然仅达到了 52.5 的 IS,而真实数据有 233 的 IS。


在这项研究中,作者成功地将 GAN 生成图像和真实图像之间的保真度和多样性 gap 大幅降低。本研究做出的贡献如下:


展示了 GAN 可以从训练规模中显著获益,并且能在参数数量很大和八倍批大小于之前最佳结果的条件下,仍然能以 2 倍到 4 倍的速度进行训练。作者引入了两种简单的生成架构变化,提高了可扩展性,并修改了正则化方案以提升条件化(conditioning),这可论证地提升了性能。


作为修改方法的副作用,该模型变得服从「截断技巧」,这是一种简单的采样技术,允许对样本多样性和保真度进行精细控制。


发现大规模 GAN 带来的不稳定性,并对其进行经验的描述。从这种分析中获得的洞察表明,将一种新型的和已有的技术结合可以减少这种不稳定性,但要实现完全的训练稳定性必须以显著降低性能为代价。


本文提出的修改方法大幅改善了类条件 GAN 的性能。当在 128x128 分辨率的 ImageNet 上训练时,本文提出的模型—BigGAN—可以达到 166.3 的 Inception 分数(IS),以及 9.6 的 Frechet Inception 距离(FID),而之前的最佳 IS 和 FID 仅为 52.52 和 18.65。


研究者还成功地在 256x256 分辨率和 512x512 分辨率的 ImageNet 上训练了 BigGAN,并在 256x256 分辨率下达到 233.0 的 IS 和 9.3 的 FID,在 512x512 分辨率下达到了 241.4 的 IS 和 10.9 的 FID。最后,研究者还尝试在更大规模的数据集上训练,结果表明其提出的架构设计可以很好地从 ImageNet 中迁移到其它图像数据。


扩展 GAN 的规模


研究者从为基线模型增加批大小开始,并立刻发现了这样做带来的好处。表 1 的 1 到 4 行表明按 8 的倍数增加批大小可以将当前最佳的 IS 提高 46%。研究者假设这是由于每个批量覆盖了更多的模式,为生成器和鉴别器都提供了更好的梯度信息。这种扩展带来的值得注意的副作用是,模型以更少的迭代次数达到了更好的性能,但变得不稳定并且遭遇了完全的训练崩溃。研究者在论文第 4 部分讨论了原因和后果。因此在实验中,研究者在崩溃刚好发生之后立刻停止训练,并从之前保存的检查点进行结果报告。


640?wx_fmt=png

表 1:BigGAN 的控制变量研究结果。


然后,研究者增加了每个层 50% 的宽度(通道数量),这大致在生成器和鉴别器中都翻倍了参数数量。这导致了进一步的 21% 的 IS 提升,研究者假设这是由于模型相对于数据集复杂度的容量的增加。将深度翻倍在 ImageNet 模型上并不能得到相同的优化效应,反而会降低性能。


640?wx_fmt=png

图 2:(a)增加截断的效应。从左到右,阈值=2, 1.5, 1, 0.5, 0.04。

(b)应用截断和性能差的条件生成模型的饱和度伪影。


研究者注意到 G 中的用于条件批归一化层的类嵌入 c 包含大量的权重。研究者选择使用共享嵌入,其线性投射到每个层的增益和偏差,而没有为每个嵌入使用单独的层。这降低了计算和内存成本,并提升了 37% 的训练速度(用达到特定性能需要的迭代次数衡量)。接下来,研究者使用了多个层级隐空间,其中噪声向量 z 被馈送到 G 的多个层,而不仅是初始层。


这种设计的直觉来源于,让 G 使用隐空间直接影响不同分辨率和层级下的特征。在本文提出的架构中,这很容易通过将 z 分离为每个分辨率一段,并将 z 的每段和条件向量(其投射到批归一化增益和偏差)拼接来实现。以前的研究曾经考虑过这种概念的变体(Goodfellow et al., 2014; Denton et al., 2015),本文研究者的贡献在于对这种设计进行了小幅修改。层级隐空间优化了计算和内存成本(主要通过减少第一个线性层的参数预算),这提供了大约 4% 的性能提升,并进一步提升了 18% 的训练速度。


640?wx_fmt=png

图 4:截断阈值 0.5 下的模型采样(a-c),以及部分训练模型类泄露(class leakage)示例。


640?wx_fmt=png

表 2:在不同分辨率下的模型评估结果。研究者报告了未使用截断(第 3 列),最佳 FID 分数(第 4 列),验证数据的最佳 IS(第 5 列),以及最高的 IS(第 6 列)。标准差通过至少三次随机初始化计算得到。


640?wx_fmt=png

图 6:由 BigGAN 在 512x512 分辨率下生成的其它样本。


640?wx_fmt=png

图 8:z、c 配对下的图像插值。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/494099.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一图理解腾讯本次组织结构重大变革的方向和目的

作者:刘锋 互联网进化论作者 计算机博士2018年9月30日,腾讯宣布公司架构调整,在原有七个事业群的基础上进行重组整合,形成新的6个事业群,在本次调整中,腾讯新成立了云与智慧产业事业群(CSIG&…

Android实现边缘凹凸的View

转载 最近做项目的时候遇到一个卡劵的效果,由于自己觉得用图片来做的话可以会出现适配效果不好,再加上自己自定义view方面的知识比较薄弱,所以想试试用自定义View来实现。但是由于自己知识点薄弱,一开始居然想着用画矩形来设置边…

【报告解读】126个国家、29个行业、36位高管认为AI的未来这么走

来源:网易智能人工智能(AI)已经使早期采用它的制造商能够更好地协调分析、商业智能(BI)、移动性和实时监控,以实现更快的营收增长,并比同行更快地成长壮大。如今,最顶级的18%的AI采用者将超过70%的精力投入…

自定义view实现水波纹效果

水波纹效果: 1.标准正余弦水波纹; 2.非标准圆形液柱水波纹; 虽说都是水波纹,但两者在实现上差异是比较大的,一个通过正余弦函数模拟水波纹效果,另外一个会运用到图像的混合模式(PorterDuffXf…

“人机耦合”变成“人机大战” AI同传离成熟还有多远

来源:科学网9月21日,一篇指责科大讯飞“AI同传造假”的文章引发了社会广泛关注,文中知乎用户、同传译员Bell Wang表示,在日前举行的2018创新与新兴产业发展国际会议上,科大讯飞在现场和直播中展示的“AI同传”&#xf…

高中分类讨论题1

转载于:https://www.cnblogs.com/zjyyhs/archive/2013/05/23/3094220.html

Android拼图游戏

效果如下 游戏的设计 首先我们分析下如何设计这款游戏: 1、我们需要一个容器,可以放这些图片的块块,为了方便,我们准备使用RelativeLayout配合addRule实现 2、每个图片的块块,我们准备使用ImageView 3、点击交换&a…

亚马逊:从零售商向科技公司的质变

报告来源:国泰君安(訾猛)亚马逊以技术为核心驱动力,实现从电商向科技公司的跨越,形成电商、物流、AWS、新零售协同发展的完整生态圈。亚马逊从1995年开始为用户提供线上商品,从一家网上书店发展成全品类电商…

使用HTML5的Canvas画布来剪裁用户头像

日期:2013-5-23 来源:GBin1.com 本文来自极客标签社区用户webgeek的一个在线HTML5web开发小技巧,帮助你使用html5的画布功能来切割用户上传的大头照。 在线调试 例如需要剪裁的图片如下: 用来处理大头照的JS代码如下:…

Android之Tab类总结

本文主要包括以下Tab类实现方式 FragmentTabHostFragment实现传统的ViewPager实现 FragmentManagerFragment实现ViewPagerFragmentPagerAdapter实现TabPageIndicatorViewPagerFragmentPagerAdapter FragmentTabHostFragment实现 布局文件 <?xml version"1.0"…

美日两位科学家获2018年度诺贝尔生理或医学奖

来源&#xff1a;科学网当地时间10月1日上午11时30分&#xff08;北京时间10月1日下午5时30分&#xff09;2018年度诺贝尔生理或医学奖获得者揭晓。今年该奖项的获得者分别是美国得州大学奥斯汀分校免疫学家詹姆斯艾利森&#xff08;James P. Allision&#xff09;和日本京都大…

Rejection sampling - 直观解释

如图&#xff0c;红线是我们想要从中采样的概率分布$f(x)$。 拿一个盒子把这个概率分布罩起来&#xff0c;假设盒子的上边缘是$p(x)$。随机地向盒子里撒点&#xff0c;即盒子里的均匀分布。位于$f(x)$下方点的横坐标&#xff0c;即是来自于$f(x)$的一组样本。从算法的角度讲&am…

Android之记住密码与自动登陆实现

本文主要讲述了利用sharedpreference实现记住密码与自动登陆功能 根据checkbox的状态存储用户名与密码将结果保存在自定义的application中&#xff0c;成为全局变量 布局文件 <?xml version"1.0" encoding"utf-8"?> <ScrollView xmlns:andro…

智能硬件这5大领域竞争升级,将迎发展新模式

来源&#xff1a;亿欧网智能硬件是指具备信息采集能力&#xff0c;并可实现智能感知、交互、大数据服务等功能的新兴互联网终端产品&#xff0c;是“互联网人工智能”的重要载体。在手机、电视等终端产品实现智能化之后&#xff0c;信息技术也正通过软硬件结合的方式&#xff0…

Android实现圆形圆角图片

本文主要使用两种方法实现图形圆角图片 自定View加上使用Xfermode实现Shader实现 自定View加上使用Xfermode实现 /** * 根据原图和变长绘制圆形图片 * * param source * param min * return */ private Bitmap createCircleImage(Bitmap source, int min) { final Pain…

自动驾驶又陷“派系”之争:该约束行人还是让车更完美

来源&#xff1a;网易智能摘要&#xff1a;近日&#xff0c;全球人工智能专家吴恩达&#xff08;Andrew Ng&#xff09;表示&#xff0c;制造可靠自动驾驶汽车的最快方法是在行人方面采取完善措施&#xff0c;而不单是汽车。他说&#xff1a;“我们想告诉人们的是&#xff0c;请…

AjaxPro新发现-错误处理

当Ajax调用发生错误时,回调函数参数result会存在error属性,通常通过这个属性判断是否出现错误. 也可以使用默认处理函数,这样就可以为错误处理提供统一的函数 转载于:https://www.cnblogs.com/dwfbenben/archive/2013/05/24/3097535.html

Android仿微信界面

效果图 原理介绍 1、先绘制一个颜色&#xff08;例如&#xff1a;粉红&#xff09; 2、设置ModeDST_IN 3、绘制我们这个可爱的小机器人 回答我&#xff0c;显示什么&#xff0c;是不是显示交集&#xff0c;交集是什么&#xff1f;交集是我们的小机器人的非透明区域&#xff…

Google Brain与牛津大学主持最新《计算机视觉前沿》报告(146页PPT)

来源&#xff1a;专知牛津大学DanielaMassiceti, Saumya Jetley与Google Brain Sara Hooker等人9月13日在Deep LearningIndaba 深度学习大会上主持关于《计算机视觉前沿》的报告。重点围绕当前计算机视觉最重要但没有解决的一些问题&#xff0c;以及如何和非洲相关&#xff1f;…

89C52控制1602A液晶的计时器

一、LCD1602A液晶说明。 DataSheet说明&#xff08;技术参数&#xff09; ①此LCD共16个管脚。每个接口说明如下表。 PS&#xff1a;1-2管脚没什么好说的&#xff0c;就是接电源和地的。 3管脚是偏压信号&#xff0c;这一管脚一般可以接个滑动变阻器&#xff0c;通过调节滑动变…