密歇根大学联合谷歌大脑提出,通过「推断语义布局」实现「文本到图像合成」

原文来源arXiv

作者:Seunghoon Hong、Dingdong Yang、Jongwook Choi、Honglak Lee

「雷克世界」编译:嗯~阿童木呀


我们通过推断语义布局(semantic layout)提出了一种新的文本到图像合成(text-to-image synthesis)方法。我们的算法不是对从文本到图像的直接映射进行学习,而是将生成过程分解为多个步骤,首先,通过布局生成器从文本中构造出语义布局,然后由图像生成器将布局转换为图像。所提出的布局生成器通过生成目标边界框,并通过估算框内目标的形状以细化每个方框,从而逐级地以一种由粗到细(coarse-to-fine)的方式构造语义布局。图像生成器基于推断语义布局,进而合成图像,它提供了与文本描述相匹配图像的有用的语义结构。我们的模型不仅能够生成语义上更有意义的图像,而且使得我们能够通过修改生成的场景布局,实现生成图像的自动注释和用户控制生成过程。我们的研究结果证明了所提出模型在挑战MS-COCO数据集上的能力,并证明,相较于现有的方法,该模型能够显著地提高图像的质量,输出文本的解释性,以及输入文本的语义对齐。



可以这样说,从文本描述中生成图像一直都是计算机视觉领域一个非常活跃的研究课题。通过允许用户用自然语言描述视觉概念,它为调节图像生成提供了自然而灵活的界面。最近,基于条件生成式对抗网络(GAN)的方法已经在文本到图像合成任务上显示出了非常有前景的研究结果。在文本中对生成器和鉴别器进行调节,这些方法能够生成与输入文本不同且相关的非常逼真的图像。基于条件GAN框架,最近的方法通过生成高分辨率图像或扩充文本信息的方式,从而进一步提高了预测质量。


本文所提出算法的总体框架。给定一个文本描述,我们的算法序列性地构造一个场景的语义结构,并生成一个基于推断布局和文本的图像。可以根据标注的颜色进行查看。


然而,对于现有方法来说,它们的成功主要局限于诸如鸟类和花朵等这些简单的数据集,而像MS-COCO这样复杂的、真实图像的生成,对于它们来说仍然是一个很大的、公开性的挑战。如图1所示,从“人们骑在大象身上穿过一条河(people riding on elephants that are walking through a river)”这样的通用句子中生成图像,需要对各种视觉概念进行多种推理,诸如目标类别(人和大象)、目标的空间配置(骑着),场景环境(穿过一条河流)等等,这远比在较简单的数据集中生成单一的、大型的目标要复杂得多。现有的方法在为这种复杂的文本描述生成合理的图像方面还没有取得成功,因为从通用图像中学习一个文本到像素的直接映射是非常复杂的。

 

本文所提出算法的总体流水线。给定一个文本嵌入,我们的算法首先通过使用边框生成器放置一组目标边界框以生成一个粗略的布局,并使用形状生成器进一步细化每个边框内的目标形状。将边框生成器和形状生成器的输出结合起来,就形成了一个定义场景语义结构的语义标签映射。根据推断的语义布局和文本,图像生成器最终生成了一个像素级的图像。


我们并不是学习从文本到图像的直接映射,而是提出了一种替代方法,即将语义布局构造为文本与图像之间中间表示。语义布局定义了基于目标实例的场景结构,并提供场景的细粒度信息(fine-grained information),如目标的数量、目标的类别、位置、大小、形状等(图1)。通过引入能够明确地将图像的语义结构与文本对齐的机制,所提出的方法可以生成与复杂文本描述相匹配的复杂图像。另外,在语义结构上对图像生成进行调节,使得我们的模型能够生成语义上更有意义的图像,且这些图像更易于识别和具有可解释性。


图像生成器的体系结构。根据文本描述和由布局生成器生成的语义布局,生成器生成与两个输入匹配的图像。


我们用于分层文本到图像合成的模型由两部分组成:一个是通过文本描述构造语义标签映射的布局生成器,另一个是将涵盖文本在内的估计布局转换为图像的图像生成器。由于学习一个从文本到细粒度语义布局的直接映射仍然具有挑战性,因此,我们将任务进一步分解为两个可管理的子任务:首先,我们使用边框生成器(box generator)估计图像的边界框布局,然后使用形状生成器优化边框内每个目标的形状。再然后,使用生成的布局指导图像生成器以进行像素级的合成。边框生成器、形状生成器和图像生成器都是由独立的神经网络实现的,并使用相应的监督进行并行训练。

 

形状生成器的结构


生成语义布局不仅提高了文本到图像合成的质量,而且还带来了一些潜在的好处。首先,语义布局为生成图像提供了实例注释,这可以直接用于数据扩充和场景分析。其次,它提供了一个用于控制图像生成过程的交互界面,用户可以通过删除/添加目标、改变目标的大小和位置等来修改语义布局,从而生成期望中的图像。


本文所取得的成就及作出的贡献主要包括以下几点:


•我们提出了一种从复杂的文字描述中合成图像的全新方法。我们的模型从文本描述中明确地构造了语义布局,并且使用推断的语义布局指导图像的生成。


•通过在显式布局预测上对图像生成进行调节,我们的方法能够生成语义上更为有意义的图像,并且能够与输入描述保持良好的一致性。


•我们对具有挑战性的MS-COCO数据集进行了大量的定量和定性评估,并证明,相较于现有研究的成果来说,我们的方法在生成质量上有了实质性的改善和提升。

 

使用我们方法的图像生成结果。每列对应于根据(a)预测的边框和掩码布局,(b)对照标准边框和预测的掩码布局和(c)对照标准边框和掩码布局所生成的结果。处于说明的目的,类是颜色编码的。


我们提出了一种文本到图像合成的方法,它对语义布局进行明确的推断,并将其作为从文本到图像的中间表示。通过一系列生成器,我们的模型以一种由粗到精的方式,逐层地构造了语义布局。通过在显式布局预测上对图像生成进行调节,我们的方法能够生成复杂的图像,且能够保留语义细节,并与文本描述高度相关。我们的研究结果还表明,预测的布局可以用来控制生成过程。我们相信,在未来,布局和图像生成的端到端训练将是一个有趣的研究方向。



未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。由互联网进化论作者,计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/497356.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为5g汽车鸿蒙,网传华为携手极狐造车新图片,搭载5G天线+鸿蒙OS!

【太平洋汽车网 石家庄车市点评频道】(4月6日联合官宣海报)4月7日,继此前华为和极狐联合官宣“上海见”之后,网上再次流传第二波海报,对比第一天的“初次见面”,这一次的内容无疑更加“王炸”。除了文字信息的“自动驾驶新标杆”&…

智能工厂4.0:数字世界和物理世界的融合【附下载】

来源:专知概要:自动化与控制发展至今,智能工厂逐渐获得关注,并成为制造企业追求的目标。自动化与控制发展至今,智能工厂逐渐获得关注,并成为制造企业追求的目标。何为智能工厂?它应该是一个柔性…

html 自动排序代码,SEO中常用HTML代码大全,及权重排序

做SEO必须要懂HTML,说的是一点都没错,不过其实是不需要全部都懂,最重点的你懂了会用,基本上都是事半功倍了。可以这么说一个不懂代码的优化人员不算是一个合格的好优化。下面就总结一下做优化,必须要懂得几个最重要的h…

Hide Delegate(隐藏“委托关系”)

通过一个委托类来调用另一个对象 重构:在服务类上建立客户所需的所有函数,用以隐藏委托关系。

中科院自动化所介绍深度强化学习进展:从AlphaGo到AlphaGo Zero

来源:德先生概要:2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件。其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果。深度强化学习进展: 从AlphaGo到AlphaGo Zero唐振韬, 邵坤, 赵冬斌 , 朱圆…

Introduce Foreign Method(引入外加函数)

需要为提供服务的类增加一个函数,但你无法修改这个类 Date newStart new Date(previousEnd.getYear(), previousEnd.getMonth(), previousEnd.getDate() 1); 重构:在客户类中建立一个函数 Date newStart nextDay(previousEnd); private static Dat…

html select 文字居中显示图片,html原生select改造箭头及文字左右居中的一种办法...

使用过原生select做网页开发的人,一定会对select的两个问题痛心疾首,一是箭头没办法使用css改造,二是显示文字没办法左右居中。首先,如果你有足够时间的话,请改用jquerymobile。jquerymobile提供了移动端非常强大的各种…

一起来讨论web2.0吧

因为想要在经典上发,所以起了这么个名字。最近今天接触了很多这方面的东西,感觉就是关于新思潮的一切都扑面而来。感觉web上是个人物就在吵2.0,我是个初学者,谈一谈今上午的感受。一直以来,我虽然是做web编程的&#x…

2018年,这15个领域将会呈现指数级变化

来源:36氪概要:很多趋势将会在2018年继续下去,尤其是呈现指数级增长的多技术融合。很多趋势将会在2018年继续下去,尤其是呈现指数级增长的多技术融合。气候变化依然是一个最紧迫的问题,尤其当我们通过碳预算来解决问题…

中文WAP浏览器WapDisplayer V1.5发布

中文WAP浏览器WapDisplayer V1.5发布 中国被爱可以在线于2005-9-26发布了中文WAP浏览器WapDisplayer V1.5,欢迎大家下载使用。程序简介:WapDisplayer V1.5是一款利用M3Gate控件开发的中文WAP浏览器,除了保留原英文版M3Gate Version 1.2 beta的…

《自然》杂志:超导突触处理信息能力超人脑

来源:科技日报概要:据英国《自然》杂志网站近日报道,美国科学家研制出一款模拟人脑神经中枢处理过程的超导突触,其信息处理速度比人脑更快,而且更高效。据英国《自然》杂志网站近日报道,美国科学家研制出一…

计算机主机内部由什么组成,计算机是由主机和什么组成的?

电脑主机里由什么组成的安装前的准备在动手组装电脑前,应先学习电脑的基本知识,包括硬件结构、日常使用的维护知识、常见故障处理、操作系统和常用软件安装等。安装前配件的准备装机要有自己的打算,不要盲目攀比,按实际需要购买配…

Self Encapsulate Field(自封装字段)

直接访问一个字段&#xff0c;但与字段之间的耦合关系逐渐变得笨拙 private int low; private int high;boolean includes(int arg) {return arg > low && arg < high; } 重构&#xff1a;为这个字段建立get/set函数&#xff0c;并以这些函数访问字段 private…

[导入]Visual Studio 2005 Team Edition软件架构系列课程(1): 概述

Visual Studio 2005 Team Edition for Software Architects (VSTA) 提供了一些为设计和部署分布的、面向服务的应用系统的设计器。这些设计工具使架构师和开发人员以一种新的模式设计一个分布式系统&#xff0c;即连接型的应用或者提供服务&#xff0c;或者使用服务。在2005的版…

世界首批智能音箱AI IQ测试报告,小米、京东和阿里初步PK

一、小米、京东和阿里智能音箱测试结果&#xff1a;二、测试说明&#xff1a;1.对智能产品进行智商测试&#xff0c;是一项没有先例的科学实验和研究&#xff0c;因此研究会处于不断修正和发展的过程&#xff0c;研究团队并不认为这个测试结果是完全成熟和客观的。希望通过测试…

美国研究生院计算机数据科学排名,美国研究生数据科学专业排名

美国数据科学专业列表1. 哈佛大学  计算科学与工程理学硕士  M.S. in Computational Science and Engineering  专业排名&#xff1a;11. 哈佛大学  数据科学理学硕士  Master of Science in Data Science  专业排名&#xff1a;12. 芝加哥大学  分析学理学硕士 …

两台老机器,AMD K6-2和Intel C366

AMD的是我自己的老机器&#xff0c;上面运行RouteOS&#xff0c;原来是一个K6-2 450的U前天去电脑城帮胡叔叔配置电脑的时候&#xff0c;3块钱收到一个K6-2 266的U我今天换上新的U&#xff0c;然后跳成100*4.5&#xff0c;开机是亮了&#xff0c;但是实际运行再366可是&#xf…

html里table的scope,HTML表格的运用

table元素的简介table标签下&#xff0c;通常包含caption(表格的标题)&#xff0c;thead, tbody, tfoot,三个部分&#xff0c;如下表格所示&#xff1a;MonthSavingsSum$180January$100February$80 MonthSavingsSum$180January$100February$80table可以通过属性来定义它的样式&…

人工智能产业展望:2018年三大难题如何破解?

来源&#xff1a;腾讯研究院概要&#xff1a;当前&#xff0c;AI的竞争已然升级到国家竞争。当前&#xff0c;AI的竞争已然升级到国家竞争。2017年首次出现了“AI中国威胁论”。谷歌前董事长施密特公开抱怨美国政府对企业在人工智能领域的支持不足&#xff0c;这将使美国“在10…