密歇根大学联合谷歌大脑提出,通过「推断语义布局」实现「文本到图像合成」

原文来源arXiv

作者:Seunghoon Hong、Dingdong Yang、Jongwook Choi、Honglak Lee

「雷克世界」编译:嗯~阿童木呀


我们通过推断语义布局(semantic layout)提出了一种新的文本到图像合成(text-to-image synthesis)方法。我们的算法不是对从文本到图像的直接映射进行学习,而是将生成过程分解为多个步骤,首先,通过布局生成器从文本中构造出语义布局,然后由图像生成器将布局转换为图像。所提出的布局生成器通过生成目标边界框,并通过估算框内目标的形状以细化每个方框,从而逐级地以一种由粗到细(coarse-to-fine)的方式构造语义布局。图像生成器基于推断语义布局,进而合成图像,它提供了与文本描述相匹配图像的有用的语义结构。我们的模型不仅能够生成语义上更有意义的图像,而且使得我们能够通过修改生成的场景布局,实现生成图像的自动注释和用户控制生成过程。我们的研究结果证明了所提出模型在挑战MS-COCO数据集上的能力,并证明,相较于现有的方法,该模型能够显著地提高图像的质量,输出文本的解释性,以及输入文本的语义对齐。



可以这样说,从文本描述中生成图像一直都是计算机视觉领域一个非常活跃的研究课题。通过允许用户用自然语言描述视觉概念,它为调节图像生成提供了自然而灵活的界面。最近,基于条件生成式对抗网络(GAN)的方法已经在文本到图像合成任务上显示出了非常有前景的研究结果。在文本中对生成器和鉴别器进行调节,这些方法能够生成与输入文本不同且相关的非常逼真的图像。基于条件GAN框架,最近的方法通过生成高分辨率图像或扩充文本信息的方式,从而进一步提高了预测质量。


本文所提出算法的总体框架。给定一个文本描述,我们的算法序列性地构造一个场景的语义结构,并生成一个基于推断布局和文本的图像。可以根据标注的颜色进行查看。


然而,对于现有方法来说,它们的成功主要局限于诸如鸟类和花朵等这些简单的数据集,而像MS-COCO这样复杂的、真实图像的生成,对于它们来说仍然是一个很大的、公开性的挑战。如图1所示,从“人们骑在大象身上穿过一条河(people riding on elephants that are walking through a river)”这样的通用句子中生成图像,需要对各种视觉概念进行多种推理,诸如目标类别(人和大象)、目标的空间配置(骑着),场景环境(穿过一条河流)等等,这远比在较简单的数据集中生成单一的、大型的目标要复杂得多。现有的方法在为这种复杂的文本描述生成合理的图像方面还没有取得成功,因为从通用图像中学习一个文本到像素的直接映射是非常复杂的。

 

本文所提出算法的总体流水线。给定一个文本嵌入,我们的算法首先通过使用边框生成器放置一组目标边界框以生成一个粗略的布局,并使用形状生成器进一步细化每个边框内的目标形状。将边框生成器和形状生成器的输出结合起来,就形成了一个定义场景语义结构的语义标签映射。根据推断的语义布局和文本,图像生成器最终生成了一个像素级的图像。


我们并不是学习从文本到图像的直接映射,而是提出了一种替代方法,即将语义布局构造为文本与图像之间中间表示。语义布局定义了基于目标实例的场景结构,并提供场景的细粒度信息(fine-grained information),如目标的数量、目标的类别、位置、大小、形状等(图1)。通过引入能够明确地将图像的语义结构与文本对齐的机制,所提出的方法可以生成与复杂文本描述相匹配的复杂图像。另外,在语义结构上对图像生成进行调节,使得我们的模型能够生成语义上更有意义的图像,且这些图像更易于识别和具有可解释性。


图像生成器的体系结构。根据文本描述和由布局生成器生成的语义布局,生成器生成与两个输入匹配的图像。


我们用于分层文本到图像合成的模型由两部分组成:一个是通过文本描述构造语义标签映射的布局生成器,另一个是将涵盖文本在内的估计布局转换为图像的图像生成器。由于学习一个从文本到细粒度语义布局的直接映射仍然具有挑战性,因此,我们将任务进一步分解为两个可管理的子任务:首先,我们使用边框生成器(box generator)估计图像的边界框布局,然后使用形状生成器优化边框内每个目标的形状。再然后,使用生成的布局指导图像生成器以进行像素级的合成。边框生成器、形状生成器和图像生成器都是由独立的神经网络实现的,并使用相应的监督进行并行训练。

 

形状生成器的结构


生成语义布局不仅提高了文本到图像合成的质量,而且还带来了一些潜在的好处。首先,语义布局为生成图像提供了实例注释,这可以直接用于数据扩充和场景分析。其次,它提供了一个用于控制图像生成过程的交互界面,用户可以通过删除/添加目标、改变目标的大小和位置等来修改语义布局,从而生成期望中的图像。


本文所取得的成就及作出的贡献主要包括以下几点:


•我们提出了一种从复杂的文字描述中合成图像的全新方法。我们的模型从文本描述中明确地构造了语义布局,并且使用推断的语义布局指导图像的生成。


•通过在显式布局预测上对图像生成进行调节,我们的方法能够生成语义上更为有意义的图像,并且能够与输入描述保持良好的一致性。


•我们对具有挑战性的MS-COCO数据集进行了大量的定量和定性评估,并证明,相较于现有研究的成果来说,我们的方法在生成质量上有了实质性的改善和提升。

 

使用我们方法的图像生成结果。每列对应于根据(a)预测的边框和掩码布局,(b)对照标准边框和预测的掩码布局和(c)对照标准边框和掩码布局所生成的结果。处于说明的目的,类是颜色编码的。


我们提出了一种文本到图像合成的方法,它对语义布局进行明确的推断,并将其作为从文本到图像的中间表示。通过一系列生成器,我们的模型以一种由粗到精的方式,逐层地构造了语义布局。通过在显式布局预测上对图像生成进行调节,我们的方法能够生成复杂的图像,且能够保留语义细节,并与文本描述高度相关。我们的研究结果还表明,预测的布局可以用来控制生成过程。我们相信,在未来,布局和图像生成的端到端训练将是一个有趣的研究方向。



未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。由互联网进化论作者,计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/497356.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为5g汽车鸿蒙,网传华为携手极狐造车新图片,搭载5G天线+鸿蒙OS!

【太平洋汽车网 石家庄车市点评频道】(4月6日联合官宣海报)4月7日,继此前华为和极狐联合官宣“上海见”之后,网上再次流传第二波海报,对比第一天的“初次见面”,这一次的内容无疑更加“王炸”。除了文字信息的“自动驾驶新标杆”&…

智能工厂4.0:数字世界和物理世界的融合【附下载】

来源:专知概要:自动化与控制发展至今,智能工厂逐渐获得关注,并成为制造企业追求的目标。自动化与控制发展至今,智能工厂逐渐获得关注,并成为制造企业追求的目标。何为智能工厂?它应该是一个柔性…

Hide Delegate(隐藏“委托关系”)

通过一个委托类来调用另一个对象 重构:在服务类上建立客户所需的所有函数,用以隐藏委托关系。

中科院自动化所介绍深度强化学习进展:从AlphaGo到AlphaGo Zero

来源:德先生概要:2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件。其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果。深度强化学习进展: 从AlphaGo到AlphaGo Zero唐振韬, 邵坤, 赵冬斌 , 朱圆…

html select 文字居中显示图片,html原生select改造箭头及文字左右居中的一种办法...

使用过原生select做网页开发的人,一定会对select的两个问题痛心疾首,一是箭头没办法使用css改造,二是显示文字没办法左右居中。首先,如果你有足够时间的话,请改用jquerymobile。jquerymobile提供了移动端非常强大的各种…

2018年,这15个领域将会呈现指数级变化

来源:36氪概要:很多趋势将会在2018年继续下去,尤其是呈现指数级增长的多技术融合。很多趋势将会在2018年继续下去,尤其是呈现指数级增长的多技术融合。气候变化依然是一个最紧迫的问题,尤其当我们通过碳预算来解决问题…

中文WAP浏览器WapDisplayer V1.5发布

中文WAP浏览器WapDisplayer V1.5发布 中国被爱可以在线于2005-9-26发布了中文WAP浏览器WapDisplayer V1.5,欢迎大家下载使用。程序简介:WapDisplayer V1.5是一款利用M3Gate控件开发的中文WAP浏览器,除了保留原英文版M3Gate Version 1.2 beta的…

《自然》杂志:超导突触处理信息能力超人脑

来源:科技日报概要:据英国《自然》杂志网站近日报道,美国科学家研制出一款模拟人脑神经中枢处理过程的超导突触,其信息处理速度比人脑更快,而且更高效。据英国《自然》杂志网站近日报道,美国科学家研制出一…

世界首批智能音箱AI IQ测试报告,小米、京东和阿里初步PK

一、小米、京东和阿里智能音箱测试结果:二、测试说明:1.对智能产品进行智商测试,是一项没有先例的科学实验和研究,因此研究会处于不断修正和发展的过程,研究团队并不认为这个测试结果是完全成熟和客观的。希望通过测试…

人工智能产业展望:2018年三大难题如何破解?

来源:腾讯研究院概要:当前,AI的竞争已然升级到国家竞争。当前,AI的竞争已然升级到国家竞争。2017年首次出现了“AI中国威胁论”。谷歌前董事长施密特公开抱怨美国政府对企业在人工智能领域的支持不足,这将使美国“在10…

在每天下午五点使用计算机,邮件攻击主要是_每天下午5点使用计算机_apt的攻击目标一般不是...

4.6.1 邮箱工具软件(2)(3)Close(退出)(4)【Edit】→【Settings(设置)】KaBoom还可以进行一些设置,在主界面上选择【Edit【】→【Setting】,然后弹出如图4.6.4所示的对话框,其中有下列信息:Losers:被攻击目标列表&#…

用SQL实现记录上下移动的思路

在做管理系统时,不可避免会要求对记录进行上下移动. 假如我们有一张表 t_test ,它的字段如下: CREATETABLE[dbo].[t_test]( [sysid][bigint]NOTNULL, [cname][nvarchar](50) COLLATE Chinese_PRC_CI_AS NULL, [position][int]NULL) 其中的position用来表示记录…

误删了计算机桌面回收站,我电脑回收站里的东西已经被删除几天了?怎么可以找回!谢谢...

可以通过数据恢复软件来进行恢复的操作,具体如下:步骤一:在常用的电脑浏览器上搜索【互盾数据恢复软件】,然后将安装包下载至电脑上,安装完成,下载和安装的路径都要避免回收站所在的分区,避免造…

代码整洁之道--思维导图

#思维导图源码 System.out.println("https://www.processon.com/view/60dede90e401fd7e342b3fc3?fromnew1");

人工智能、区块链、图灵测试....这29个大数据热词你知道几个?

来源:中国科协智能制造学会联合体2017年,大数据产业依旧保持高速增长态势,并从单一的技术概念逐渐转化为新要素、新战略、新思维。鉴别真假内行的时候来了,你真的明白这些科技热词的意思吗?以下为您挑选了29个和大数据…

Replace Data Value with Object(以对象取代数据值)

有一个数据项,需要与其他数据和行为一起使用才有意义 将数据项变成对象。 动机 开发初期,你往往决定以简单的数据项表示简单的情况。但是,随着开发的进行,你可能会发现,这些简单数据项不再那么简单了。比如说&#xf…

美研究揭示大脑如何学习语言

来源:中国科学报美国一项新研究表明,人类用于学习语言的大脑回路还能“兼职”其他用途,而非此前认为的是专门用于学习语言的模块。发表在最新一期美国《国家科学院学报》上的这项研究显示,儿童学习母语及成年人学习外语时使用的大…