《GTA 5》走进现实!AI逼真还原游戏街景,还能“脑补”细节 | 英特尔出品


来源:AI科技评论

作者:琰琰

编辑:刘冰一

在不少玩家眼中,GTA 5(GTA V)称得上是一款旷世神作!

GTA 也叫“侠盗猎车手”,是R星旗下一款超高人气动作冒险类游戏,目前已经发售至第五版。

这款以犯罪为主题的经典游戏极具真实感,它的背景是以美国洛杉矶和南部加州为原型,三位角色也有着和人类相同的世界观,玩家可以任意选择或者切换角色,每个角色都有独立的人格和故事。

更有意思的是,这款游戏在剧情和动作设计堪称一部好莱坞大片,疾驰的赛车、激烈的枪战、精彩的追逐,让不少玩家欲罢不能。

如果硬要给这款游戏提点改进意见,可能就是提升提升场景的真实感,毕竟,哪个玩家不想在现实世界上演“速度与激情”呢

没想到,英特尔AI 实验室真的把这个奢望变成了现实。最近,该实验室研究团队提出了一种增强合成图像的新方法,该方法把GTA中的城市街景变成了真实世界的场景。


再来看一张与GTA V场景的对比图:

画面中的汽车、天空、路面变得更加平滑,更有光泽感。

光秃秃的草地也变成了更浓密,颜色更鲜亮的草丛。

还自动“脑补”出了右侧的建筑物

这种增强图像方法并非1:1还原了游戏中的原始街景,而是在此基础上渲染和生成了一个全新的城市样貌。研究人员介绍,其AI算法使用了来自德国真实街景的Cityscapes数据集,通过对该数据集的训练,AI“脑补”出了不存在的汽车、街道和建筑物等使其场景更具真实感。

以下是完整视频内容:

1

实现方法

这项研究成果出自Intel AI 实验室发表的一篇名为“Enhancing photorealism enhancement”的研究论文。这篇论文对图像增强的实际工作原理提供了深入、彻底的理解。

论文地址:

https://arxiv.org/pdf/2105.04619.pdf

用AI渲染游戏人物和场景的概念并不新鲜,但现有方法大多会产生严重的伪影,不稳定,或者渲染速度太慢。

在本篇论文中,研究人员提出了一种基于卷积网络的增强合成图像真实感的新方法。具体来说,卷积网络利用传统渲染管道生成中间表示,通过新的对抗目标训练,在多个感知层次上提供强大的监督。在训练过程中对图像块进行采样,以消除图像伪影。最后经过对深层网络模块的多种体系结构的改进。实验结果表明,与最近的图像到图像转换方法和各种其他基线相比,该方法在稳定性和真实性方面取得了实质性进展。

以上为具体方法的概述图:

为了提高输出图像的真实感,研究人员在该网络中添加了额外输入。具体来说,他们从图像管道中提取了中间渲染缓冲区(intermediate rendering buffers ,G-buffers)。G-buffer经过编码器网络处理后,能够提供图像场景中关于景深、形状、光照、透明度、材质等特征信息。

这些特征将作为图像增强网的输入,用来调制图像特征。

图像增强网络采用HRNetV2架构,它在各种密集预测任务上表现出了很强的性能。HRNet能够以不同分辨率运行的多个分支处理图像。同时以较高的分辨率呈现更精细的图像结构。在篇工作中,研究人员对其进行了如下调整:

第一,用regular卷积代替初始的strided 卷积,使网络在全分辨率下运行,并保留更精细的细节。

第二,在每个分支中的residual blocks 中,通过渲染感知非规范化(rendering-aware denormalization ,RAD)模块来替换批处理规范化层。

Residual blocks由卷积层(核大小为3)、光谱归一化(spectral normalization)和ReLUs组成。它在Conv 1和Conv P中执行通道宽度的改变或缩小。如果通道宽度和分辨率不变,则省略Conv P的推理环节。

RAD模块和G-buffer编码器中均有使用Residual blocks。RAD模块通过几何图形、材料、光照等来自G-buffer的语义信息来调制图像特征张量。这些图像特征通过group normalization进行标准化,然后再通过元素权重(γ, β)进行缩放和移位。每个RAD模块中有三个Residual blocks来变换G-buffer特征,可以更好地适应权重变化。

在训练方面,图像增强网络有两个目标。

第一,用LPIPS loss评估输入和输出图像之间的差异。

第二,用鉴别器评估增强图像的真实性。

鉴别器用来区分经过网络增强的图像和来自数据集的真实图像。它由健壮的语义分割网络、感知特征提取网络和多个鉴别器网络组成。研究人员采用MSeg进行语义分割,VGG16进行感知特征提取。这两个网络都是预训练的,在训练图像增强网络时没有进行优化。然后将分割网络应用于来自目标数据集的真实图像和未修改的渲染图像(这为真实图像和合成图像提供了兼容的语义信息)。将VGG特征提取网络应用于真实图像和增强图像。

在被训练的过程中,鉴别器使用一种特定的采样策略来选择真实和合成的图像块,以显著减少常见的伪影。

2

实验评估

论文中,研究人员进行了一组对照实验,具体评估了采样策略、G-buffers、使用G-buffers的架构以及对抗性损失的不同设置等指标。结果如下图:

在采样策略方面,通过对uniform采样与matching patch pairs采样在不同尺寸(196、256、400)下的对比,表明较小的patch减少了原始和目标图像数据之间的不匹配,较大的patch伪影更强,如下图第2列和第3列。

较小的patch采样可显著降低sKVD。在matching patches采样中,中高层次的sKVD有所降低了,而最低层次上的sKVD略有增加。这可以解释为uniform采样patch的优势是可以被更高水平的分布不匹配所抵消。

在引入G-buffers策略上对比了三种方法:第一,简单地将它们附加到渲染图像(Concat)中。它使用标准的HRNet架构进行图像增强(没有RAD模块或RAD块)。第二,将RAD模块替换为SPADE模块。第三,使用本篇论文的RAD模块。

结果表明,简单的concatenation比SPADE模有更好的结果。SPADE模块在整个数据集中很不稳定,对比真实图像有明显的伪影和颜色偏差。如下图中间列:

在鉴别器评估方面,比较了PatchGAN,它使用四个鉴别器网络,每个鉴别器网络以不同的比例摄取图像。实验表明,PatchGAN鉴别器的输出结果明显缺乏真实感。如下图,推理层和自适应反向传播都发挥了作用,但不在同一感知水平。如果移除自适应反向传播会降低最高层次上sKVD,移除推理层会增加高层次的sKVD。当考虑到所有层次时,推理和自适应反向传播相结合是有益的。推理层的效果如下图:

总的来说,本篇论文的方法显著增强了渲染图像的真实感。针对真实数据集中具有清晰对应关系的物体和场景,它能够产生高质量的增强,这些增强在几何和语义上与输入图像一致,同时与相应数据集的样式相匹配。在 Geforce RTX 3090 GPU上,该方法在当前未优化的实现中推理需要半秒钟。由于用作输入的G-buffer是在GPU上生成的,因此可以更深入地集成到游戏引擎中,提高效率和真实感水平。

此外,该方法生成的图像在结构上与输入场景一致,这有助于使用可用于合成数据的基本事实注释。为了支持未来的研究,研究人员将发布GTAV和VIPER数据集的增强图像。

引用链接:

https://www.theverge.com/2021/5/12/22432945/intel-gta-v-realistic-machine-learning-cityscapes-dataset

https://www.engadget.com/gta-v-ai-photorealism-135046313.html

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/484683.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

对公平席位分配问题的探讨:最大余数法、Q值法和D’Hondt方法及其特例|公平分配原则等

公平席位分配问题 本文研究公平的席位分配问题。对席位分配问题中经典的最大余数法、Q值法和D’Hondt方法进行研究和比较,在提出公平性判断原则的基础上,分析其优缺点。本文使用Matlab搭建三种席位分配模型,并对结果展开讨论。给出最大余数法…

电动车产业深度报告:对比苹果,剖析特斯拉产业链投资机会 | 附完整报告下载...

报告出品方:兴业证券作者:戴畅 董晓彬 赵季新本篇报告对苹果产业链和特斯拉产业链进行了深度对比分析,前者引领消费电子黄金十年,后者将开启相关产业链赤金十年。1智能手机 vs 电动汽车:电动车方兴未艾,市场…

七牛云注册创建oss并配置自定义域名

1.登陆官网注册账号 有个人和企业两种,根据自己的情况进行注册 https://portal.qiniu.com/signup/choice 2.注册后要进行认证,不认证是没有免费空间给你使用的 3.创建对象存储,这个当然是选择离自己距离近的咯,更快的响应嘛 4.创建成功后,如果不想绑定到自己的域名的话,七牛云也…

状态转移法求解夫妻过河问题

状态转移法求解夫妻过河问题 摘 要 本文研究夫妻问题。主要运用“状态转移法”解决夫妻过河问题,并用Python编程实现,输出求解过程和结果。分析夫妻对数n和船载人数m和是否有解的关系,给出了该问题的一般提法和解法。 目 录 3.1 约束条件 1…

第二章 数据的表示和运算 2.1.6 循环冗余校验码/CRC码 [计算机组成原理笔记]

第二章 数据的表示和运算 2.1.6 循环冗余校验码/CRC码 本笔记参考书目: 计算机组成原理(第六版.立体化教材)白中英、戴志涛2021王道计算机组成原理视频公开课 本节重点: 循环冗余校验码/CRC码 的生成和检错 转载请注明文章来源…

利用基于GPU的AI模拟一个现实宇宙 仅需36分钟

来源:The Next Web编译:科技行者科学家已经习惯于使用超级计算机处理宇宙学领域的海量数据,最近卡耐基梅隆大学的研究团队找到一种新方法,可以使用常规的机器学习技术(与AI绘画或作曲拥有同样的底层设计),在图形处理单…

第七章:集成学习(利用AdaBoost元算法...)

---恢复内容开始--- 集成学习其实不能算一个算法,应该算是一种框架,集百家之长。集成算法具体有Bagging与Boosting两种大类。两者区别: 1)Bagging是并行的,它就好比找男朋友,美女选择择偶对象的时候,会问几…

GPT-3难以复现,为什么说PyTorch走上了一条“大弯路”?

来源:OneFlow 投稿责编:欧阳姝黎2020 年,最轰动的 AI 新闻莫过于 OpenAI 发布的 GPT-3 了。它的1750亿参数量及其在众多NLP任务上超过人类的出众表现让人们开始坚信:大模型才是未来。但与之带来的问题是,训练超大模型所…

生小兔问题

生小兔问题🐰 本文研究生小兔问题。使用代数模型,在考虑生育情况变化的情况下,求解兔子/白鼠的数目变化。 第1章 问题重述 生小兔问题 兔子出生后能够存活12个月,从第7月开始生小兔,7、8两月每对兔子生1对小兔/月&am…

光刻机龙头ASML回应韩国建厂:无需过度解读

来源: 深城物联近期,韩国在半导体领域的动作不小。先是韩国总统文在寅公开宣布韩国将斥资4500亿美元建设全球最大芯片制造基地,之后韩国又向全球光刻机龙头大厂阿斯麦(ASML)抛出了橄榄枝,请ASML在韩国建立再…

Spring入门之一-------实现一个简单的IoC

一、场景模拟 public interface Human {public void goHome();} Human:人类,下班了该回家啦public interface Car {void start();void stop();void turnLeft();void turnRight();} Car:汽车,可以启动、停止、左转、右转public cla…

常染色体的隐性疾病数学建模(代数模型)

常染色体的隐性疾病数学建模(代数模型) 摘要:本文研究随交配代数的增长,常染色体隐性疾病的基因分布变化问题。使用代数模型,在正常人不与显性患者交配,但隐性患者可与正常人、隐性患者交配的情况下时&…

一文拆解中国火星车着陆全过程

天问一号着陆器降落火星(艺术图)来源: 深城物联 经过惊心动魄的九分钟,中国首个火星车祝融号成功穿越火星大气层,着陆于火星北半球的乌托邦平原南端。自此,继苏联和美国之后,中国成为了第三个成…

第二章 物理层 4 奈氏准则和香农定理 [计算机网络笔记]

第二章 物理层 4 奈氏准则和香农定理 本笔记参考书目: 计算机网络(第8版)谢希仁2021王道计算机网络视频公开课 本节重点: 奈氏准则和香农定理的计算/适用范围 转载请注明文章来源! 失真 失真的影响因素&#xff1…

谈谈数学之现在与未来

文章来源:好玩的数学来源:《数学教学通讯》2005年3月(上半月)(总第220期)作者:王元(中国科学院数学与系统科学研究院)数学科学是什么?我们首先谈谈数学科学是…

SQL Server创建Job, 实现执行相同脚本而产生不同作业计划的探究

1 . 背景描述 本公司的SQL Server 服务器近百台,为了收集服务器运行的状态,需要在各个实例上部署监控Job,将收集到的信息推送到中央管理服务器。 收集的信息主要包括:慢查询、阻塞、资源等待、Connection_Trace log 、Job执行状态…

基于线性常微分方程的我国某省艾滋病传播的数学模型建立和预测分析

基于线性常微分方程的我国某省艾滋病传播的数学模型建立和预测分析 如有错误,欢迎指正!转载需注明出处和作者信息!©️Sylvan Ding 摘要 艾滋病(AIDS)又称获得性免疫缺陷综合征,由人类免疫缺陷病毒&…

神经网络的持续终身学习综述论文

来源:专知人和高级动物在整个生命中不断获取、微调和转让知识和技能。这种能力,称为lifelong learning,是由一系列神经认知机制协调的过程,这些机制共同促进了sensorimotor技能的发展以及对长期记忆的巩固和检索。因此对于计算系统…

Pensando Distributed Services Architecture [Pensando 分布式服务架构] - 翻译

Pensando Distributed Services Architecture [Pensando 分布式服务架构] - 翻译 转载需注明文章出处:©️ Sylvan Ding Source: M. Galles and F. Matus, “Pensando Distributed Services Architecture” in IEEE Micro, vol. 41, no. 02, pp. 43-49, 2021. D…

反思脑机接口技术:机器真的能控制我们的大脑吗?

来源:AI科技评论作者:R. Douglas Fields编译:陈彩娴猛烈的公牛在冲锋的途中锁定了双腿。它将双蹄扎进地下,在与之搏斗的人类参赛选手被刺伤之前停了下来。这个人类参赛选手不是职业斗牛士,而是一名西班牙神经科学家&am…