建造自己的「天空之城」,密歇根大学博士后的这项研究可以虚空造物、偷天换日...

来源:机器之心
哈尔的移动城堡?天空之城?这幅图是否让你想起了这两部电影中的场景……上:《天空之城》剧照;下:《哈尔的移动城堡》剧照。是电影场景变为现实了吗?真的有人建造了一座空中楼阁?答案是也不是。这座空中城堡的确是人为「构建」的,但并非真实存在。它是密歇根大学博士后研究员 Zhengxia Zou 近期一项研究所呈现的效果。荒野、公路、疾驰的汽车,还有天边的巨型神秘建筑物,有科幻 / 末世电影内味儿了。然而,这幅场景竟然是从晴空万里的画面转换而成的。公路片变身科幻片?!别急,还有大招。(以下示例左图为原始画面,右图为处理后画面。)右图场景是不是更像《天空之城》了?这场景让人想起一句歌词「打开这深夜,抚摸寒星光,我只想走进圆月亮」。除了改变天空(比如增加悬浮城堡、改变色彩和云朵等),这项技术还能变换场景中的天气和光照。今日天气多云转晴。雷暴预警!一瞬间天昏地暗,雷电交加。看起来,这项技术似乎都可以用到电影业了。那它是如何做到的呢?这项研究提出一种用于视频中天空置换与协调的视觉方法,该方法能够在风格可控的视频中自动生成逼真的天空背景。以往的天空编辑方法要么针对静态图片,要么需要在智能手机上集成惯性测量单元(IMU)以便拍摄视频,而这项研究是完全基于视觉的,对视频捕获设备没有任何要求,还能很好地应用于在线或离线场景。此外,该方法可以执行实时处理,无需用户交互。研究人员将这个艺术加工过程分解成 3 个任务:天空抠图(sky matting)、运动估计和图像融合,并在智能手机和行车记录仪在户外采集到的视频上进行了实验,结果表明该方法在视觉质量以及光照、动态方面均具有高保真度和不错的泛化性。
  • 论文地址:https://arxiv.org/pdf/2010.11800.pdf

  • GitHub 地址:https://github.com/jiupinjia/SkyAR

  • 项目主页:https://jiupinjia.github.io/skyar/

  • Google Colab 地址:https://colab.research.google.com/drive/1-BqXD3EzDY6PHRdwb3cWayk2KictbFaz?usp=sharing

方法


下图概述了该研究提出的方法,它由 3 个模块组成:天空抠图网络、运动估计算法以及 skybox。


天空抠图网络用来检测视频帧中的天空区域。与以往将此过程定义为二元像素级分类(前景 vs 天空)问题的方法不同,该研究设计了一种基于深度学习的由粗到细的预测 pipeline,以产生更精确的检测结果和更悦目的混合效果。

运动估计算法用于恢复天空的移动。虚拟摄像机捕获的天空视频需要在真实摄像机的运动下进行渲染和同步。该研究假设天空以及天空中的物体(例如,太阳、云等)位于无穷远,并用 Affine 矩阵建模它们相对于前景的运动。

skybox 模块用于天空图像的扭曲和混合。给定前景帧、预测的天空抠图、运动参数,skybox 将基于运动扭曲天空背景并将其与前景混合。skybox 还应用了重光照和重新着色技术,使混合结果在颜色和动态范围方面更加逼真。

实现细节

该方法使用 ResNet-50 作为天空抠图网络的编码器(全连接层被移除)。解码器部分包括 5 个卷积上采样层(coordinate 卷积 + relu + 双线性上采样)和一个像素级预测层(coordinate + sigmoid)。该研究方法遵循 UNet [30] 的配置,并在具有相同空间大小的编码器层与解码器层之间添加残差连接。表 1 显示了该网络的详细配置:

实验


天空增强和天气模拟


除了前文及上图展示的处理效果以外,该研究还展示了该方法与 CycleGAN 方法之间的对比结果,具体如下图 5 所示:

图 5:该研究提出方法与 CycleGAN 的定性对比结果。


下表 2 给出了在不同天气转换场景下这两种方法的图像保真度定量对比结果。该研究提出的方法在两个定量度量指标和视觉质量上均显著优于 CycleGAN。


速度

下表 3 展示了该研究提出方法的速度:


研究人员使用配备一块英伟达 Titan XP GPU 和英特尔 I7-9700k CPU 的台式机进行推断速度测试。对于不同输出分辨率而言,处理速度有所不同:该方法在输出分辨率为 640×320 时实现了实时处理速度 (24 fps),在输出分辨率为 854×480 时实现了接近实时处理的速度 (15 fps),不过仍有很大提升空间。

根据统计,天空抠图阶段需要花费相当多的时间,因此用更高效的 CNN 主干网络(如 MobileNet 或 EfficientNet)替换 ResNet-50,可以提高处理速度。

局限性

该方法也存在一些局限性。


首先,天空抠图网络仅基于白天的图像训练,因此该方法可能无法检测夜晚视频中的天空区域。

其次,当视频特定时间段没有天空像素时,或者天空中没有纹理时,该方法无法精确建模天空背景的运动。

下图 8 展示了两个失败案例:

作者简介


本文作者 Zhengxia Zou 现为密歇根大学安娜堡分校的博士后研究员。他先后于 2013 年和 2018 年取得北京航空航天大学的学士和博士学位。其研究兴趣包括计算机视觉及其在遥感、自动驾驶汽车和电子游戏等领域的相关应用。

他参与撰写的论文被 AAAI、CVPR、ICCV、ACM MM 等多个学术顶会接收。此外,他还曾担任 NeurIPS、AAAI、ACCV 和 WACV 等多个学术会议的程序委员,以及 ICLR 会议及 IEEE Transactions on Image Processing 等多份期刊的审稿人。

此前,机器之心报道过的一项用人脸照片生成游戏专属角色的研究也有他的参与。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/486576.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

个人计算机有控制器和运算器吗,cpu是由控制器和运算器组成的对还是错

对的。CPU即中央处理器,是计算机中负责读取指令,对指令译码并执行指令的核心部件。中央处理器主要包括两个部分,即控制器、运算器,其中还包括高速缓冲存储器及实现它们之间联系的数据、控制的总线。一、控制器是整个计算机系统的指…

又一壮举!GPT-3首次完成剧本创作,AI解决创造性问题的能力正迅速提升

来源:中国智慧城市导刊文章原载于 学术头条自今年 6 月份发布以来,OpenAI 的文本生成人工智能工具 GPT-3 获得了极大的关注。它被用来在论坛上发表评论、写诗、甚至在《卫报》中发表文章。当 GPT-3 没有经过专门培训就学会自动完成某项任务时&#xff0c…

Hinton构思下一代神经网络:属于无监督对比学习

本文由机器之心报道Geoffrey Hinton 是谷歌副总裁、工程研究员,也是 Vector Institute 的首席科学顾问、多伦多大学 Emeritus 荣誉教授。2018 年,他与 Yoshua Bengio、Yann LeCun 因对深度学习领域做出的巨大贡献而共同获得图灵奖。自 20 世纪 80 年代开…

windows 获取命令执行后的结果_法院判决以后,老赖欠钱不还,递交强制执行申请多久后有结果?...

网友提问:老赖欠钱不还,已向法院递交了强制执行申请一个月了,老赖仍逍遥法外,该怎么办?这个阶段你称之为老赖,也无不可。但还不是法律上所认可的老赖,法律上的老赖也只是个俗称,学名…

研究揭示动物社交欲望的神经机制

来源:中国科学院生物物理研究所10月22日,中国科学院生物物理研究所朱岩课题组在Nature Communications上发表题为Social attraction in Drosophila is regulated by the mushroom body and serotonergic system的研究论文,研究以果蝇为模型&a…

bat复制文件到指定目录同名_scp复制文件时排除指定文件

请关注本头条号,每天坚持更新原创干货技术文章。如需学习视频,请在微信搜索公众号“智传网优”直接开始自助视频学习1. 前言本文主要讲解如何在scp复制文件时排除指定文件。举例:我需要将所有*.c文件从名为hostA的电脑复制到hostB&#xff0c…

传感器的“脖子”卡在哪儿?

来源:人民政协报昨天胜利闭幕的十九届五中全会研究关于制定“十四五”规划和2035年远景目标的建议。其中加强自主创新、对卡脖子关键技术攻关是重中之重,并将传感器作为“卡脖子”技术攻克目标之一。与此同时美国近期也公布了《关键与新兴技术国家战略》…

服务器大线程有什么作用,全面剖析超线程技术优点与缺点

欢迎各位阅读本篇文章,超线程技术就是利用特殊的硬件指令,把两个逻辑内核模拟成两个物理芯片,让单个处理器都能使用线程级并行计算,进而兼容多线程操作系统和软件,减少了CPU的闲置时间,提高的CPU的运行效率…

遍历矩阵每一行穷举_[LeetCode] 566. 重塑矩阵

题目链接: https://leetcode-cn.com/problems/reshape-the-matrix难度:简单通过率:61.6%题目描述:在MATLAB中,有一个非常有用的函数 reshape,它可以将一个矩阵重塑为另一个大小不同的新矩阵,但保留其原始数…

git push时报错fatal: Could not read from remote repository.

后来发现,出现这个问题是因为仓库地址不对 使用如下命令先查看一下: $ git remote -v 发现跟github的地址不一致 然后在终端输入:git remote set-url origin XXX 然后重新push就可以了 转载于:https://www.cnblogs.com/sjhsszl/p/git.html

Hinton新作!越大的自监督模型,半监督学习需要的标签越少

来源:AI科技评论编译:青暮本文介绍了Hinton团队发表在NeurIPS 2020上的一项研究工作,一作是Ting Chen,研究人员首次在ImageNet上尝试了半监督学习的典型范式,并取得了优越的结果。此外,他们还发现&#xff…

dataframe第二列 r语言_123.R简介和统计绘图

123R简介和统计绘图本节作者:刘永鑫 中国科学院遗传与发育生物学研究所;陈同 中国中医科学院版本1.0.2,更新日期:2020年8月31日本项目永久地址:https://github.com/YongxinLiu/MicrobiomeStatPlot ,本节目录…

脑机接口中的后门攻击

本文来自伍冬睿科学网博客链接地址:http://wap.sciencenet.cn/blog-3418535-1256333.html?mobile1机器学习在脑机接口中的成功应用,使脑机接口得到了快速的发展。然而,对抗攻击的发现让我们不得不重新思考机器学习模型的安全性。这些潜在的危…

联想高性能服务器,Lenovo|EMC推出高性能4x4TB服务器级NAS

作为联想PC战略的延伸和全球企业级战略的重要组成部分,联想与EMC建立起全球范围内的战略合作,并于2013年4月2日在深圳全新推出面向企业市场的联合品牌存储新产品家族。可以说联想与EMC合作是在企业级业务领域的又一重要战略布局。在4月2日的发布会上&…

调用图片文件夹中的任意图片随机显示_他来了,他来了,Mathpix拜拜了~~~文字、表格、公式图片识别神器V0.1测试版...

(图0)img2txt V0.8 【正式版】第1步:win10自带截图快捷键:WinShiftS,也可以用QQ等截图工具;第2步:打开软件,完成初始配置(后续调用无需再配置),按…

​MEMS在未来面临的挑战

来源:内容由半导体行业观察(ID:icbank)编译自「semiconductor-digest」,谢谢。在过去的几十年中,MEMS传感器已经走了很长一段路。1990年代末,用于汽车气囊碰撞传感器的MEMS加速度计和用于侧翻检…

基于jQuery/zepto的单页应用(SPA)搭建方案

这里介绍一个基于jquery或zepto的单页面应用方案,遵循尽可能简单的原则,使大家一目了然,只需配置一个路由,之后完全按照jq日常写法即可完成。可做学习使用,也可修改后用于一些业务逻辑简单的spa项目中;下面是个dome&am…

怀旧服开新服务器消息,怀旧服B测已经开启 全新内容爆料汇总

来了来了,终于来了!在经历了昨天一次短暂的乌龙之后,暴雪终于以蓝帖的形式发布了消息:《燃烧的远征:经典怀旧服》BETA测试目前已经正式开启!在Battle.net(战网客户端)上目前已经出现了《Burning Crusade Classic Beta》的客户端字…

用深层神经网络解释大脑的运作

来源:混沌巡洋舰Daniel Yamins,麻省理工学院博士后的一位计算神经科学,有时会为了他的机器视觉项目辛苦工作到午夜以后。他煞费苦心地设计了一个系统,可以识别图片中的物体,而不管其大小、位置和其他特性的变化ーー这是…

foreach 循环达到条件的第一次就停止_是否应该停止在JavaScript代码中使用forEach()?...

在本文中,我想概述一下标准的 for 循环和 forEach() 方法背后的区别,并对它们各自带来的一些好处进行评论。作为免责声明,请不要把标题当真。我写这篇文章的目的是为了让读者了解缺点,并提供一些关于什么时候可以或不可以使用 for…