为了自动驾驶,谷歌用NeRF在虚拟世界中重建了旧金山市

cdc964b533b7a68aa4e1aade2a585b0a.png

来源:机器学习研究组订阅

真不用来做成元宇宙?

训练自动驾驶系统需要高精地图,海量的数据和虚拟环境,每家致力于此方向的科技公司都有自己的方法,Waymo 有自己的自动驾驶出租车队,英伟达创建了用于大规模训练的虚拟环境 NVIDIA DRIVE Sim 平台。近日,来自 Google AI 和谷歌自家自动驾驶公司 Waymo 的研究人员实践了一个新思路,他们尝试用 280 万张街景照片重建出整片旧金山市区的 3D 环境。

40c86d756c6900d7cb0c7e6e80223a29.gif

通过大量街景图片,谷歌的研究人员们构建了一个 Block-NeRF 网格,完成了迄今为止最大的神经网络场景表征,渲染了旧金山的街景。

该研究提交到 arXiv 上之后,Jeff Dean 立即转推介绍:

18b3fea348f56cc28abd614ab0314b39.png

Block-NeRF 是一种神经辐射场的变体,可以表征大规模环境。具体来说,该研究表明,当扩展 NeRF 以渲染跨越多个街区的城市场景时,将场景分解为多个单独训练的 NeRF 至关重要。这种分解将渲染时间与场景大小分离,使渲染能够扩展到任意大的环境,并允许对环境进行逐块更新。

该研究采用几项架构更改,使得 NeRF 对数月内不同环境条件下捕获的数据具有鲁棒性,为每个单独的 NeRF 添加了外观嵌入、学习姿态细化和可控曝光,并提出了一种用于对齐相邻 NeRF 之间外观的程序,以便无缝组合。

《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》是 UC Berkeley 研究人员在 ECCV 2020 上的一篇论文,获得了最佳论文提名。其提出一种隐式 3D 场景表征,不同于显示场景表征(如点云、网格 mesh),其原理是求解穿过场景的任何光线的颜色,从而渲染合成新视角的 2D 场景图片。

NeRF 在给定一组姿态相机图像的情况下,实现了照片般逼真的重建和新型视图合成。NeRF 早期的工作往往侧重于小规模和以对象为中心的重建。尽管现在有些方法可以重建单个房间或建筑物大小的场景,但这些方法仍然范围有限,不能扩展到城市规模的环境。由于模型容量有限,将这些方法应用于大型环境通常会导致明显的伪影和低视觉保真度。

重建大规模环境在自动驾驶、航空测量等领域具有广泛应用前景。例如创建大范围的高保真地图,为机器人定位、导航等应用提供先验知识。此外,自动驾驶系统通常通过重新模拟以前遇到的场景来进行评估,然而任何与记录存在的偏差都可能改变车辆的轨迹,因此需要沿着路径进行高保真的视图渲染。除了基本的视图合成,以场景为条件的 NeRF 还能够改变环境照明条件,例如相机曝光、天气或一天中不同的时间,这可用于进一步增强模拟场景。

0da139eb6ca1cc17471130657ae2cf46.png

  • 论文链接:https://arxiv.org/abs/2202.05263

  • 项目链接:https://waymo.com/intl/zh-cn/research/block-nerf/

如上图所示,谷歌此次提出的 Block-NeRF 是一种通过使用多个紧凑的 NeRF 表征环境来实现大规模场景重建的方法。在推理时,Block-NeRF 无缝结合给定区域的相关 NeRF 的渲染。上图的示例使用 3 个月内收集的数据重建了旧金山的阿拉莫广场社区。Block-NeRF 可以更新环境的各个块,而无需对整个场景进行重新训练。

重建如此大规模的环境会带来额外的挑战,包括瞬态物体(汽车和行人)的存在、模型容量的限制以及内存和计算限制。此外,在一致的条件下,极不可能在一次捕获中收集如此大环境的训练数据。相反,环境不同部分的数据可能需要来自不同的数据收集工作,这会在场景几何(例如,建筑工作和停放的汽车)以及外观(例如,天气条件和一天中不同的时间)中引入差异。

方法

该研究通过外观嵌入和学习姿态细化来扩展 NeRF,以应对收集到的数据中的环境变化和姿态错误,同时还为 NeRF 添加了曝光条件,以提供在推理过程中修改曝光的能力。添加这些变化之后的模型被研究者称为 Block-NeRF。扩大 Block-NeRF 的网络容量将能够表征越来越大的场景。然而,这种方法本身有许多限制:渲染时间随着网络的大小而变化,网络不再适合单个计算设备,更新或扩展环境需要重新训练整个网络。

为了应对这些挑战,研究者提出将大型环境划分为多个单独训练的 Block-NeRF,然后在推理时动态渲染和组合。单独建模这些 Block-NeRF 可以实现最大的灵活性,扩展到任意大的环境,并提供以分段方式更新或引入新区域的能力,而无需重新训练整个环境。要计算目标视图,只需渲染 Block-NeRF 的子集,然后根据它们相对于相机的地理位置进行合成。为了实现更无缝的合成,谷歌提出了一种外观匹配技术,通过优化它们的外观嵌入,将不同的 Block-NeRF 进行视觉对齐。

cbb288bd1ea864544e0536998a833a7a.png

图 2:重建场景被分成了多个 Block-NeRF,每个 Block-NeRF 都在特定 Block-NeRF 原点坐标(橙色点)的某个原型区域(橙色虚线)内的数据上进行训练。

该研究在 mipNeRF 的基础上构建了 Block-NeRF 实现,改善了因输入图像从许多不同距离观察场景造成的损害 NeRF 性能的混叠问题。研究人员结合了来自 NeRF in the Wild (NeRF-W) 的技术,该技术在将 NeRF 应用于 Photo Tourism 数据集中的地标时,为每个训练图像添加一个潜在代码以处理不一致的场景外观。NeRF-W 从数千张图像中为每个地标创建一个单独的 NeRF,而谷歌的新方法结合了许多 NeRF,从数百万张图像中重建一个连贯的大环境,并结合了学习相机姿态细化。

a1358a55c13c68e14751e4d12b134785.png

图 3. 新模型是 mip-NeRF 中提出的模型的扩展。

一些基于 NeRF 的方法使用分割数据来隔离和重建视频序列中的静态和动态对象(如人或汽车)。由于该研究主要关注重建环境本身,所以在训练期间简单地选择屏蔽掉动态对象。

为了动态选择相关的 Block-NeRF 进行渲染,并在遍历场景时以平滑的方式进行合成,谷歌优化了外观代码以匹配光照条件,并使用基于每个 Block-NeRF 到新视图的距离计算的插值权重。

重建效果

鉴于数据的不同部分可能在不同的环境条件下被捕获,算法遵循 NeRF-W 并使用生成式潜在优化(Generative Latent Optimization,GLO)来优化 perimage 外观嵌入向量。这使得 NeRF 可以解释几个外观变化的条件,例如变化的天气和照明。同时还可以操纵这些外观嵌入,以在训练数据中观察到的不同条件之间进行插值(例如多云与晴朗的天空,或白天和黑夜)。

9c8c49aee58ccc3d135a76594f8f8ba8.png

图 4. 外观代码允许模型展示出不同的照明和天气条件。

整个环境可以由任意数量的 Block-NeRF 组成。为了提高效率,研究人员利用两种过滤机制仅渲染给定目标视点的相关区块,这里只考虑目标视点设定半径内的 Block-NeRF。此外,系统对于每个候选者都会计算相关的可见性。如果平均可见度低于阈值,则丢弃 Block-NeRF。图 2 提供了一个可见性过滤的示例。可见性可以快速计算,因为它的网络独立于颜色网络,并且不需要以目标图像分辨率进行渲染。过滤后,通常有 1 到 3 个 Block-NeRF 需要合并。

18f8477ce5e0d15f1e76929f506d1757.png

图 5. 谷歌的模型包含曝光条件,这有助于解释训练数据中存在的曝光量变化,允许用户在推理过程中以人类可解释的方式更改输出图像的外观。

为了重建整个城市场景,研究人员在录制街景时捕获长期序列数据(超过 100 秒),并在几个月内在特定目标区域重复捕获不同序列。谷歌使用从 12 个摄像头捕获的图像数据,这些摄像头共同提供 360° 视图。其中 8 个摄像头从车顶提供完整的环视图,另外 4 个摄像头位于车辆前部,指向前方和侧面。每个相机以 10 Hz 的频率捕获图像并存储一个标量曝光值。车辆姿态是已知的,并且所有摄像机都经过校准。

借助这些信息,该研究在一个共同的坐标系中计算相应的相机光线原点和方向,同时将相机的滚动快门考虑在内。

4a5291cca3d563bd5f532653d0eee3c9.png

图 6. 当渲染基于多个 Block-NeRF 的场景时,该算法使用外观匹配来获得整个场景的一致样貌。给定一个 Block-NeRF(图左)的固定目标外观,算法会优化相邻 Block-NeRF 的外观以匹配。在此示例中,外观匹配了在 Block-NeRF 中产生一致的夜间外观。

f9d0b9f34bd4226eccc979aaf339c90b.png

图 7. 多段数据的模型消融结果。外观嵌入有助于神经网络避免添加云雾几何体来解释天气和光照等环境变化。移除曝光会略微降低了准确度。姿态优化有助于锐化结果并消除重复对象的重影,如在第一行的电线杆上观察到的那样。

未来展望

谷歌研究人员表示,新方法仍然有一些问题有待解决,比如部分车辆和阴影没有被正确移除,植被因为外观随季节变化而在虚拟环境中变得模糊。同时,训练数据中的时间不一致(例如施工工作)无法被 AI 自动处理,需要手动重新训练受影响的区域。

此外,目前无法渲染包含动态对象的场景限制了 Block-NeRF 对机器人闭环模拟任务的适用性。将来,这些问题或许可以通过在优化过程中学习瞬态对象来解决,或者直接对动态对象进行建模。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

16e055ff3cea03a86fa369971c0fa029.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482550.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

人工智能可以自己编码?2022年这8个人工智能趋势值得关注!

来源:产业大视野译者:Sambodhi1. AI-on-5G2022 年,工业 AI 和 AI-on-5G 物联网应用将会成为主流。想象一下,当我我以元宇宙为目标的时候,我们对物理空间的升级方式同样令人印象深刻。AI-on-5G 组合计算基础设施为传感器…

通过OracleDataReader来读取BLOB类型的数据

在实际的应用过程中,需要把大块的二进制数据存储在数据库中。读取这些大块的数据,可以通过强制类型转换成为byte数组,但是当这个二进制数据体够大时(几十兆或者上百兆),一次并不能获取到他的完整长度&#…

完美的优化目标,人工智能的盲点

来源:AI科技评论译者:辛西娅编辑:维克多人工智能(AI)系统的脆弱性一直被行业人员所诟病,稍微的数据错误就会使系统发生故障。例如在图像识别中,图片微小的像素改变,不会干扰人类视觉…

宇宙和世界真的是虚拟的吗?

来源:数学中国 2021年元宇宙无疑成为科技领域最火爆的概念之一,扎克伯格曾表示未来脸书将从一家社交媒体公司转变为一家元宇宙公司,之后元宇宙这个词席卷了整个互联网与投资圈。在大多数人还搞不懂元宇宙是什么的时候,科技公司们已…

粒子物理学有了新的基础数学理论

来源:科技日报科技日报柏林2月13日电 (记者李山)近日,来自奥地利和英国的科学家共同发表了一个粒子物理学的基础数学新理论。他们定义和研究了黎曼曲面上存在的非常稳定的希格斯丛,其蕴涵了全局幂零锥稳定分量的多重性…

2022年重大颠覆性科技创新趋势报告(完整版)

来源:点滴科技资讯未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业…

02.Mybatis的动态代理方式实现增删改查

动态代理的方式实现增删改查: 通过约定的方式定位sql语句 约定 > 配置文件 > 硬编码 约定的目标是省略掉通过硬编码的方式定位sql的代码,通过接口直接定位出sql语句,以下代码为通过硬编码的方法定位sql: 1      //读取conf.xml 配置文件2 Reader…

孙正义看未来30年:这个趋势,永远不会错(附完整PPT)

来源:大数据实验室 对于今后30年来讲,我认为现在是个很关键的时刻,尤其是在各位的人生当中。而且现在是一整个概念的转变,我们要包容这个概念的转变。我想先给大家看两张照片。这是美国纽约的第五大道,左边那张是1900年…

可视化解释11种基本神经网络架构

来源:海豚数据科学实验室标准,循环,卷积和自动编码器网络随着深度学习的飞速发展,已经创建了完整的神经网络体系结构主机,以解决各种各样的任务和问题。尽管有无数的神经网络架构,但对于任何深度学习工程师…

设计模式之二抽象工厂设计模式

继上篇简单工厂设计模式之后,今天继续讲解抽象工厂设计模式。在简单工厂中,我们的工厂类一次只可以处理一类产品。那么如果我们想处理多类产品,简单工厂是满足不了的。必须要用抽象工厂设计模式。 我们先从概念上来了解下什么是抽象工厂设计模…

Nature封面:只低一毫米,时间也会变慢!叶军团队首次在毫米尺度验证广义相对论...

来源:凹非寺作者:晓查 明敏你知道吗?在地球上,楼层越低,时间过得越慢。这可不是玄学,而是爱因斯坦广义相对论预言的时间膨胀效应:引力越大,时间越慢。△ 在不同高度差上验证时钟变快…

DARPA可解释AI研究(XAI计划)的4年回顾与经验总结

来源:智源社区作者:David Gunning, Eric Vorm, Jennifer Yunyan Wang, Matt Turek编译:牛梦琳摘要:从项目管理人员和评估人员的角度,对国防高级研究计划局(DARPA)的可解释人工智能(X…

​从ASML年报看半导体产业的未来

来源:半导体行业观察在前几天的文章《光刻机巨头ASML的十年变迁》中,笔者梳理了ASML近10年来的财报数据,介绍了其EUV/DUV光刻机出货量、年销售额、研发投入以及各地区的销售情况等。近日,ASML又公布了2021年年报,我们一…

04.MyBatis别名的设置和类型转换器

别名的设置:(别名不区分大小写): 设置单个别名: <configuration><properties resource"db.properties" /><typeAliases><!-- 设置单个别名 --><typeAlias type"com.offcn.entity.Person" alias"person"/><type…

史上首次,强化学习算法控制核聚变登上Nature:DeepMind让人造太阳向前一大步...

来源&#xff1a;机器之心过去三年&#xff0c;DeepMind 和瑞士洛桑联邦理工学院 EPFL 一直在进行一个神秘的项目&#xff1a;用强化学习控制核聚变反应堆内过热的等离子体&#xff0c;如今它已宣告成功。DeepMind研究科学家David Pfau在论文发表后感叹道&#xff1a;「为了分享…

机器人流程自动化技术的新发展

来源&#xff1a;学习时报作者&#xff1a;李蕾蓬勃发展的数字经济&#xff0c;是全球新一轮科技进步的产物&#xff0c;直接受到新兴数字技术与智能技术的驱动。机器人流程自动化技术&#xff08;简称“RPA”&#xff09;&#xff0c;是近些年获得快速发展与广泛应用的重要智能…

论人工智能历史、现状与未来发展战略

来源&#xff1a;《学术前沿》作者&#xff1a;郭毅可人工智能问世60多年来&#xff0c;承载着人类对自己的智慧的无限自信。在这样的自信下&#xff0c;人工智能发展到了今天&#xff0c;人们在追求机器从事尽可能多的智力劳动的路上走得很快&#xff0c;也很远。今天人工智能…

PHP 开发者大会

PHPCON 2019 开发者大会(上海)2019.8.10-8-11 郭新华,和陈雷给我留下的影响很大 再看下天气,利奇马台风,都坐满了,来的都是真爱. Swoole 的韩天峰开始演讲,感觉是程序员标准的样子,哈哈哈 2345 的高旭 讲公司用swoole 的架构 鸟哥因为台风问题没来成,搞了个直播,哈哈哈,感觉很…

IEEE Fellow杨铮:打破「视觉」垄断,无线信号为 AI 开启「新感官」

来源&#xff1a;AI科技评论作者&#xff1a;陈彩娴编辑&#xff1a;岑峰2020年年初疫情刚开始时&#xff0c;清华大学的官方号曾祭出一篇题为《清华教师升级「十大神器」&#xff0c;上课力满格》的推文&#xff0c;讲述了软件学院某老师如何居家办公、探索出一套防止学生偷懒…

对于量子计算来说,99%的准确度足够吗?

UNIVERSITY OF NEW SOUTH WALES来源&#xff1a;IEEE电气电子工程师来自荷兰代尔夫特理工大学&#xff08;Delft University of Technology&#xff09;、日本理化学研究所&#xff08;Riken&#xff09;和悉尼新南威尔士大学&#xff08;UNSW&#xff09;的研究团队在硅中开发…