2D图像转3D仅需5秒,特斯拉的自动驾驶技术有救了?

a9c4ef74995f62b061543d1b8da3dee5.png

来源:科技智谷

编译:徐浩

75年前,宝丽来相机拍摄出第一张即时照片,是人类第一次以逼真的二维图像快速捕捉三维世界,具有划时代的意义。今天,人工智能的研究人员正在进行相反的工作,力求在几秒钟的时间内将静止图像的集合变成数字3D场景。

在本周的春季图形技术大会(GTC)上,Nvidia展示了一种新的逆渲染方法(Instant NeRF)——从少量2D图像中重建3D场景。逆向渲染使用AI来模拟现实世界里的光线,基于Nvidia Research团队开发的技术,让渲染过程极大地缩短,几乎可以说是立即发生。

0976a440317c8a26b25ec561e57038ab.png

事实上,在2D转3D的相关领域,Nvidia一直在尝试技术突破,致力于推出更强大的工具来完成这一过程。但即使是Nvidia这样的行业领先公司,即时渲染3D也是一项极为艰难的技术挑战。

这更凸显出Instant NeRF的来之不易。关于这一成就,谷歌科学家Jon Barron在推特上表示:18个月前,训练NeRF还需要5小时;2个月前,训练NeRF最快也需要5分钟;就在近日,基于英伟达的最新技术,训练NeRF最快也需要5秒!

01

Instant NeRF的技术原理

据了解,Nvidia能够取得这一成绩的主要原因是采用了一种被称作多分辨率哈希编码(Multiresolution Hash Encoding)的技术。在一篇论文《基于多分辨率哈希编码的即时神经图形基元》中,Nvidia对这一新技术做了详细说明。

Nvidia表示:“计算机图形基元基本上由有关外观的各项参数的数学函数表示。参数的数学计算结果对于视觉保真度至关重要。”言下之意是,Nvidia希望在保持速度和数学函数紧凑度的同时,还能捕获高频、局部的图形细节。

为了达到上述要求,Nvidia采用了多分辨率哈希编码技术。据Nvidia称,该技术有着自适应性和高效性两大特性。函数内部只有两个值需要进行配置,分别为参数的数量T和所需的最佳分辨率N max。

该方法映射了来自各个角度的2D镜头的颜色和光线强度,然后生成数据,再结合摄像机位置的相关数据,将这些来自不同位置的图像连接起来,从而渲染出3D场景。

利用该技术,只需经过几秒钟的训练,便能在各种任务中达到较高的质量。

在GTC会议上,Nvidia展示了一张图片,图片上是一个穿着像安迪·沃霍尔(Andy Warhol)的模特拿着一个老式的宝丽来相机。在参与者还没有反应过来的时候,Nvidia迅速把这张图片转换为了3D效果,引起了现场的阵阵惊叹。

展示之后,Nvidia的Isha Salian在现场表示:Instant NeRF(中文叫神经辐射场)是由加州大学伯克利分校、Google研究院和加州大学圣地亚哥分校的研究人员在2020年开始研发的一项技术。

该模型是使用Nvidia CUDA工具包库开发的。由于它是一个轻量级的神经网络,它可以在单个Nvidia GPU上进行训练和运行,在核心卡上运行最快。

几年来,研究人员一直在改进这种从2D到3D的技术,旨在为渲染出的成品增加更多画面细节,并提高渲染速度。Nvidia表示,新一代Instant NeRF模型是迄今为止最快的技术之一,将渲染时间从几分钟缩短到“几乎瞬间”就能完成。

02

NeRF的应用范围

Isha Salian进一步阐释说,这种方法可以应用于广泛的领域。它可用于为虚拟世界创建头像或场景,以3D形式捕获视频会议参与者及其环境,甚至重建3D数字地图的场景。

在上述领域,使用传统方法创建3D场景可能需要数小时或更长时间,具体取决于可视化的复杂性和分辨率。而NeRF使用神经网络系统,效率和准确度大幅度提升。

关于这一点,Nvidia图形研究副总裁David Luebke在一份声明中点出:“Instant NeRF对3D来说可能与数码相机对2D一样重要。因为在2D摄影中,JPEG压缩一直是关键的步骤,它大大提高了3D捕获和共享的速度、易用性和覆盖范围。”

“这项技术可用于训练机器人和自动驾驶汽车,通过捕捉现实世界物体的二维图像或视频片段来了解它们的大小和形状。它还可以用于建筑和娱乐业,通过快速生成真实环境的数字函数,创作者可以在此基础上进行修改和构建。”

903623ca29430fabe376ab14201adf45.png

业内人士表示,NeRF在自动驾驶、航空测量等领域也具有广泛应用前景。例如创建大范围的高保真地图,为机器人定位、导航等应用提供帮助。此外,自动驾驶系统通常需要重新模拟以前遇到的场景来进行安全评估,然而,如果历史记录中存在任何的偏差都可能改变车辆的真实轨迹,因此需要沿着路径进行高保真的视图渲染,这同样需要NeRF技术。在自动驾驶中,除了基本的视图合成,以场景为条件的NeRF还能够改变环境照明条件,例如相机曝光、天气或一天中不同的时间,从而进一步提升模拟驾驶场景的仿真度。

除了NeRF之外,Nvidia的研究人员还在探索如何利用这种输入编码技术来加速多种人工智能挑战,包括强化学习、语言翻译和通用的深度学习算法。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

bd28edbc549417a5a8f0dcab82548b5f.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482337.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Django - 中间件

Django - 中间件 一. 什么是中间件 官方: 中间件是一个用来处理Django的请求和相应的框架级别的钩子, 他是一个轻量, 低级别的插件系统, 用于在全局范围内改变Django的输入和输出, 每个中间件都负责做一些特定的功能. 大白话: 中间件是帮助我们在视图函数执行之前和执行之后都可…

回答薛定谔问题: 生命是什么?自由能公式

来源:CreateAMind回答薛定谔的问题:自由能公式麦克斯韦詹姆斯德索莫拉姆斯泰德a,b,∗保罗本杰明巴德科克c,d,e,卡尔约翰弗里斯顿f,1加拿大魁北克蒙特利尔麦吉尔大学哲学系加拿大魁北克蒙特利尔麦吉尔大学精神病学系社会和跨文化精神病学分部c墨尔本大学心理科学学院…

AlphaCode能替代人类程序员吗?网友:被替代也挺好,这样就可以少写代码多开会了...

来源:AI前线作者:Ben Dickson译者:王强策划:冬梅本文属于我们的人工智能研究论文评论系列,这个系列旨在探讨人工智能领域的最新研究成果。DeepMind 是最新的人工智能研究实验室。它推出了一个可以生成软件源代码的深度…

Django - 内置admin

Django内置的Admin是对于model中对应的数据表进行增删改查提供的组件,使用方式有: Django内置的Admin是对于model中对应的数据表进行增删改查提供的组件,使用方式有:复制代码依赖APP:django.contrib.authdjango.contri…

Auth认证模块

Auth认证模块 本文目录 1 Auth模块是什么2 auth模块常用方法3 扩展默认的auth_user表回到目录1 Auth模块是什么 Auth模块是Django自带的用户认证模块: 我们在开发一个网站的时候,无可避免的需要设计实现网站的用户系统。此时我们需要实现包括用户注册、用…

2021年图灵奖,花落高性能计算先驱、田纳西大学教授Jack Dongarra

来源:智源社区“我是一个数学家,对我来说,一切都是线性代数,但世界也正在看到这一点,”Jack Dongarra在采访中表示。“这是我们用来建造其它东西的材料。”他说,机器学习和人工智能中的大多数问题都可以追溯到线性代数…

万字深度好文!视觉-语言(VL)智能:任务、表征学习和大型模型

来源:AI科技评论编译:Jocelyn编辑:陈彩娴本文对视觉-语言(VL)智能按时间顺序进行了全面调研,并将这一领域的发展总结为三个阶段:第一个阶段是2014-2018年,其间,专门的模型…

day60 BBS

BBS项目目的: 带你从头到尾把django再复习一遍 公司开发项目的流程 # 1.需求分析 客户提需求但是并不是完全按照客户需求来 产品经理和架构师开发组组长 去之前架构师和开发组组长 会提前先预想一套方案 有意识的引导客户朝着自己已经想好的解决方案上去提需求 # 2.项目设计 框…

redis笔记_源码_内存分配

文件:zmoalloc.h zmoalloc.c 1.求两个整数的余数 eg: 求_n对sizeof(long)的余数(_n&(sizeof(long)-1)), 性能提升为50%~100% 左右。 转载于:https://www.cnblogs.com/water-bear/p/11598618.html

转发,脑机接口领域又一重要成果!

来源:传感器技术作者:余淼硕士学历,长期从事智能传感控制、信息通信领域研究工作。“ 以脑-机交互(BCI)为核心的神经工程技术,让人类真正可以做到“心想事成”。据首都医科大学官网报道,首都医科…

《2022城市大脑建设标准研究报告》在京正式发布

2022年3月31号,《2022城市大脑建设标准研究报告》在北京正式发布,该报告由中国指挥与控制学会,中国科学院虚拟经济与数据科学研究中心,国家创新与发展战略研究会数字治理研究中心,天府大数据研究院,远望智库…

PHP7 ini 配置大全

来自书本<<PHP7底层源码设计与实现>> 多图警告⚠️ 转载于:https://www.cnblogs.com/wlphp/p/11600566.html

涌现:21世纪科学的统一主题

来源&#xff1a;medium.com作者&#xff1a;David Pines译者&#xff1a;郭瑞东审校&#xff1a;刘志航、梁金编辑&#xff1a;邓一雪原文题目&#xff1a;Emergence: A unifying theme for 21st century science原文链接&#xff1a;https://medium.com/sfi-30-foundations-f…

福布斯:2022年计算机视觉领域五大发展趋势

来源&#xff1a;科技日报记者&#xff1a;刘霞计算机视觉&#xff08;也被称为机器视觉&#xff09;是人工智能技术最令人兴奋的应用之一。该技术旨在“教”会计算机如何“看”世界&#xff0c;它与自然语言处理及语音识别并列为机器学习领域的三大热点方向。计算机视觉技术囊…

“走近”量子模拟

来源&#xff1a;中国军网作者&#xff1a;张媛、张远、达平当下&#xff0c;量子计算在先进材料以及生物化学模拟方面正崭露头角。因为量子力学解释了这些材料的基本物理特性&#xff0c;量子计算非常适合进行模拟。那么&#xff0c;什么是量子模拟&#xff1f;量子模拟有什么…

redis笔记_源码_简单动态字符串SDS

参照:https://zcheng.ren/sourcecodeanalysis/theannotatedredissourcesds/#sds%E5%B0%8F%E7%BB%93 这里用char buf[] 而不用char* buf 的原因是方便内存释放 转载于:https://www.cnblogs.com/water-bear/p/11611804.html

redis笔记_源码_双端链表list

参考:https://redissrc.readthedocs.io/en/latest/datastruct/adlist.html 转载于:https://www.cnblogs.com/water-bear/p/11613515.html

《Science》重磅:终于完成了!迄今为止最完整的人类基因组

来源&#xff1a;生物通一个研究小组终于完成了人类基因组的序列&#xff0c;填满了基因组30亿个核苷酸的最后8%。这些区域很难放在染色体上&#xff0c;因为它们的重复性很强。在着丝粒周围&#xff0c;新增加的序列揭示了随着时间推移而增加的重复DNA层&#xff0c;这可能有助…

Meta开发了一个AI模型,尝试解决维基百科的「性别偏见」问题

来源&#xff1a;SiliconANGLE出品&#xff1a;科技行者撰文&#xff1a;海外来电图片&#xff1a;海外来电为了解决两性人物传记比例失衡的情况&#xff0c;Meta操碎了心。维基百科一直是全球访问量Top 10的网站&#xff0c;是许多人搜索历史人物与领创者资讯的第一站&#xf…

RISC-V正在采取行动,避免MIPS类的碎片化

来源&#xff1a;半导体行业观察在技术重量级人物的支持下&#xff0c;RISC-V 不断增长&#xff0c;但也带来了挑战&#xff1a;鼓励 CPU 设计人员保持一致&#xff0c;并避免MIPS和Android中发生的那种碎片化。考虑到这一点&#xff0c;协调开源指令集架构 (ISA) 开发的 RISC-…