虚拟在左,真实在右:德国学者用AI合成一亿像素逼真3D图像,可任意旋转

77585b2916b0862de2962e42368022e5.gif

来源:AI科技评论

编译:杏花

编辑:青暮

近日,来自德国埃尔兰根-纽伦堡大学的学者提出了一种新颖的神经网络方法,用于3D图像的场景细化和新视图合成。

只需要输入点云和相机参数的初始估计,就可以输出由任意相机角度合成的图像,360度旋转都不是问题。

77fa638fcbfe70356688cf7186209c22.gif

研究人员表示,高效的单像素点光栅化让他们能够实时显示超过 1 亿个像素点的点云场景。

一亿个像素点是什么概念?说白了,这些3D图像太逼真了。

再看看合成图和原图的对比,简直和拍照没啥区别。

4304dba8aad4bf2361834749ca3f774c.gif

这项研究最近在推特上收到了很大的关注,网友纷纷回应:impressive!

4d4b0336872375f18b82213ff7401888.png

同时,也有网友表示,这项研究确实利用了大规模动态输入点云的优势,而这原本是“超级难”的问题。

fdb21c6e249e4d38a502d8c068d79424.png

如下图所示,给定一组RGB图像和初始3D重建(图左),该渲染方法能够合成新的帧,并优化场景参数(图右)。

c4a0bcb8277fa76f75862006c0994d37.png

8e5c39d4d6f881d4e2a15292cc144902.png

论文地址:https://arxiv.org/pdf/2110.06635v1.pdf

用神经网络自动学习合成高清3D图像已有成效,但之前还难以做到大动态的视角变换,他们是怎么实现的呢?

1

秘密:点云输入和可微优化

合成逼真的虚拟环境是计算机图形学和计算机视觉研究的热门领域之一。

其中,3D 形状的编码形式是非常关键的部分,人们通常会考虑三角形网格、体素网格、隐函数和点云,每种表示法都有各自的优缺点。

22014d5ae3eeb7449569666aa91b5060.png

从左到右,分别是点云、体素、三角网格形式的兔子3D图像。

为了有效渲染不透明表面,人们通常选择三角形网格。

体素网格常用于容量表示,而隐函数适用于精确描述非线性分析表面(比如a^2+b^2+c^2=1,就是一个单位球面)。

c285366146aa7f13b1987b525e974386.png

另一方面,点云具有易于使用的优点,因为不必考虑拓扑性质,非常便于作为3D图像合成的中间输出阶段。不必考虑拓扑性质是指,无论是圆环还是球体,其表示形式都是一样的。

0fd270bec284d017b91db9909e5d7900.png

在2000年左右,点云渲染,尤其是点散布,已在计算机图形学中得到广泛研究。

与此同时,人们越来越关注基于图像的渲染技术。也就是基于粗略的、重建的3D模型以及已有的一组物体图像,来合成新的视图。

这些方法存在输入不精确的问题,例如,如果几何图形包含孔或输入图像没有完全对齐,则会出现伪影。

而基于神经图像的渲染方法使用神经网络来去除这些伪影,可以生成前所未有的如照片般逼真的高质量新视图。

ad8227d93979e619dcffba317a1122ff.png

图源:https://arxiv.org/pdf/2008.05511.pdf

Aliev等人则表明,将传统的点光栅化器与深度神经网络配对也是可行的。

f6978e356484bf524db617272fabcb0d.png

图源:https://arxiv.org/pdf/1906.08240.pdf(Aliev et al.)

这一发现对3D重建尤其有益,因为其通常使用密集点云作为初始输出。因此,我们可以跳过不必要的、可能出现错误的三角测量,直接可视化重建的场景。

在本文中,研究人员的方法建立在 Aliev 等人的管道之上,并以多种方法对其进行改进。

376d481523182e1293c910d62c4af8ac.png

图2:基于点的HDR神经渲染管道概览。

如上图所示,由纹理点云和环境图组成的场景被光栅化为一组具有多种分辨率的稀疏神经图像。

20a434451aa26289ca0eb629c81228f0.png

深度神经网络重建HDR图像。

47add2a38d1cf887a70b438bf227c569.png

然后通过一个基于物理的可微色调映射器将其转换为给定新视点场景的 LDR图像。

f9fa7a1ee1b19489de41268ba2726f75.png

在训练阶段,可以同时优化矩形框中的所有参数以及神经网络。

在整个管道中,他们特别添加了一个物理的、可微分的相机模型和一个可微分的色调映射器,并提出了一个公式,以更好地近似单像素点光栅化的空间梯度。

可微分的好处是,不仅可以优化神经点特征,还可以在训练阶段校正不精确的输入。

因此,系统可以根据神经渲染网络的视觉损失来调整这些参数:

  • 相机模型

  • 相机角度

  • 点云位置

  • 点云颜色

  • 环境贴图

  • 渲染网络权重

  • 渐晕

  • 相机响应函数

  • 每张图像的曝光和白平衡

57a27cbee1221f634e5a8267c9db0a26.gif

得益于此,图像的渲染质量得到了显著提升。

044998189bc46b7f15acecf617e812fc.gif

此外,该方法能够合成任意的高动态范围成像(HDR,即大幅度的曝光变化)和LDR(低动态范围成像,容易缺失图像细节)设置,并校正曝光不足或过度曝光的视图(如下图所示)。

1258abc09391649b34bd2155c5fd4b24.png

同时,深度神经网络内部的参数数量也显著减少,因为亮度和颜色变化由物理上正确的传感器模型单独处理。

如下表所示,与其他可微渲染器相比,本文的方法效率高出大约两个数量级。

a5b1502d949ac7ed8031e8009a4a2b93.png

表I:RTX 2080 Ti上1920×1080图像的正向和反向渲染时间(以毫秒为单位)。

因此,渲染性能提高了,过拟合伪影也减少了。

总而言之,这篇论文的研究成果如下:

• 用于场景细化和可视化的端到端可训练的基于点的神经渲染管道。

• 使用伪影几何概念的单像素点碎片的可微分光栅化器。

• 可模拟数码摄影镜头和传感器效果的基于物理的可微分色调映射器。

• 用于大型点云的高效多层渲染的随机点丢弃技术。

最后,该研究已开源:https://github.com/darglein/ADOP

0f785a53fb2f214a3531473a917c60a7.pngf9d91909589aad903a16247d06860d96.png

图11:在罗马船只数据集上合成的新视图。使用与参考照片相同的曝光值对图像进行渲染。在右列中,每个像素的误差都是可视化的。

2

管道详解

我们再详细介绍一下模型管道。

管道的第一步是可微分光栅化器(图2左)。

它通过使用相机参数将每个点投影到图像空间,将其呈现为单个像素大小的碎片。

如果该像素点通过一个测试,它就会在神经网络输出图像中占据一个描述符。所有未被点着色的像素都由从背景颜色填充。

由于我们将点渲染为单个像素大小的碎片,输出的图像可能会非常稀疏,这取决于点云的空间分辨率和相机距离。

因此,以不同的比例渲染多个图层,使输出图像密集化,并处理遮挡和照明问题。

7954ed4eb5c5a9370961cc7fdc017765.png

神经渲染器(图2中间)采用多分辨率神经图像生成单个HDR输出图像。

它由一个四层全卷积U-Net和跳跃连接组成,其中较低分辨率的输入图像连接到中间特征张量。使用平均池化执行下采样,并通过双线性插值对图像进行上采样。

研究人员主要使用门控卷积,它最初是为填孔任务而开发的,因此非常适合稀疏点输入。

总体而言,该网络架构类似于 Aliev等人提出的架构,只减少了一层,并进行了一些修改,以支持HDR成像。

首先,去掉批归一化层,因为它们将中间图像的均值和标准差归一化为固定值。这会使得总传感器辐照度(类似光强概念)丢失,并且无法从3D点传播到最终图像。

此外,如果场景的亮度范围相当大(大于 1 : 400),会以对数方式存储神经点描述符。否则,神经描述符将线性存储。对于对数描述符,在光栅化过程中将其转换为线性空间,以便卷积操作仅使用线性亮度值。

c6ded02790aff7f448a759adac9dc2c3.png

管道中的最后一步(图2右侧)是可学习的色调映射操作符,它将渲染的HDR图像转换为 LDR。

该色调映射器模拟数码相机的物理镜头和传感器特性。因此,它最适合捕捉智能手机、数码单反相机和摄像机的LDR图像。

c3d7a073914c67f1ecd2f1ccee4f5de6.png

3

局限性

尽管合成效果如此惊艳,在实验中,研究人员也发现了一些局限性。

其中一个限制是,由于不同参数的数量巨大,不容易寻找合适的超参数。必须平衡纹理颜色、结构参数、色调映射设置和神经网络权重的学习速率。为了找到适合所有场景的可行设置,需要进行广泛的网格搜索。

另一个限制是,点位置的优化对于中到大的学习率是不稳定的。因此,该管道需要合理的初始点云,例如,通过多视图立体系统或 LiDaR 扫描仪。

研究人员认为这个问题是由光栅化过程中的梯度逼近引起的。它适用于相机模型和相机角度优化,因为数千个点的空间梯度在一个优化器步骤中得到平均。然而,对于位置点梯度,仅使用单个近似梯度来更新其坐标。因此需要非常低的学习率来平均点梯度随时间的变化。

最后,由于是单像素点渲染,当相机离物体太近或点云非常稀疏时,可能会出现孔。这是因为神经网络结构只能填补一定大小阈值的洞。在实验中,研究人员通过人为地增加点密度来减少这个问题。然而,这并不是一个普遍可行的解决方案,因为在自由视图环境中,用户仍然可以任意移动相机以靠近物体表面。研究人员表示,他们未来的工作应该会从这里开始,例如,可以尝试在放大过程中动态生成具有内插神经描述符的新点。

参考资料:

https://twitter.com/ak92501/status/1448489762990563331

视频:https://www.youtube.com/watch?v=zVf0HqzHY3U

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

b13cf1937eb2ca0b7105298fc344d6d1.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483547.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

phpmyadmin登陆错误:The requested URL /phpmyadmin was not found on this serve

解决方法: 首先,重新安装apache2: sudo dpkg-reconfigure -plow phpmyadmin 配置时记得选择apache2 如果仍然无法登陆,再对phpmyadmin和apache服务器软链接 sudo ln -s /etc/phpmyadmin/apache.conf /etc/apache2/ssites-enabled/…

linux基础知识——环境变量

1.什么是环境变量? \qquad环境变量,即操作系统中的一些可以设置的参数,用于设置操作系统运行环境。 2.环境变量的特征 \qquad本质就是字符串; \qquad有统一的格式:名值[:值] \qquad值用来描述进程环境信息。 3.常用的…

【计算机网络复习 物理层】2.1.5 编码与调制

编码与调制一、基带信号与宽带信号二、编码与调制三、数字数据编码为数据信号一、基带信号与宽带信号 信道:信号的传输媒介。一般用来表示向某一个方向传送信息的介质,因此一条通信线路往往包含一条发送信道和一条接收信道。 按照传输信号分&#xff1…

MLOps是构建在一个谎言上的吗?

来源:AI前线作者:Mateusz Kwaśniak译者:王强策划:刘燕在一些 MLOps 项目的背景介绍中,都会提及“87% 的数据科学项目以失败告终”的论点。这个数据具体出自何处,是否准确测定?本文作者通过相关…

Intel格式与Motorola格式的区别

Intel低字节在前Motorola高字节在前 在进行CAN总线通信设计或者测试过程中,经常看到CAN总线信号的编码格式有两种定义:Intel格式与Motorola格式。究竟两种编码格式有什么样的区别呢?设计者、dbc文件编辑者或者测试人员又该如何判断两种格式,并进行有效正…

【计算机网络复习 物理层】2.2 物理传输介质

物理传输介质一、传输介质及分类1.1 导向性传输介质1.1.1 双绞线1.1.2 同轴电缆1.1.3 光纤1.2 非导向性传输介质一、传输介质及分类 传输介质也称为传输媒体/传输媒介,它就是数据传输系统中在发送设备和接收设备之间的物理通路。 **传输介质并不是物理层。**传输介…

前沿科技 | 中科院科学家在关于运动规划的环路机制研究方面获进展

来源:中国科学院网站今年5月11日,Nature Communications在线发表了题为《皮层上丘环路在记忆依赖感知决策任务中的作用机制》的研究论文,该研究由中国科学院科学家团队——脑科学与智能技术卓越创新中心(神经科学研究所&#xff0…

MyCP(课下作业,必做)

选做题目以及分析 题目:编写MyCP.java 实现类似Linux下cp XXX1 XXX2的功能,要求MyCP支持两个参数: java MyCP -tx XXX1.txt XXX2.bin 用来把文本文件(内容为十进制数字)转化为二进制文件java MyCP -xt XXX1.bin XXX2.t…

一文讲解单片机、ARM、MCU、DSP、FPGA、嵌入式错综复杂的关系!

来源: ittbank首先,“嵌入式”这是个概念,准确的定义没有,各个书上都有各自的定义。但是主要思想是一样的,就是相比较PC机这种通用系统来说,嵌入式系统是个专用系统,结构精简,在硬件和软件上都只…

【计算机网络复习 物理层】2.3 物理层设备

物理层设备一、中继器二、集线器(多口中继器)一、中继器 诞生原因: 由于存在损耗,在线路上传输的信号功率会逐渐衰减,衰减到一定程度时将造成信号失真,因此会导致接收错误。 中继器的功能:对信…

Tomcat关闭失败,SEVERE: Could not contact localhost:8005. Tomcat may not be running.

SEVERE: Could not contact localhost:8005. Tomcat may not be running. Tomcat 启动后,关闭失败,显示以下 进入 java 的安装目目录下的 jdk/jre/lib/security 目录 修改 “java.security” 文件 vi java.security通过vim 命令 “ /securerandom.sourc…

Gartner发布2022年重要战略技术趋势

来源:Gartner公司Gartner于今日发布企业机构在2022年需要探索的重要战略技术趋势。分析师们在本周四举行的Gartner IT Symposium/Xpo峰会美洲站期间公布了他们的研究结果。Gartner研究副总裁David Groombridge表示:“首席执行官和董事会正在设法通过与客…

爬虫 --通用篇

概述 爬虫是合法的吗? 是的,它是一个计算机的学科!一个工具 什么是爬虫? 通过编写程序,模拟浏览器上网,然后让其去互联网上爬取/获取数据的过程.爬虫爬取的也就是服务端的响应数据 爬虫使用场景的分类 - 通用爬虫 : 爬取一整张页面数据."抓取系统" - 聚焦爬虫 : 爬…

【计算机网络复习 数据链路层】3.2 封装成帧和透明传输

封装成帧和透明传输一、封装成帧二、透明传输一、封装成帧 封装成帧就是在一段数据的前后部分添加首部和尾部,这样就构成了一个帧。接收端在收到物理层上交的比特流后,就能根据首部和尾部的标记,从收到的比特流中识别帧的开始和结束。 首部…

新一代人工智能:从“感知智能”向“认知智能”转化

来源:光明网 《光明日报》( 2021年05月25日 09版)新一代人工智能正在逐步从感知智能向认知智能转化——这是全国政协副主席、中国科协主席万钢在第五届世界智能大会上作出的判断。“感知智能是机器具备了视觉、听觉、触觉等感知能力&#xf…

迷宫城堡 强连通

Problem Description为了训练小希的方向感&#xff0c;Gardon建立了一座大城堡&#xff0c;里面有N个房间(N<10000)和M条通道(M<100000)&#xff0c;每个通道都是单向的&#xff0c;就是说若称某通道连通了A房间和B房间&#xff0c;只说明可以通过这个通道由A房间到达B房…

【计算机网络复习 数据链路层】3.3.1 差错控制(检错编码)

差错控制&#xff08;检错编码&#xff09;一、差错从何而来&#xff1f;二、数据链路层的差错控制2.1 奇偶校验码2.2 CRC循环冗余码一、差错从何而来&#xff1f; 概括来说&#xff0c;传输中的差错都是由于噪声引起的。 全局性&#xff1a;由于线路本身电气特性所产生的随机…

从“元宇宙”热炒中理性看待我国虚拟现实产业发展

来源&#xff1a;工信头条作者&#xff1a;袁钰&#xff08;赛迪顾问、电子信息产业研究中心、分析师&#xff09;2021年4月以来&#xff0c;元宇宙概念大热&#xff0c;国内外巨头企业围绕“元宇宙”加快布局&#xff0c;作为元宇宙核心技术之一的虚拟现实也被寄予厚望。经数据…

2018-2019-2 网络对抗技术 20165332 Exp6 信息搜集与漏洞扫描

2018-2019-2 网络对抗技术 20165332 Exp6 信息搜集与漏洞扫描 基础问题回答 基础问题回答 &#xff08;1&#xff09;哪些组织负责DNS&#xff0c;IP的管理。 答&#xff1a;目前全球有5个地区性注册机构&#xff1a; ARIN主要负责北美地区业务 RIPE主要负责欧洲地区业务 APNIC…

【计算机网络复习 数据链路层】3.3.2 差错控制(纠错编码)

差错控制&#xff08;纠错编码&#xff09;一、海明码1.1 确定校验码位数r1.2 确定校验码和数据的位置1.3 求出校验码的值1.4 检错并纠错一、海明码 **海明码&#xff1a;**发现双比特错&#xff0c;纠正单比特错。 1.1 确定校验码位数r 海明不等式&#xff1a; r 为冗余信…