ABSTRACT
神经辐射场(NeRF)可以实现各种捕获设置的令人印象深刻的视图合成结果,包括360度捕获有界场景和前向捕获有界和无界场景。NeRF 将代表视图不变不透明度和视图相关颜色体积的多层感知器(MLPs)匹配到一组训练图像中,并基于立体渲染技术对新视图进行采样。在这份技术报告中,我们首先评论了辐射场及其潜在的模糊性,即形状-辐射模糊性,并分析了 NERF 在避免这种模糊性方面的成功。其次,我们解决了一个参数化问题,涉及到应用 NERF 到360度捕捉大规模,无界的3D 场景中的对象。我们的方法在这个具有挑战性的场景中提高了视图综合保真度。
1 introduction
2 Preliminaries
3 shape-radiance ambiguity形状-辐射模糊
NERF 模拟视图相关外观的能力导致了3D 形状和辐射之间固有的模糊性,这种模糊性可以接受退化解(退化解通常指的是非典型或不符合预期的解),在缺乏正规化/正则化的情况下。对于一个任意的、不正确的形状,我们可以证明存在一系列的辐射场,这些辐射场可以很好地解释训练图像,但是对于新的测试视图来说,这些辐射场的概括性很差。
为了说明这种模糊性,假设对于给定的场景,我们将几何图形表示为一个单位球体。换句话说,让我们把 NERF 的不透明度场修正为单位球面上的1,其他地方的0。然后,对于每个训练图像中的每个像素,我们将穿过该像素的光线与球体相交,并定义相交点(以及沿着光线方向)的亮度值作为该像素的颜色。这个人工构造的解决方案是一个有效的 NERF 重建,完全符合输入图像。然而,这种解决方案合成新视图的能力是非常有限的: 准确地生成这样的视图将涉及在每个表面点重建任意复杂的视图依赖函数。除非训练视图非常密集,因为在传统的光场渲染工程中,否则该模型不太可能准确地插入如此复杂的函数
这种形状-辐射模糊性如图2所示。
图2: 为了演示形状-辐射模糊性,我们在一个合成数据集上预训练 NeRF,其中不透明度场 σ 被优化为模拟一个不正确的3D 形状(一个单位球体,而不是推土机形状) ,而辐射场 c 被优化为映射训练射线与球体的交叉点和视图方向到它们的像素颜色。在这个例子中,我们使用3个 MLP 层来模拟视图依赖性的影响(参见图3中的 MLP 结构) ,并适合于50个视点随机分布在半球上的合成训练图像。结果不正确的解决方案很好地解释了训练图像(左两幅图像) ,但是没有推广到新的测试视图(右两幅图像)。
为什么 NERF 避免这种退化的解决方案?我们假设有两个相关的因素来拯救 NeRF: 1)不正确的几何形状迫使辐射场具有更高的内在复杂性(即,更高的频率) ,而相反2) NeRF 的特定 MLP 结构隐含地在表面反射率之前编码平滑的 BRDF
Factor 1: 当 σ 偏离正确的形状时,c 一般必须成为相对于 d 的高频函数来重建输入图像。对于正确的形状,表面光场通常会更加平滑(事实上,朗伯体材料的光场常数)。不正确形状所需要的更高的复杂性更难以用有限容量的 MLP 来表示。
Factor 2:特别地,NeRF 的特定 MLP 结构编码了一个隐式的优先级偏好光滑表面反射函数,其中在任意给定的表面点 x 上 c 相对于 d 是光滑的。这个 MLP 结构,如图3所示,不对称地处理场景位置 x 和观察方向 d: d 被注入到 MLP 末端附近的网络中,这意味着有更少的 MLP 参数,以及更少的非线性激活,参与创建视图依赖效应。此外,用于编码观察方向的傅里叶特征仅由低频分量组成,即,用于编码 d 和 x 的 γ4(·)和 γ10(·)(参见 Eq3).换句话说,对于一个固定的 x,辐射度 c (x,d)相对于 d 的表达式是有限的。
为了验证这个假设,我们进行了一个实验,我们用一个对称处理 x 和 d 的普通 MLP 来代表 c,也就是说,接受两者作为第一层的输入,并用 γ10(·)来编码,以消除任何涉及网络结构引起的观察方向的隐含先验。如果我们使用 c 的这个替代模型从头开始训练 NeRF,我们观察到与 NeRF 的特殊 MLP 相比,测试图像质量降低,如图4和表1所示。这一结果与我们的假设相一致,即在 NERF 的 MLP 辐射c模型中,反射率的隐式正则化有助于恢复正确的解。
图4: 在 DTU 场景中(Jensen 等,2014; Riegler & Koltun,2020) ,该图显示了用普通的 MLP 替换 NERF 的辐射场 c 模型的效果(同时保持 σ 的结构相同并从头开始训练两个场)。普通的 MLP (vanilla MLP)损害了 NERF 概括新视图的能力。
表1: 在 DTU 场景中(Jensen et al。 ,2014) ,用普通 MLP 代替 NeRF 的 MLP 显著地减少了对新视图的泛化。我们使用与 Riegler & Koltun (2020)相同的数据分割。左边的数字用于插值,右边的数字用于外推/推断。他们评估的全部图像与背景掩盖。
4 inverted sphere parametrization(倒球参数化)
方程2中的体绘制公式对欧几里得深度进行了积分。
当真实场景深度的动态范围较小时,可以用有限个样本对积分进行数值逼近。然而,对于户外,360度捕捉以附近物体为中心,同时观察周围环境,动态深度范围可以非常大,因为背景(建筑物、山脉、云层等)可以任意远离。如此高的动态深度范围导致了 NERF体积场景表示中严重的分辨率问题,因为要合成逼真的图像,Eq2中的积分需要在前景和背景区域有足够的分辨率,这很难通过简单的采样点根据欧几里得三维空间参量化来实现。图5展示了场景覆盖和捕捉细节之间的折衷。在一个更受限制的场景中,所有的摄像机都面向一个将摄像机与场景内容分隔开的平面,NeRF 通过投影映射欧几里德空间的一个子集,即参考摄像机的视图平台到标准化设备坐标(NDC)(McReynolds & Blythe,2005)来解决这个分辨率问题,并在这个 NDC 空间中集成。然而,这个NDC参数化也从根本上限制了可能的视点,因为它没有覆盖参考视图平台外的空间。
图5: 对于无界场景的360度捕捉,NeRF 的空间参量化要么只模拟场景的一部分,导致背景元素(a)中出现重要的伪影,要么模拟整个场景,由于有限的采样分辨率(b)而导致整体细节的丢失。
图9:我们定性地比较了两个T&T场景(卡车、游乐场)和两个LF场景(非洲、火炬)上的NeRF++和NeRF。NeRF++比NeRF产生更清晰的图像,能够更好地表示前景和背景。