论文连接: NeROIC: Neural Rendering of Objects from Online Image Collections
introduction
从在线图像集合中获取对象表示的新颖方法,从具有不同相机、照明和背景的照片中捕获任意对象的高质量几何形状和材料属性。这使得各种以对象为中心的渲染应用程序成为可能,例如新颖的视图合成、重新照明以及来自具有挑战性的野外输入的协调背景合成。
- 使用扩展神经辐射场的多阶段方法,我们首先推断表面几何形状并细化粗略估计的初始相机参数,同时利用粗略的前景对象掩模来提高训练效率和几何质量。
- 我们还引入了一种强大的法线估计技术,可以消除几何噪声的影响,同时保留关键细节。
- 最后,我们提取表面材料属性和环境照明,以球谐函数表示,并具有处理瞬态元素(例如锐阴影)的扩展。
这些组件的结合产生了高度模块化且高效的对象获取框架。广泛的评估和比较证明了我们的方法在捕获对渲染应用程序有用的高质量几何和外观属性方面的优势
可以在购物网站上或通过简单的图像搜索在线找到许多具有相同物体(例如家具、玩具、车辆)的图像集合。非常需要将这些对象与周围环境隔离并捕获高保真结构和外观的能力,因为它可以实现诸如从图像中数字化对象并将其混合到新背景等应用。然而,这些集合中物体的单个图像通常是在高度可变的背景、照明条件和相机参数下捕获的,使得专门为来自受控环境的数据设计的物体数字化方法不适合这种野外设置。在这项工作中,我们寻求通过扩展神经对象渲染的最新进展,开发一种从无约束图像集合中捕获和重新渲染对象的方法来解决这一挑战。
最近使用隐式 3D 场景表示的较著名的作品之一是神经辐射场 (NeRF) 模型 [ 22 ],它学习从稀疏校准图像中表示静态场景的局部不透明度和与视图相关的辐射度,从而实现高质量的新颖视图综合(NVS)。虽然在提高 NeRF的质量和功能方面取得了实质性进展(例如移动或非刚性内容 [29,26,14,41 ] ),但仍然存在一些重要的要求 - 合成背景对象的新颖视图应查看并固定照明条件,并且应在单个会话中捕获多视图图像或视频序列。
最近,一些作品 [ 6,20,3,4,49,43 ]扩展了 NeRF,并在将场景渲染分解为语义上有意义的组件(包括几何、反射率、材质和照明)方面取得了令人印象深刻的进展,从而实现了灵活的交互使用这些组件中的任何一个,例如重新照明和交换背景。不幸的是,他们都没有建立一个全面的解决方案来解决从现实世界、野外图像集合中捕获的对象的局限性。
在这项工作中,我们提出了NeROIC,一种对在线图像集合中的对象进行神经渲染的新颖方法。我们的对象捕获和渲染方法建立在神经辐射场的基础上,具有几个关键功能,可以从在截然不同的条件下捕获的稀疏图像中进行高保真捕获,这在在线图像集合中很常见,其中包含使用不同的照明、相机、环境拍摄的单个图像,和姿势。每个图像唯一预期的注释是粗略的前景分割和粗略估计的相机参数,至关重要的是,我们可以从运动结构框架(例如 COLMAP [33])以无监督且无成本的方式 获得这些参数。
我们基于学习的方法的关键是引入模块化方法,其中我们首先优化 NeRF 模型来估计几何形状并细化相机参数,然后推断最能解释图像的表面材料属性和每幅图像的照明条件。捕获的图像。这些阶段的解耦使我们能够使用第一阶段的深度信息在第二阶段进行更有效的光线采样,从而提高材质和照明估计质量和训练效率。此外,由于我们方法的模块化,我们还可以在第一阶段单独利用从几何体初始化的表面法线,并通过新的法线提取层进行创新,以提高获取底层对象材料的准确性。我们的方法概述如图 2 (b) 所示。
为了评估我们的方法,我们创建了几个野外对象数据集,包括我们自己在不同环境中捕获的图像,以及从在线资源收集的对象图像。在这些具有挑战性的设置中,与最先进的替代方案的比较表明,我们的方法在质量和数量上都优于替代方案,同时仍然保持可比的训练和推理效率。图 1展示了我们的方法的一组示例对象捕获和应用结果。
一种新颖的模块化管道,用于从在不同条件下捕获的物体推断几何和材料属性,仅使用稀疏图像、前景掩模和粗糙相机姿势作为附加输入,
一种新的多阶段架构,我们首先提取几何形状并细化输入相机参数,然后推断对象的材料属性,我们证明它对不受限制的输入具有鲁棒性,
一种从神经辐射场估计法线的新方法,使我们能够比更标准的替代技术更好地估计材料属性并重新照亮物体,
包含在变化和具有挑战性的环境和条件下捕获的物体图像的数据集,
使用这些和其他已建立的数据集进行广泛的评估、比较和结果,展示了通过我们的方法获得的最先进的结果。
方法
所有这些方法都不可避免地容易受到复杂阴影输入的影响,即尖锐的阴影和镜面反射,因为它们仅包含一个相对简单的基于物理的渲染器。虽然我们并不声称要学习如何在我们的方法中适应这些阴影,但在我们的工作中,我们引入了基于 [ 49 ]的瞬态组件来识别它并将其与环境照明分开,从而获得对象的无偏差材料属性。据我们所知,我们是第一个基于 NeRF 的方法,可以通过来自互联网的完全不受约束的图像来推断目标的几何形状和材料参数。
在第一阶段,我们通过学习指示物理内容的密度场来估计对象的几何形状(第 3.3节)。在此阶段,我们还学习静态和瞬态辐射值,以允许基于图像的监督,但不会将此信息完全分解为材质和照明属性。我们还优化相机的姿态和内在参数,以细化作为输入提供的粗略估计。
在第二阶段,我们修复学习的几何形状并优化在任意照明条件下重新渲染对象所需的表面材质和照明参数(第 3.5 节 )。在此阶段,我们使用从相机到物体表面的估计距离来改进沿相机光线的点采样。我们还优化了表面法线,这改进了从密度场获得的粗略估计(第 3.4节)。