在当今数字化时代,虚拟环境的创建对于游戏开发、虚拟现实应用和自动驾驶模拟器等多个领域至关重要。然而,传统的虚拟环境创建过程不仅复杂而且成本高昂,通常需要专业人员和专业软件开发工具的参与。例如,著名的《侠盗猎车手V》以其精细的细节环境而闻名,是开发成本最高的视频游戏之一,预算超过2.65亿美元,主要用于资产创建。为了简化这一过程,研究者们一直在探索直接从现实世界创建环境的方法,如摄影测量技术。但这些方法大多限于创建对象资产,并需要大量的后期处理。
本文介绍了一种名为Video2Game的新颖方法,Video2Game的创新之处体现在它能够将普通视频自动转换成逼真且交互式的虚拟环境。这一过程无需复杂的手动建模,大大降低了创建高质量虚拟环境的门槛。系统的核心是三个关键组件的结合:神经辐射场(NeRF)模块、网格模块和物理模块。NeRF模块负责捕捉场景的几何结构和视觉外观,而网格模块则将NeRF的详细信息转化为适合游戏引擎的网格表示,这样既提升了渲染效率,又保持了画面质量。物理模块则模拟了对象间的交互和物理动力学,为虚拟环境增添了真实感。
Figure 1 展示了Video2Game技术的核心魅力:将任意场景的视频输入后,系统能够自动将其转换成一个实时、交互式、逼真且浏览器兼容的环境。在这个环境中,用户可以自由地探索,与场景中的对象进行互动。无论是收集硬币、破坏物体,还是驾驶和撞击汽车,这些丰富的交互体验都通过Video2Game变得可能。例如,用户可以投掷球击中花瓶,使其掉落,或者在不同视角下观察场景并与之互动。这种能力不仅为游戏开发提供了便利,也为虚拟现实应用和机器人模拟等领域开辟了新的可能性。通过Video2Game,复杂的现实世界场景得以数字化,并以一种直观、互动的方式呈现给用户,极大地扩展了虚拟体验的边界。
Video2Game的优势在于它能够实现实时渲染和物理模拟,用户可以在浏览器中以高帧率(超过100 FPS)流畅地探索和与虚拟环境互动。这种实时性对于游戏和模拟器的体验至关重要。系统还能够处理大规模户外场景,这在以往的技术中很难实现。Video2Game通过将场景分解为多个块,并在每个块上应用Instant-NGP,解决了大规模场景的渲染问题。
系统的另一个显著优势是它的通用性和兼容性。Video2Game不仅能够创建游戏环境,还能够用于机器人模拟等其他领域,展示了其广泛的应用潜力。它还能够与现有的游戏引擎如Blender和Unreal Engine集成,开发者可以利用现有的工具和工作流程,快速地将Video2Game生成的内容转化为可交互的3D体验。
Video2Game的自动化程度高,它通过一个精心设计的流程,将视频转换为可交互的数字副本,大大减少了传统3D建模和环境创建所需的人工劳动。这种自动化不仅提高了效率,也为非专业人士提供了创造虚拟环境的可能性。
Video2Game:创新的视频转游戏环境
系统的目标是构建一个可交互和可操作的数字孪生体,它不仅可以在视觉上逼真地呈现场景,还能模拟物理动作,如导航、碰撞和操纵等。为了实现这一目标,Video2Game采用了一种组合隐式-显式的3D表示方法,这种方法对于传感器模拟和物理模拟都是有效和高效的。
为了捕捉大规模、无界场景的几何和视觉信息,研究者们提出了一个增强型的NeRF模型。这个模型通过使用Instant-NGP作为基础,能够有效地渲染出新视角下的高质量图像。
Figure 2 提供了Video2Game工作流程的全面概览。该过程从单一视频中获取多个姿态图像作为输入,首先构建一个大规模的NeRF模型,这个模型不仅真实感强,而且具有高质量的表面几何结构。接着,将NeRF模型转换成具有相应刚体动力学的网格表示,以实现交互功能。利用UV映射的神经纹理,这种纹理既富有表现力又与游戏引擎兼容。最终,我们得到了一个交互式虚拟环境,其中的虚拟角色可以与之互动,能够响应用户控制,并从新的摄像机视角提供高分辨率的渲染效果,所有这些都在实时完成。这一流程不仅提高了渲染效率,还保证了用户在不同视角下都能获得逼真的交互体验。
Instant-NGP作为NeRF的一个变体,通过结合空间哈希编码的体素和神经网络来表示辐射场。这种表示方法能够对场景中的每个点进行颜色和密度的预测,为后续的渲染和几何优化提供了基础。为了提高几何质量,系统利用单目深度估计器来预测场景深度,并将其与NeRF模型的渲染深度进行比较和优化。通过预测3D点的表面法线,增强了场景的视觉真实感。
NeRF模型进一步预测了每个采样点的语义标签,帮助系统理解场景中的不同对象。同时,采用了正则化技术来减少场景中的不稳定性,例如通过密度的指数衰减惩罚来减少浮动物。对于大型场景,系统采用阻断技术,将场景分割成多个块,每块由一个单独的Instant-NGP模型处理。这种策略不仅提高了渲染效率,还确保了场景细节的精细捕捉。
为了将NeRF模型的渲染效率提高到适合实时游戏引擎的水平,研究者们开发了一种NeRF烘焙技术,将NeRF模型转换为网格表示。网格模型由顶点、面和UV神经纹理图组成。通过在NeRF密度场中使用Marching Cubes算法来获取初始网格拓扑结构,并通过一系列后处理步骤来优化网格,使其更适合实时渲染。使用可微分渲染器来渲染网格,通过将网格的UV坐标和采样的纹理特征输入到定制的着色器中,计算出像素的颜色。通过最小化网格渲染图像与真实图像之间的颜色差异,以及网格与NeRF模型之间的几何差异,来训练神经纹理图和着色器MLP。
为了增强物理交互的真实感,系统通过将场景分解为具有物理特性的离散实体,并为它们配备刚体物理模型。
利用神经场的组合性质来指导网格的分解,通过识别每个空间区域所属的对象,实现对场景的精确分割。为分解出的个体网格分配物理属性,如质量、摩擦等,可以通过手动设置或查询大型语言模型来估计。使用刚体动力学来模拟用户/代理与环境的交互,包括导航、碰撞和操纵等物理动作。
最后,将交互环境部署在基于WebGL的游戏引擎中,使用Sketchbook和Cannon.js来管理逻辑和资产,确保了环境的实时交互性和物理模拟的真实性。整个Video2Game系统的设计充分考虑了从视频内容到交互式游戏环境的转换过程中的效率、质量和用户体验,为创建逼真的虚拟环境提供了一种全新的自动化解决方案。
实验
研究者们在实验设置阶段选择了三个不同的场景来评估Video2Game系统的有效性,包括户外的“Gardenvase”场景、大规模的KITTI-360自动驾驶场景,以及室内的VR-NeRF场景,后者用于展示机器人模拟的潜力。他们采用了PSNR、SSIM和LPIPS等标准指标来评估图像质量,并利用LiDAR点云数据来评估KITTI-360数据集的几何重建准确性。
研究者们展示了Video2Game在新视角合成方面与现有最先进方法相比的优越性能。特别是在处理KITTI-360这样的大规模、开放场景时,Video2Game显示出了显著的优势。他们在几何重建方面也取得了显著的进步,生成的深度图和表面法线质量优于基线方法。
研究者们进一步展示了如何使用Video2Game方法构建的浏览器兼容游戏。他们基于Gardenvase、KITTI-360和VR-NeRF数据集构建了环境,并生成了包含网格几何、材质和刚体物理的可执行环境。利用Sketchbook和Cannon.js等工具,他们构建的游戏能够在不同平台上高效运行,并提供真实的物理交互体验。游戏中的代理可以自由移动,遵循现实世界的物理规则,并与环境进行交互,如收集硬币、驾驶和推动车辆。
在机器人模拟方面,研究者们展示了Video2Game的潜力。他们使用VR-NeRF数据集重建了场景,并分割出可模拟的刚体对象。利用PyBullet进行物理模拟,他们控制机器人与环境中的对象进行交互。通过将URDF文件中的机器人模型导入渲染引擎,并结合物理模拟结果,研究者们生成并渲染了逼真的机器人模拟视频。
通过这些实验,研究者们证明了Video2Game系统不仅在渲染质量和几何重建方面表现出色,而且能够在多种硬件和平台上提供流畅的交互体验。Video2Game在机器人模拟领域的应用展示了其在不同领域的广泛潜力。尽管如此,他们也指出了系统的局限性,例如尚未学习到必要的材质属性来进行物理信息的重新照明,这可能在未来的工作中得到解决。
Video2Game的研究成果标志着虚拟环境创建技术的一大进步。它提供了一种新颖的方法,使用户能够将现实世界的视频片段转换成逼真、可交互的游戏环境。这项技术结合了神经辐射场(NeRF)建模和物理建模的优势,并通过现代游戏引擎的集成,极大地降低了创建高质量虚拟环境的复杂性和成本。
这项技术的潜力不仅限于游戏开发,它还为机器人模拟、教育训练、虚拟现实应用等众多领域带来了新的可能性。通过提供一个可交互的3D环境,Video2Game允许用户在安全和可控的数字空间中测试和练习,从而为现实世界的应用提供了一个有效的预演平台。
论文链接:https://arxiv.org/abs/2404.09833
GitHub 地址:https://video2game.github.io/