现实转虚拟:Video2Game引领3D互动体验

在当今数字化时代,虚拟环境的创建对于游戏开发、虚拟现实应用和自动驾驶模拟器等多个领域至关重要。然而,传统的虚拟环境创建过程不仅复杂而且成本高昂,通常需要专业人员和专业软件开发工具的参与。例如,著名的《侠盗猎车手V》以其精细的细节环境而闻名,是开发成本最高的视频游戏之一,预算超过2.65亿美元,主要用于资产创建。为了简化这一过程,研究者们一直在探索直接从现实世界创建环境的方法,如摄影测量技术。但这些方法大多限于创建对象资产,并需要大量的后期处理。

本文介绍了一种名为Video2Game的新颖方法,Video2Game的创新之处体现在它能够将普通视频自动转换成逼真且交互式的虚拟环境。这一过程无需复杂的手动建模,大大降低了创建高质量虚拟环境的门槛。系统的核心是三个关键组件的结合:神经辐射场(NeRF)模块、网格模块和物理模块。NeRF模块负责捕捉场景的几何结构和视觉外观,而网格模块则将NeRF的详细信息转化为适合游戏引擎的网格表示,这样既提升了渲染效率,又保持了画面质量。物理模块则模拟了对象间的交互和物理动力学,为虚拟环境增添了真实感。

Video2Game系统的工作流程和示例交互。图片上方是系统将输入视频转换为交互式环境的概述,下方展示了用户可以执行的不同交互操作,如收集硬币、破坏物体、跑步、站立、驾驶和撞车等

Figure 1 展示了Video2Game技术的核心魅力:将任意场景的视频输入后,系统能够自动将其转换成一个实时、交互式、逼真且浏览器兼容的环境。在这个环境中,用户可以自由地探索,与场景中的对象进行互动。无论是收集硬币、破坏物体,还是驾驶和撞击汽车,这些丰富的交互体验都通过Video2Game变得可能。例如,用户可以投掷球击中花瓶,使其掉落,或者在不同视角下观察场景并与之互动。这种能力不仅为游戏开发提供了便利,也为虚拟现实应用和机器人模拟等领域开辟了新的可能性。通过Video2Game,复杂的现实世界场景得以数字化,并以一种直观、互动的方式呈现给用户,极大地扩展了虚拟体验的边界。

Video2Game的优势在于它能够实现实时渲染和物理模拟,用户可以在浏览器中以高帧率(超过100 FPS)流畅地探索和与虚拟环境互动。这种实时性对于游戏和模拟器的体验至关重要。系统还能够处理大规模户外场景,这在以往的技术中很难实现。Video2Game通过将场景分解为多个块,并在每个块上应用Instant-NGP,解决了大规模场景的渲染问题。

系统的另一个显著优势是它的通用性和兼容性。Video2Game不仅能够创建游戏环境,还能够用于机器人模拟等其他领域,展示了其广泛的应用潜力。它还能够与现有的游戏引擎如Blender和Unreal Engine集成,开发者可以利用现有的工具和工作流程,快速地将Video2Game生成的内容转化为可交互的3D体验。

Video2Game的自动化程度高,它通过一个精心设计的流程,将视频转换为可交互的数字副本,大大减少了传统3D建模和环境创建所需的人工劳动。这种自动化不仅提高了效率,也为非专业人士提供了创造虚拟环境的可能性。

Video2Game:创新的视频转游戏环境

系统的目标是构建一个可交互和可操作的数字孪生体,它不仅可以在视觉上逼真地呈现场景,还能模拟物理动作,如导航、碰撞和操纵等。为了实现这一目标,Video2Game采用了一种组合隐式-显式的3D表示方法,这种方法对于传感器模拟和物理模拟都是有效和高效的。

为了捕捉大规模、无界场景的几何和视觉信息,研究者们提出了一个增强型的NeRF模型。这个模型通过使用Instant-NGP作为基础,能够有效地渲染出新视角下的高质量图像。

Video2Game的高级概述。给定单个视频的多个姿势图像作为输入,首先构建一个大规模的NeRF模型,然后将其转换为具有相应刚体动力学的网格表示,以启用交互。使用UV映射的神经纹理,既具有表现力,又与游戏引擎兼容

Figure 2 提供了Video2Game工作流程的全面概览。该过程从单一视频中获取多个姿态图像作为输入,首先构建一个大规模的NeRF模型,这个模型不仅真实感强,而且具有高质量的表面几何结构。接着,将NeRF模型转换成具有相应刚体动力学的网格表示,以实现交互功能。利用UV映射的神经纹理,这种纹理既富有表现力又与游戏引擎兼容。最终,我们得到了一个交互式虚拟环境,其中的虚拟角色可以与之互动,能够响应用户控制,并从新的摄像机视角提供高分辨率的渲染效果,所有这些都在实时完成。这一流程不仅提高了渲染效率,还保证了用户在不同视角下都能获得逼真的交互体验。

Instant-NGP作为NeRF的一个变体,通过结合空间哈希编码的体素和神经网络来表示辐射场。这种表示方法能够对场景中的每个点进行颜色和密度的预测,为后续的渲染和几何优化提供了基础。为了提高几何质量,系统利用单目深度估计器来预测场景深度,并将其与NeRF模型的渲染深度进行比较和优化。通过预测3D点的表面法线,增强了场景的视觉真实感。

NeRF模型进一步预测了每个采样点的语义标签,帮助系统理解场景中的不同对象。同时,采用了正则化技术来减少场景中的不稳定性,例如通过密度的指数衰减惩罚来减少浮动物。对于大型场景,系统采用阻断技术,将场景分割成多个块,每块由一个单独的Instant-NGP模型处理。这种策略不仅提高了渲染效率,还确保了场景细节的精细捕捉。

为了将NeRF模型的渲染效率提高到适合实时游戏引擎的水平,研究者们开发了一种NeRF烘焙技术,将NeRF模型转换为网格表示。网格模型由顶点、面和UV神经纹理图组成。通过在NeRF密度场中使用Marching Cubes算法来获取初始网格拓扑结构,并通过一系列后处理步骤来优化网格,使其更适合实时渲染。使用可微分渲染器来渲染网格,通过将网格的UV坐标和采样的纹理特征输入到定制的着色器中,计算出像素的颜色。通过最小化网格渲染图像与真实图像之间的颜色差异,以及网格与NeRF模型之间的几何差异,来训练神经纹理图和着色器MLP。

为了增强物理交互的真实感,系统通过将场景分解为具有物理特性的离散实体,并为它们配备刚体物理模型。

可视化自动计算的碰撞几何体,包括球体碰撞器(绿色)、盒子碰撞器(黄色)、凸多边形碰撞器(紫色)和三角网格碰撞器(红色)

利用神经场的组合性质来指导网格的分解,通过识别每个空间区域所属的对象,实现对场景的精确分割。为分解出的个体网格分配物理属性,如质量、摩擦等,可以通过手动设置或查询大型语言模型来估计。使用刚体动力学来模拟用户/代理与环境的交互,包括导航、碰撞和操纵等物理动作。

最后,将交互环境部署在基于WebGL的游戏引擎中,使用Sketchbook和Cannon.js来管理逻辑和资产,确保了环境的实时交互性和物理模拟的真实性。整个Video2Game系统的设计充分考虑了从视频内容到交互式游戏环境的转换过程中的效率、质量和用户体验,为创建逼真的虚拟环境提供了一种全新的自动化解决方案。

实验

研究者们在实验设置阶段选择了三个不同的场景来评估Video2Game系统的有效性,包括户外的“Gardenvase”场景、大规模的KITTI-360自动驾驶场景,以及室内的VR-NeRF场景,后者用于展示机器人模拟的潜力。他们采用了PSNR、SSIM和LPIPS等标准指标来评估图像质量,并利用LiDAR点云数据来评估KITTI-360数据集的几何重建准确性。

研究者们展示了Video2Game在新视角合成方面与现有最先进方法相比的优越性能。特别是在处理KITTI-360这样的大规模、开放场景时,Video2Game显示出了显著的优势。他们在几何重建方面也取得了显著的进步,生成的深度图和表面法线质量优于基线方法。

定性比较了不同NeRF模型的渲染质量。展示了基线NeRF在渲染质量上优于基线,并且通过利用单目线索,在渲染几何上显著优于其他基线

研究者们进一步展示了如何使用Video2Game方法构建的浏览器兼容游戏。他们基于Gardenvase、KITTI-360和VR-NeRF数据集构建了环境,并生成了包含网格几何、材质和刚体物理的可执行环境。利用Sketchbook和Cannon.js等工具,他们构建的游戏能够在不同平台上高效运行,并提供真实的物理交互体验。游戏中的代理可以自由移动,遵循现实世界的物理规则,并与环境进行交互,如收集硬币、驾驶和推动车辆。

Video2Game在新颖视角合成和交互兼容性分析方面的表现,与现有NeRF烘焙方法相比,Video2Game在不同场景下提供了更好或相当的结果

在机器人模拟方面,研究者们展示了Video2Game的潜力。他们使用VR-NeRF数据集重建了场景,并分割出可模拟的刚体对象。利用PyBullet进行物理模拟,他们控制机器人与环境中的对象进行交互。通过将URDF文件中的机器人模型导入渲染引擎,并结合物理模拟结果,研究者们生成并渲染了逼真的机器人模拟视频。

在VRNeRF数据集中进行机器人模拟的示例,包括Stretch Robot推动碗和Fetch Robot执行拾取和放置动作

通过这些实验,研究者们证明了Video2Game系统不仅在渲染质量和几何重建方面表现出色,而且能够在多种硬件和平台上提供流畅的交互体验。Video2Game在机器人模拟领域的应用展示了其在不同领域的广泛潜力。尽管如此,他们也指出了系统的局限性,例如尚未学习到必要的材质属性来进行物理信息的重新照明,这可能在未来的工作中得到解决。

Video2Game的研究成果标志着虚拟环境创建技术的一大进步。它提供了一种新颖的方法,使用户能够将现实世界的视频片段转换成逼真、可交互的游戏环境。这项技术结合了神经辐射场(NeRF)建模和物理建模的优势,并通过现代游戏引擎的集成,极大地降低了创建高质量虚拟环境的复杂性和成本。

这项技术的潜力不仅限于游戏开发,它还为机器人模拟、教育训练、虚拟现实应用等众多领域带来了新的可能性。通过提供一个可交互的3D环境,Video2Game允许用户在安全和可控的数字空间中测试和练习,从而为现实世界的应用提供了一个有效的预演平台。

论文链接:https://arxiv.org/abs/2404.09833

GitHub 地址:https://video2game.github.io/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/25893.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GUI编程02-布局管理器

流式布局 FlowLayout 东西南北中 BorderLayout 表格布局 GridLayout 流式布局 package YMP.GUI; ​ import java.awt.*; import java.awt.event.WindowAdapter; import java.awt.event.WindowEvent; ​ public class TestFlowLayout {public static void main(String[] args…

QSlider样式示例

参考代码: /********************QSlider横向滑动条样式**********************/ QSlider {background-color: rgba(170, 255, 255, 100); /* 设置滑动条主体*/ }QSlider::groove:horizontal {border: 1px solid #999999;height: 8px; /* 默认…

猫头虎分享已解决Bug || Uncaught TypeError: Cannot set property ‘innerHTML‘ of null**

猫头虎分享已解决Bug || Uncaught TypeError: Cannot set property ‘innerHTML’ of null** 原创作者: 猫头虎 作者微信号: Libin9iOak 作者公众号: 猫头虎技术团队 更新日期: 2024年6月6日 博主猫头虎的技术世界 &#x…

【InternLM实战营第二期笔记】07:OpenCompass :是骡子是马,拉出来溜溜

文章目录 课程实操 课程 评测的意义是什么呢?我最近也在想。看到这节开头的内容后忽然有个顿悟:如果大模型最终也会变成一种基础工具(类比软件),稳定或可预期的效果需要先于用户感知构建出来,评测 case 就…

创新案例|创新实时零售模式,千亿时尚巨头Shein的全球扩张之路

SHEIN,一家估值千亿美元的快时尚电商独角兽,是全球增长最快的服饰平台。它通过数据和平台的双轮驱动,构建了全新的“实时零售”模式,实现了数据与商业的紧密衔接。同时,通过领导力和组织能力建设,打造了独特…

两句话让LLM逻辑推理瞬间崩溃!!

一道简单的逻辑问题,竟让几乎所有的LLM全军覆没? 对于人类来说,这个名为「爱丽丝梦游仙境」(AIW)的测试并不算很难—— 「爱丽丝有N个兄弟,她还有M个姐妹。爱丽丝的兄弟有多少个姐妹?」 稍加思考…

LabVIEW开发实验室超导体电流特性测试系统

本系统旨在为学校实验室提供一个基于LabVIEW的超导体电流特性测试平台,通过精确测量超导体在不同温度和电流条件下的电学特性,帮助学生和研究人员深入理解超导体的物理性质。本文将从背景、目标、工作原理、使用方法、操作流程和注意事项等方面详细介绍该…

汇编语言作业(六)

目录 一、实验目的 二、实验内容 三、实验步骤以及结果 四、实验结果与分析 五、实验总结 一、实验目的 掌握加减法运算指令对各状态标志位的影响及测试方法掌握汇编语言长整数的加法的操作方法 二、实验内容 对于以下几组数, 087H和034H 0C2H和5FH 0F3H和0F3H&am…

「网络原理」三次握手四次挥手

🎇个人主页:Ice_Sugar_7 🎇所属专栏:计网 🎇欢迎点赞收藏加关注哦! 三次握手&四次挥手 🍉连接管理🍌三次握手🍌意义🍌四次挥手🍌TCP 状态转换…

【web本地存储】storage事件,StorageEvent对象介绍

storage事件 Web Storage API 内建了一套事件通知机制,当存储区域的内容发生改变(包括增加、修改、删除数据)时,就会自动触发storage事件,并把它发送给所有感兴趣的监听者,因此,如果需要跟踪存…

Flink⼤状态作业调优实践指南:状态报错与启停慢篇

摘要:本文整理自俞航翔、陈婧敏、黄鹏程老师所撰写的大状态作业调优实践指南。由于内容丰富,本文分享终篇状态报错与启停慢篇,主要分为以下四个部分: 检查点和快照超时的诊断与调优 作业快速启动和扩缩容方案 总结 阿里云企业级…

creo学习一

设置好当前配置后,导出config配置文件,并覆盖掉此路径下的旧文件,使得新配置永久生效,这样每次打开软件都是新配置的设置: 系统颜色的导出: 打开版本的问题: 不能有弱尺寸: 注意&a…

分享一个 .NET Core Console 项目中应用 NLog 写日志的详细例子

前言 日志在软件开发中扮演着非常重要的角色,通常我们用它来记录应用程序运行时发生的事件、错误信息、警告以及其他相关信息,帮助在调试和排查问题时更快速地定位和解决 Bug。 通过日志,我们可以做到: 故障排除和调试&#xff…

MySQL普通表转换为分区表实战指南

码到三十五 : 个人主页 引言 本文将详细指导新手开发者如何将MySQL中的普通表转换为分区表。分区表在处理庞大数据集时展现出显著的性能优势,不仅能大幅提升查询速度,还能有效简化数据维护工作。通过掌握这一技巧能够更好地应对数据密集型应…

《编程小白变大神:DjangoBlog带你飞越代码海洋》

还在为你的博客加载速度慢而烦恼?DjangoBlog性能优化大揭秘,让你的网站速度飞跃提升!本文将带你深入了解缓存策略、数据库优化、静态文件处理等关键技术,更有Gunicorn和Nginx的黄金搭档,让你的博客部署如虎添翼。无论你…

解决阿里云的端口添加安全组仍然无法扫描到

发现用线上的网站扫不到这个端口,这个端口关了,但是没有更详细信息了 我用nmap扫了一下我的这个端口,发现主机是活跃的,但是有防火墙,我们列出云服务器上面的这个防火墙list,发现确实没有5566端口 参考&a…

大数据解决方案案例:电商平台日志分析

个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮箱:[2435024119qq.com] &#x1f4f1…

AI作画工具介绍

目录 1.概述 2.Stable Diffusion 2.1.诞生背景 2.2.版本历史 2.3.优点 2.4.缺点 2.5.应用场景 2.6.未来展望 3.Midjourney 3.1.诞生背景 3.2.版本历史 3.3.优点 3.4.缺点 3.5.应用场景 3.6.未来展望 4.总结 1.概述 AI作画工具是一种运用人工智能技术&#xff…

万向节锁死(Gimbal Lock)

Gimbal Lock是一个常见的3D动画问题,主要由旋转顺序引起的。我来详细解释一下它的成因: 在三维空间中,任何旋转都可以分解为绕X,Y,Z三个轴的欧拉旋转(Euler Rotation)。每个轴的旋转是按照一定顺序进行的,比如XYZ或ZYX等。 理论上,通过这三个旋转值的组合,可以达到任意的空间…

require.context()函数介绍

业务需求&#xff1a; 前端Vue项目怎样读取src/assets目录下所有jpg文件 require.context()方法来读取src/assets目录下的所有.jpg文件 <template><div><img v-for"image in images" :src"image" :key"image" /></div> …