腾讯 InstantMesh，单图生成 3D 模型，10 秒内完成，性能超越 SOTA

前言

近年来，3D 内容创作在游戏、动画、虚拟现实等领域发挥着越来越重要的作用。然而，传统的 3D 模型制作流程繁琐，需要专业人员花费大量时间和精力。为了简化 3D 内容创作流程，腾讯 ARC 实验室推出了 InstantMesh，一个基于单图像的 3D 网格生成框架，能够在短短 10 秒内完成高质量的 3D 模型生成，并显著超越了现有的 SOTA 模型。

Huggingface模型下载：https://huggingface.co/TencentARC/InstantMesh
AI快站模型免费加速下载：https://aifasthub.com/models/TencentARC

InstantMesh 的技术特点

InstantMesh 的核心技术在于将多视角扩散模型和大型重建模型（LRM）相结合，并引入可微分等值面提取模块，实现高效的 3D 网格生成。

多视角扩散模型：生成 3D 一致的多视角图像

InstantMesh 首先利用一个预训练的多视角扩散模型，从单张输入图像中生成多张 3D 一致的视角图像。该模型采用了 Zero123++，能够生成 6 张具有特定视角分布的图像，覆盖 3D 物体的上部和下部，确保重建的完整性。为了确保生成的图像背景一致，研究团队对 Zero123++ 进行了微调，使其能够生成一致的白色背景图像，从而避免后期处理带来的潜在问题。

大型重建模型：从图像生成 3D 网格

InstantMesh 使用一个基于 LRM 架构的稀疏视角重建模型，从多视角图像中直接生成 3D 网格。LRM 架构利用 Transformer 的强大能力，将图像信息映射到 3D 空间的隐式表示，实现高效的 3D 重建。

InstantMesh 将可微分等值面提取模块 FlexiCubes 集成到重建模型中，直接从 3D 隐式场中提取网格表面，并能够应用深度和法线等几何信息进行监督，进一步提升了网格模型的精度和光滑度。

优化训练策略，提升效率和精度

为了提升训练效率，InstantMesh 采用了两种阶段的训练策略。第一阶段，模型在三平面 NeRF 表示上进行训练，并利用预训练的 OpenLRM 模型权重进行初始化，加速模型收敛。第二阶段，模型切换到网格表示进行训练，并利用 FlexiCubes 提取网格表面，并利用深度和法线等几何信息进行监督，进一步提升网格模型的精度。

此外，研究团队还针对输入视角进行了随机旋转和缩放，并对输入图像的相机参数添加随机噪声，提升模型对不同视角和尺度变化的鲁棒性。

性能表现

InstantMesh 在 Google Scanned Objects (GSO) 和 OmniObject3D (Omni3D) 两个公开数据集上进行了评估，结果显示，InstantMesh 在 2D 视觉质量和 3D 几何质量方面均显著优于其他 SOTA 方法。

评估指标：

2D 视觉质量： PSNR、SSIM、LPIPS
3D 几何质量： Chamfer Distance (CD)、F-Score (FS)

测试结果表明：

在 2D 新视角合成任务中，InstantMesh 在 SSIM 和 LPIPS 指标上显著优于其他方法，表明其生成的 3D 模型在视觉上更具真实感。
在 3D 几何质量评估中，InstantMesh 在 CD 和 FS 指标上也显著优于其他方法，表明其生成的 3D 模型在几何精度方面更高。

应用场景

InstantMesh 可以应用于多个领域，例如：

游戏开发： 快速生成游戏中的 3D 模型，提升游戏开发效率。
动画制作： 加速动画制作流程，为动画师提供更多创作可能性。
虚拟现实：生成逼真的虚拟场景和 3D 物体，提升用户体验。
工业设计： 快速生成产品原型，加速产品设计迭代。

总结

InstantMesh 的出现，为 3D 内容创作带来了新的突破，它能够在短短 10 秒内生成高质量的 3D 网格模型，并且在性能上超越了其他 SOTA 方法。InstantMesh 的开源，将为 3D 生成 AI 领域的研究和应用带来巨大的推动作用，赋能研究人员和内容创作者，推动 3D 内容创作的快速发展。