腾讯 InstantMesh,单图生成 3D 模型,10 秒内完成,性能超越 SOTA

前言

近年来,3D 内容创作在游戏、动画、虚拟现实等领域发挥着越来越重要的作用。然而,传统的 3D 模型制作流程繁琐,需要专业人员花费大量时间和精力。为了简化 3D 内容创作流程,腾讯 ARC 实验室推出了 InstantMesh,一个基于单图像的 3D 网格生成框架,能够在短短 10 秒内完成高质量的 3D 模型生成,并显著超越了现有的 SOTA 模型。

  • Huggingface模型下载:https://huggingface.co/TencentARC/InstantMesh

  • AI快站模型免费加速下载:https://aifasthub.com/models/TencentARC

InstantMesh 的技术特点

InstantMesh 的核心技术在于将多视角扩散模型和大型重建模型(LRM)相结合,并引入可微分等值面提取模块,实现高效的 3D 网格生成。

多视角扩散模型:生成 3D 一致的多视角图像

InstantMesh 首先利用一个预训练的多视角扩散模型,从单张输入图像中生成多张 3D 一致的视角图像。该模型采用了 Zero123++,能够生成 6 张具有特定视角分布的图像,覆盖 3D 物体的上部和下部,确保重建的完整性。 为了确保生成的图像背景一致,研究团队对 Zero123++ 进行了微调,使其能够生成一致的白色背景图像,从而避免后期处理带来的潜在问题。

大型重建模型:从图像生成 3D 网格

InstantMesh 使用一个基于 LRM 架构的稀疏视角重建模型,从多视角图像中直接生成 3D 网格。LRM 架构利用 Transformer 的强大能力,将图像信息映射到 3D 空间的隐式表示,实现高效的 3D 重建。

InstantMesh 将可微分等值面提取模块 FlexiCubes 集成到重建模型中,直接从 3D 隐式场中提取网格表面,并能够应用深度和法线等几何信息进行监督,进一步提升了网格模型的精度和光滑度。

优化训练策略,提升效率和精度

为了提升训练效率,InstantMesh 采用了两种阶段的训练策略。第一阶段,模型在三平面 NeRF 表示上进行训练,并利用预训练的 OpenLRM 模型权重进行初始化,加速模型收敛。第二阶段,模型切换到网格表示进行训练,并利用 FlexiCubes 提取网格表面,并利用深度和法线等几何信息进行监督,进一步提升网格模型的精度。

此外,研究团队还针对输入视角进行了随机旋转和缩放,并对输入图像的相机参数添加随机噪声,提升模型对不同视角和尺度变化的鲁棒性。

性能表现

InstantMesh 在 Google Scanned Objects (GSO) 和 OmniObject3D (Omni3D) 两个公开数据集上进行了评估,结果显示,InstantMesh 在 2D 视觉质量和 3D 几何质量方面均显著优于其他 SOTA 方法。

评估指标:

  • 2D 视觉质量: PSNR、SSIM、LPIPS

  • 3D 几何质量: Chamfer Distance (CD)、F-Score (FS)

测试结果表明:

  • 在 2D 新视角合成任务中,InstantMesh 在 SSIM 和 LPIPS 指标上显著优于其他方法,表明其生成的 3D 模型在视觉上更具真实感。

  • 在 3D 几何质量评估中,InstantMesh 在 CD 和 FS 指标上也显著优于其他方法,表明其生成的 3D 模型在几何精度方面更高。

应用场景

InstantMesh 可以应用于多个领域,例如:

  • 游戏开发: 快速生成游戏中的 3D 模型,提升游戏开发效率。

  • 动画制作: 加速动画制作流程,为动画师提供更多创作可能性。

  • 虚拟现实 生成逼真的虚拟场景和 3D 物体,提升用户体验。

  • 工业设计: 快速生成产品原型,加速产品设计迭代。

总结

InstantMesh 的出现,为 3D 内容创作带来了新的突破,它能够在短短 10 秒内生成高质量的 3D 网格模型,并且在性能上超越了其他 SOTA 方法。InstantMesh 的开源,将为 3D 生成 AI 领域的研究和应用带来巨大的推动作用,赋能研究人员和内容创作者,推动 3D 内容创作的快速发展。

模型下载

Huggingface模型下载

https://huggingface.co/TencentARC/InstantMesh

AI快站模型免费加速下载

https://aifasthub.com/models/TencentARC

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/20661.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开源代码分享(32)-基于改进多目标灰狼算法的冷热电联供型微电网运行优化

参考文献: [1]戚艳,尚学军,聂靖宇,等.基于改进多目标灰狼算法的冷热电联供型微电网运行优化[J].电测与仪表,2022,59(06):12-1952.DOI:10.19753/j.issn1001-1390.2022.06.002. 1.问题背景 针对冷热电联供型微电网运行调度的优化问题,为实现节能减排的目…

prometheus-alert使用

说明:本文介绍一款可接管alertmanager报警,简化alertmanager配置的组件prometheus-alert。可以将prometheus检测到的异常指标,通过alertmanager转给prometheus-alert,由prometheus-alert通知到各个应用。 如下: 上图来…

# linux 系统下,使用 docker 启动 mysql 后,通过 sqlyog 连接 mysql 报“错误号码2058“

linux 系统下,使用 docker 启动 mysql 后,通过 sqlyog 连接 mysql 报“错误号码2058“ 一、错误描述: 在 ubuntu 系统上,刚安装的 docker 启动 mysql 后,想通过图形界面 SQLyong 等工具连接 mysql 出现“错误号码2058…

LeetCode---字符串

344. 反转字符串 编写一个函数,其作用是将输入的字符串反转过来。输入字符串以字符数组 s 的形式给出。 不要给另外的数组分配额外的空间,你必须原地修改输入数组、使用 O(1) 的额外空间解决这一问题。 代码示例: //时间复杂度: O(n) //空间…

经典获奖案例 | 度小满互联网金融开源软件治理解决方案

近日,广东省粤港澳合作促进会金融专业委员会和粤港澳大湾区金融创新研究院在广州联合举办“2024年粤港澳大湾区数智金融峰会暨第二届金融创新优秀应用案例与解决方案技术成果授牌仪式”。《度小满互联网金融开源软件治理解决方案》从数百个申报项目中脱颖而出&#…

C语言多线程编程:并发控制与同步机制

1. 引言 在多核处理器日益普及的今天,多线程编程已经成为提高程序性能的重要手段。C语言作为一种高效、底层的编程语言,自然也支持多线程编程。本文将带你深入了解C语言多线程编程的奥秘,并分享一些实用的编程技巧。 2. 线程基础 2.1 线程的…

解决VIvado编程中遇到的bug 5

解决VIvado编程中遇到的bug 5 语言 :Verilg HDL EDA工具: Vivado、quartus2 、modelsim 解决VIvado编程中遇到的bug 5一、引言二、问题、分析及解决方法1. vivado编译时报错(1)错误(2)分析(3&am…

YOLOv8 多种任务网络结构详细解析 | 目标检测、实例分割、人体关键点检测、图像分类

前言 本文仅根据模型的预测过程,即从输入图像到输出结果(图像预处理、模型推理、后处理),来展现不同任务下的网络结构,OBB 任务暂不包含。 Backbone 1. yolov8m 2. yolov8m-p2 3. yolov8m-p6 4. 细节 图中 CBS Con…

DALL·E 2详解:人工智能如何将您的想象力变为现实!

引言 DALLE 2是一个基于人工智能的图像生成模型,它通过理解自然语言描述来生成匹配这些描述的图像。这一模型的核心在于其创新的两阶段工作流程,首先是将文本描述转换为图像表示,然后是基于这个表示生成具体的图像。 下面详细介绍DALL-E2的功…

Java高级---Spring Boot---3快速入门

3 Spring Boot快速入门 3.1 创建第一个Spring Boot项目 使用IntelliJ IDEA和Spring Initializr创建项目 打开IntelliJ IDEA 并选择 “Start a new project”。在新建项目向导中,选择 “Spring Initializr”。填写项目基本信息: Group: 定义项目组&…

C#使用GDI对一个矩形进行任意角度旋转

C#对一个矩形进行旋转GDI绘图,可以指定任意角度进行旋转 我们可以认为一张图片Image,本质就是一个矩形Rectangle,旋转矩形也就是旋转图片 在画图密封类 System.Drawing.Graphics中, 矩形旋转的两个关键方法 //设置旋转的中心点 public v…

生成随机图片

package com.zhuguohui.app.lib.tools;/*** Created by zhuguohui* Date: 2024/6/1* Time: 13:39* Desc:获取随机图片*/ public class RandomImage {// static final String url "https://picsum.photos/%d/%d?random%d";static final String url "https://…

FPGA定点数FFT过后转换为浮点数与Matlab计算的FFT结果进行比对

目录 1.前言2.FPGA的testbench中如何读取数据文件3.FPGA的testbench中如何将输出数据存储在文件中4.Matlab去读取testbench存储的文件数据4.1纯数字不带编码4.2 带编码的数据,如定点数 微信公众号获取更多FPGA相关源码: 1.前言 前面一篇文章讲了&…

ESP32-C3模组上实现蓝牙BLE配网功能(2)

接前一篇文章:ESP32-C3模组上实现蓝牙BLE配网功能(1) 本文内容参考: 《ESP32-C3 物联网工程开发实战》 乐鑫科技 蓝牙的名字由来是怎样的?为什么不叫它“白牙”? 特此致谢! 一、蓝牙知识基础…

[数据集][目标检测]吉他检测数据集VOC+YOLO格式66张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):66 标注数量(xml文件个数):66 标注数量(txt文件个数):66 标注类别数…

Three.js——tween动画、光线投射拾取、加载.obj/.mtl外部文件、使用相机控制器

个人简介 👀个人主页: 前端杂货铺 ⚡开源项目: rich-vue3 (基于 Vue3 TS Pinia Element Plus Spring全家桶 MySQL) 🙋‍♂️学习方向: 主攻前端方向,正逐渐往全干发展 &#x1…

YOLOv8 segment介绍

1.YOLOv8图像分割支持的数据格式: (1).用于训练YOLOv8分割模型的数据集标签格式如下: 1).每幅图像对应一个文本文件:数据集中的每幅图像都有一个与图像文件同名的对应文本文件,扩展名为".txt"; 2).文本文件中每个目标(object)占一行…

iReport的下载与安装

下载官网:Home - Jaspersoft Community 网盘下载: 链接:https://pan.baidu.com/s/1Oy5opY4GxPZ_mllTlBZ-2w 提取码:75do 安装就是双击后一直点击下一步 安装好了之后要配置jdk环境 iReport 目前 并不支持 高版本jdk 只支持…

TQSDRPI开发板教程:UDP收发测试

项目资源分享 链接:https://pan.baidu.com/s/1gWNSA9czrGwUYJXdeuOwgQ 提取码:tfo0 LWIP自环教程:https://blog.csdn.net/mcupro/article/details/139350727?spm1001.2014.3001.5501 在lwip自环的基础上修改代码实现UDP的收发测试。新建一…

嫁接打印:经济与实用的完美结合

在制造领域,寻求经济且好用的技术方案至关重要。而在模具制造中,3D 打印随形水路在提升冷却效率和产品良率方面的卓越表现已得到广泛认同。如何更经济的应用3D打印技术,就不得不说嫁接打印了。 在嫁接打印的制造过程中,产品的一部…