腾讯 InstantMesh,单图生成 3D 模型,10 秒内完成,性能超越 SOTA

前言

近年来,3D 内容创作在游戏、动画、虚拟现实等领域发挥着越来越重要的作用。然而,传统的 3D 模型制作流程繁琐,需要专业人员花费大量时间和精力。为了简化 3D 内容创作流程,腾讯 ARC 实验室推出了 InstantMesh,一个基于单图像的 3D 网格生成框架,能够在短短 10 秒内完成高质量的 3D 模型生成,并显著超越了现有的 SOTA 模型。

  • Huggingface模型下载:https://huggingface.co/TencentARC/InstantMesh

  • AI快站模型免费加速下载:https://aifasthub.com/models/TencentARC

InstantMesh 的技术特点

InstantMesh 的核心技术在于将多视角扩散模型和大型重建模型(LRM)相结合,并引入可微分等值面提取模块,实现高效的 3D 网格生成。

多视角扩散模型:生成 3D 一致的多视角图像

InstantMesh 首先利用一个预训练的多视角扩散模型,从单张输入图像中生成多张 3D 一致的视角图像。该模型采用了 Zero123++,能够生成 6 张具有特定视角分布的图像,覆盖 3D 物体的上部和下部,确保重建的完整性。 为了确保生成的图像背景一致,研究团队对 Zero123++ 进行了微调,使其能够生成一致的白色背景图像,从而避免后期处理带来的潜在问题。

大型重建模型:从图像生成 3D 网格

InstantMesh 使用一个基于 LRM 架构的稀疏视角重建模型,从多视角图像中直接生成 3D 网格。LRM 架构利用 Transformer 的强大能力,将图像信息映射到 3D 空间的隐式表示,实现高效的 3D 重建。

InstantMesh 将可微分等值面提取模块 FlexiCubes 集成到重建模型中,直接从 3D 隐式场中提取网格表面,并能够应用深度和法线等几何信息进行监督,进一步提升了网格模型的精度和光滑度。

优化训练策略,提升效率和精度

为了提升训练效率,InstantMesh 采用了两种阶段的训练策略。第一阶段,模型在三平面 NeRF 表示上进行训练,并利用预训练的 OpenLRM 模型权重进行初始化,加速模型收敛。第二阶段,模型切换到网格表示进行训练,并利用 FlexiCubes 提取网格表面,并利用深度和法线等几何信息进行监督,进一步提升网格模型的精度。

此外,研究团队还针对输入视角进行了随机旋转和缩放,并对输入图像的相机参数添加随机噪声,提升模型对不同视角和尺度变化的鲁棒性。

性能表现

InstantMesh 在 Google Scanned Objects (GSO) 和 OmniObject3D (Omni3D) 两个公开数据集上进行了评估,结果显示,InstantMesh 在 2D 视觉质量和 3D 几何质量方面均显著优于其他 SOTA 方法。

评估指标:

  • 2D 视觉质量: PSNR、SSIM、LPIPS

  • 3D 几何质量: Chamfer Distance (CD)、F-Score (FS)

测试结果表明:

  • 在 2D 新视角合成任务中,InstantMesh 在 SSIM 和 LPIPS 指标上显著优于其他方法,表明其生成的 3D 模型在视觉上更具真实感。

  • 在 3D 几何质量评估中,InstantMesh 在 CD 和 FS 指标上也显著优于其他方法,表明其生成的 3D 模型在几何精度方面更高。

应用场景

InstantMesh 可以应用于多个领域,例如:

  • 游戏开发: 快速生成游戏中的 3D 模型,提升游戏开发效率。

  • 动画制作: 加速动画制作流程,为动画师提供更多创作可能性。

  • 虚拟现实 生成逼真的虚拟场景和 3D 物体,提升用户体验。

  • 工业设计: 快速生成产品原型,加速产品设计迭代。

总结

InstantMesh 的出现,为 3D 内容创作带来了新的突破,它能够在短短 10 秒内生成高质量的 3D 网格模型,并且在性能上超越了其他 SOTA 方法。InstantMesh 的开源,将为 3D 生成 AI 领域的研究和应用带来巨大的推动作用,赋能研究人员和内容创作者,推动 3D 内容创作的快速发展。

模型下载

Huggingface模型下载

https://huggingface.co/TencentARC/InstantMesh

AI快站模型免费加速下载

https://aifasthub.com/models/TencentARC

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/20661.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开源代码分享(32)-基于改进多目标灰狼算法的冷热电联供型微电网运行优化

参考文献: [1]戚艳,尚学军,聂靖宇,等.基于改进多目标灰狼算法的冷热电联供型微电网运行优化[J].电测与仪表,2022,59(06):12-1952.DOI:10.19753/j.issn1001-1390.2022.06.002. 1.问题背景 针对冷热电联供型微电网运行调度的优化问题,为实现节能减排的目…

prometheus-alert使用

说明:本文介绍一款可接管alertmanager报警,简化alertmanager配置的组件prometheus-alert。可以将prometheus检测到的异常指标,通过alertmanager转给prometheus-alert,由prometheus-alert通知到各个应用。 如下: 上图来…

# linux 系统下,使用 docker 启动 mysql 后,通过 sqlyog 连接 mysql 报“错误号码2058“

linux 系统下,使用 docker 启动 mysql 后,通过 sqlyog 连接 mysql 报“错误号码2058“ 一、错误描述: 在 ubuntu 系统上,刚安装的 docker 启动 mysql 后,想通过图形界面 SQLyong 等工具连接 mysql 出现“错误号码2058…

LeetCode---字符串

344. 反转字符串 编写一个函数,其作用是将输入的字符串反转过来。输入字符串以字符数组 s 的形式给出。 不要给另外的数组分配额外的空间,你必须原地修改输入数组、使用 O(1) 的额外空间解决这一问题。 代码示例: //时间复杂度: O(n) //空间…

tomcat 配置ssl

server.xml ssl 证书分&#xff1a;*.jks、*.pem、*.crt conf 里放入ssl证书文件 <Service name"Catalina">添加建立<Connector >j节点 </service> <Connector port"8443" protocol"org.apache.coyote.http11.Http11NioProto…

测试异步调用

目录 1、 * 测试异步调用 1.1、 Test 1.1.1、 // 三个任务都调用完成,退出循环等待 1.2、 doTaskOne 1.3、 doTaskTwo 1.4、 doTaskThree

跑马灯的两种实现方式

方式一&#xff1a;利用元素尺寸变化监听api&#xff0c;计算宽度&#xff0c;得出时间&#xff0c;进行无限次数动画。 优点&#xff1a;能自定义速度&#xff08;0 - 1&#xff09;。 <template><div class"box"><i class"iconfont icon-gon…

经典获奖案例 | 度小满互联网金融开源软件治理解决方案

近日&#xff0c;广东省粤港澳合作促进会金融专业委员会和粤港澳大湾区金融创新研究院在广州联合举办“2024年粤港澳大湾区数智金融峰会暨第二届金融创新优秀应用案例与解决方案技术成果授牌仪式”。《度小满互联网金融开源软件治理解决方案》从数百个申报项目中脱颖而出&#…

C语言多线程编程:并发控制与同步机制

1. 引言 在多核处理器日益普及的今天&#xff0c;多线程编程已经成为提高程序性能的重要手段。C语言作为一种高效、底层的编程语言&#xff0c;自然也支持多线程编程。本文将带你深入了解C语言多线程编程的奥秘&#xff0c;并分享一些实用的编程技巧。 2. 线程基础 2.1 线程的…

Java线程池:深入理解与高效应用

引言 在现代软件开发中&#xff0c;多线程编程已成为提高应用性能的关键技术之一。Java线程池作为管理线程的一种高效机制&#xff0c;允许我们复用线程&#xff0c;减少线程创建和销毁的开销&#xff0c;并且可以有效地控制并发线程的数量&#xff0c;避免资源耗尽。本专栏旨…

解决VIvado编程中遇到的bug 5

解决VIvado编程中遇到的bug 5 语言 &#xff1a;Verilg HDL EDA工具&#xff1a; Vivado、quartus2 、modelsim 解决VIvado编程中遇到的bug 5一、引言二、问题、分析及解决方法1. vivado编译时报错&#xff08;1&#xff09;错误&#xff08;2&#xff09;分析&#xff08;3&am…

YOLOv8 多种任务网络结构详细解析 | 目标检测、实例分割、人体关键点检测、图像分类

前言 本文仅根据模型的预测过程&#xff0c;即从输入图像到输出结果&#xff08;图像预处理、模型推理、后处理&#xff09;&#xff0c;来展现不同任务下的网络结构&#xff0c;OBB 任务暂不包含。 Backbone 1. yolov8m 2. yolov8m-p2 3. yolov8m-p6 4. 细节 图中 CBS Con…

DALL·E 2详解:人工智能如何将您的想象力变为现实!

引言 DALLE 2是一个基于人工智能的图像生成模型&#xff0c;它通过理解自然语言描述来生成匹配这些描述的图像。这一模型的核心在于其创新的两阶段工作流程&#xff0c;首先是将文本描述转换为图像表示&#xff0c;然后是基于这个表示生成具体的图像。 下面详细介绍DALL-E2的功…

Java高级---Spring Boot---3快速入门

3 Spring Boot快速入门 3.1 创建第一个Spring Boot项目 使用IntelliJ IDEA和Spring Initializr创建项目 打开IntelliJ IDEA 并选择 “Start a new project”。在新建项目向导中&#xff0c;选择 “Spring Initializr”。填写项目基本信息&#xff1a; Group: 定义项目组&…

C#使用GDI对一个矩形进行任意角度旋转

C#对一个矩形进行旋转GDI绘图&#xff0c;可以指定任意角度进行旋转 我们可以认为一张图片Image&#xff0c;本质就是一个矩形Rectangle,旋转矩形也就是旋转图片 在画图密封类 System.Drawing.Graphics中&#xff0c; 矩形旋转的两个关键方法 //设置旋转的中心点 public v…

如何设计创新型薪酬福利体系?

薪酬福利体系是企业吸引和留住人才的重要工具&#xff0c;然而&#xff0c;传统的薪酬福利体系缺少一定的灵活性&#xff0c;同时在满足员工多样性需求方面也比较欠缺。所以越来越多的企业选择建立创新型的薪酬福利体系。那么应该如何建立兼具灵活和激励的创新型的薪酬福利体系…

sns报错 UserWarning: Dataset has 0 variance; skipping density estimate.

报错信息 UserWarning: Dataset has 0 variance; skipping density estimate. Pass warn_singularFalse to disable this warning. 三维数组维度(1000, 27,1)&#xff0c;取出第一个元素画出分布图保存检查错误原因&#xff0c;print(Mcases[:,:,0].shape) 显示维度(1000, 27)修…

生成随机图片

package com.zhuguohui.app.lib.tools;/*** Created by zhuguohui* Date: 2024/6/1* Time: 13:39* Desc:获取随机图片*/ public class RandomImage {// static final String url "https://picsum.photos/%d/%d?random%d";static final String url "https://…

FPGA定点数FFT过后转换为浮点数与Matlab计算的FFT结果进行比对

目录 1.前言2.FPGA的testbench中如何读取数据文件3.FPGA的testbench中如何将输出数据存储在文件中4.Matlab去读取testbench存储的文件数据4.1纯数字不带编码4.2 带编码的数据&#xff0c;如定点数 微信公众号获取更多FPGA相关源码&#xff1a; 1.前言 前面一篇文章讲了&…

ESP32-C3模组上实现蓝牙BLE配网功能(2)

接前一篇文章&#xff1a;ESP32-C3模组上实现蓝牙BLE配网功能&#xff08;1&#xff09; 本文内容参考&#xff1a; 《ESP32-C3 物联网工程开发实战》 乐鑫科技 蓝牙的名字由来是怎样的&#xff1f;为什么不叫它“白牙”&#xff1f; 特此致谢&#xff01; 一、蓝牙知识基础…