英伟达发布 Edify 3D 生成模型,可以在两分钟内生成详细的、可用于生产的 3D 资源、生成有组织的 UV 贴图、4K 纹理和 PBR 材质。

英伟达发布 Edify 3D 生成模型,可以利用 Agents 自动判断提示词场景中需要的模型,生成后将他们组合为一个场景。

Edify 3D 可以在两分钟内生成详细的、可用于生产的 3D 资源、生成有组织的 UV 贴图、4K 纹理和 PBR 材质。

相关链接

  • 论文:https://arxiv.org/pdf/2411.07135

  • 主页:https://research.nvidia.com/labs/dir/edify-3d

论文介绍

介绍

创建高质量的3D资产对于视频游戏设计、扩展现实、电影制作和模拟等行业至关重要,在这些行业中,3D内容必须满足严格的生产标准,如精确的网格结构、高分辨率纹理和材质贴图。满足这些标准既耗时又需要专业知识,这一需求推动了人工智能驱动的3D资产生成研究。然而,用于模型培训的3D资产的有限可用性带来了挑战,突出了对可扩展,高效解决方案的需求。

Edify 3D通过在两分钟内生成详细的,生产就绪的3D资产,生成有组织的UV地图,4K纹理和PBR材料来解决这些挑战。Edify 3D使用多视图扩散模型和基于transformer的重建,可以从文本提示或参考图像合成高质量的3D资产,实现卓越的效率和可扩展性。

方法

管道Edify 3D。 给定一个文本描述,一个多视图扩散模型综合了 描述对象的RGB外观。生成的多视图RGB图像然后用作 使用多视图ControlNet合成表面法线的条件(Zhang et al., 2023)。接下来,一个重建模型以多视图RGB和normal图像作为输入,预测神经网络三维使用一组潜在令牌表示。这是随后的等值面提取和后续 网格后处理,获得网格几何形状。一个升级控制网被用来增加 纹理分辨率,调节网格栅格化以生成高分辨率的多视图RGB 图像,然后将其反投影到纹理图上。

多视图扩散模型

多视图图像生成过程通过对相机姿态的调节,将文本到图像的扩散模型适应为姿态感知的多视图扩散模型。给定文本提示和相机方向,这些模型从多个角度合成物体的外观。变体包括生成RGB外观的基本模型,基于RGB合成和文本生成表面法线的ControlNet模型,以及基于纹理和表面法线的高分辨率输出的升级ControlNet。在Edify Image模型的基础上,增强的自注意层支持交叉视图注意,而通过轻量级MLP编码的相机姿势被集成为时间嵌入。

多视图扩散模型可以有效地缩放,在更多的视点上进行训练,产生更自然和一致的图像。在推理过程中,该模型可以对任意数量的视点进行采样,同时保持多视点的一致性,有利于全面覆盖目标,提高下游3D重建的质量。

重建模型

从图像中提取3D结构,通常被称为摄影测量,是许多3D重建任务的基础。我们的方法使用基于transformer的模型从多视图图像中生成3D网格几何、纹理和材质图,对未见物体具有很强的通用性,包括合成的2D扩散输出。基于RGB和normal图像的模型条件来预测潜在的三面表示,从而实现基于sdf的PBR属性体绘制。神经SDF通过等值面提取转换为3D网格,将PBR属性烘焙到纹理和材料映射中。后处理包括四网格重新拓扑,UV映射和烘烤PBR属性,从而产生适合艺术应用的可编辑,设计就绪的资产。

重建模型展示了有效的可扩展性,随着输入视点数量的增加,性能也在提高。重建质量也受益于更多的训练视图,进一步提高准确性。此外,使用相同的模型,重建质量随三平面令牌大小缩放,证明了其对可用计算资源的适应性。

结果

Edify 3D生成网格,具有详细的几何形状,锐利的纹理和清晰的反照率颜色,代表表面的基础颜色。我们可视化了PBR效果图、基础反照率颜色和表面法线。

采样视图数量的比较。所有图像都是从同一模型中采样的。 我们的多视点扩散模型可以合成具有密集视点覆盖的目标图像 保持良好的多视图一致性,适用于下游重建模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/62134.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【二叉树】【2.1遍历二叉树】【刷题笔记】【灵神题单】

关注二叉树的三个问题: 什么情况适合自顶向下?什么时候适合用自底向上?一般来说,DFS的递归边界是空节点,什么情况下要额外把叶子节点作为递归边界?在什么情况下,DFS需要有返回值?什…

远程控制软件:探究云计算和人工智能的融合

在数字化时代,远程控制工具已成为我们工作与生活的重要部分。用户能够通过网络远程操作和管理另一台计算机,极大地提升了工作效率和便捷性。随着人工智能(AI)和云计算技术的飞速发展,远程控制工具也迎来了新的发展机遇…

腾讯云 AI 代码助手:产品研发过程的思考和方法论

一、文章摘要 本文将详细阐述 腾讯云 AI 代码助手的历史发展形态与产品整体架构,并从技术、研发方法论的角度分别阐述了产品的研发过程。 全文阅读约 5~8 分钟。 二、产品布局 AI 代码助手产品经历了三个时代的发展 第一代诸如 Eclipse、Jetbrains、V…

Qt实现窗口内的控件自适应窗口大小

前言:因为有时候窗口内的控件比较大,但是为了同时操作多个窗口,希望可以根据情况,在调整窗口大小时,控件能自适应大小,于是通过遍历整个界面内的控件,并在调整大小的事件中按比率调整控件大小实…

WebGIS技术汇总

WebGIS系统通常都围绕地图进行内容表达,但并不是有地图就一定是WebGIS,所以有必要讨论下基于Web的地图API分类及应用场景。 Web上的Map API主要分类如下几类: Charts:以D3.js,Echarts等为代表。LBS:以高德…

sql server 获取当前日期的时间戳

SQL Server 获取当前日期的时间戳 在 SQL Server 中,可以使用 GETDATE() 函数获取当前日期和时间。如果想要获取当前日期的时间戳,可以将日期转换为 UNIX 时间戳格式。本文将介绍如何在 SQL Server 中获取当前日期的时间戳,并提供示例代码。 …

Java与C#

Java和C#(C Sharp)是两种流行的面向对象编程语言,它们在很多方面非常相似,因为它们都受到了类似的编程范式和语言设计理念的影响。然而,它们之间也存在一些重要的区别。 平台依赖性: Java:Java是…

Oracle 深入学习 Part 9: Storage Structure and Relationships(存储结构与关系)

在数据库管理系统(DBMS)中,Segment(段)、Extent(区块) 和 Block(块) 是描述数据库物理存储结构的三个重要概念。这些概念帮助理解数据库是如何在磁盘等存储设备上组织和管…

活着就好20241127

今天是27号,周三,一个承前启后并积蓄力量的日子。亲爱的朋友们,大家早上好!在度过了周二这个巩固成果、深化努力的阶段后,我们迎来了又一个充满挑战与机遇的周三。周三,作为一周的转折点,是我们…

C语言实例之10求0-200内的素数

1. 素数 素数(Prime number),也叫质数,是指在大于 1 的自然数中,除了 1 和它自身外,不能被其他自然数整除的数。例如 2、3、5、7、11 等都是素数,而 4 能被 2 整除、6 能被 2 和 3 整除&#x…

区块链知识体系

1. 区块链基础知识 Q: 什么是区块链? A: 区块链是一种去中心化的分布式账本技术,通过加密算法保证数据的不可篡改性和透明性。它由一系列按时间顺序链接的区块组成,每个区块包含一批交易记录。 Q: 区块链的主要特点是什么? 去…

使用Python和Pybind11调用C++程序(CMake编译)

目录 一、前言二、安装 pybind11三、编写C示例代码四、结合Pybind11和CMake编译C工程五、Python调用动态库六、参考 一、前言 跨语言调用能对不同计算机语言进行互补,本博客主要介绍如何实现Python调用C语言编写的函数。 实验环境: Linux gnuPython3.10…

哈希C++

文章目录 一.哈希的概念1.直接定址法2.负载因子 二.哈希函数1.除法散列法 / 除留余数法2.乘法散列法3.全域散列法(了解) 三.处理哈希冲突哈希冲突:1.开放定址法(1)线性探测:(2)二次探…

SAR ADC系列15:基于Vcm-Base的开关切换策略

VCM-Based开关切换策略:采样~第一次比较 简单说明: 电容上下极板分别接Vcm(一般Vcm1/2Vref)。采样断开瞬间电荷锁定,进行第一次比较。 当VIP > VIN 时,同时 减小VIP 并 增大VIN 。P阵列最高权重电容从Vcm(1/2Vref)…

深度学习模型:循环神经网络(RNN)

一、引言 在深度学习的浩瀚海洋里,循环神经网络(RNN)宛如一颗独特的明珠,专门用于剖析序列数据,如文本、语音、时间序列等。无论是预测股票走势,还是理解自然语言,RNN 都发挥着举足轻重的作用。…

网络--传输层协议--UDP

传输层作用:负责数据能够从发送端传输到接收端。 1、再谈端口号 端口号标识了一个主机上进行通信的不同的应用程序。 1.1、端口号划分范围 0 - 1023 : 知名端口号,HTTP、FTP、SSH等这些广为使用的应用层协议,他们的端口号都是固定的。 10234 - 65536:操作系统动态分配的…

【IEEE独立出版 | 厦门大学主办】第四届人工智能、机器人和通信国际会议(ICAIRC 2024,12月27-29日)

第四届人工智能、机器人和通信国际会议(ICAIRC 2024) 2024 4th International Conference on Artificial Intelligence, Robotics, and Communication 重要信息 会议官网:www.icairc.net 三轮截稿时间:2024年11月30日23:59 录…

vue的理解

什么是vue vue是一套用于构建用户界面的渐进式框架,与其他框架不同的是,vue被设计为可以自底向上逐层应用,它也是创建单页面应用的web应用框架。vue的核心库只关注视图层,不仅易上手,还便于与第三方库或既有项目整合。…

第十六届蓝桥杯模拟赛第二期题解—Java

第十六届蓝桥杯模拟赛/校赛第二期个人题解,有错误的地方欢迎各位大佬指正 问题一(填空题) 【问题描述】 如果一个数 p 是个质数,同时又是整数 a 的约数,则 p 称为 a 的一个质因数。 请问, 2024 的最大的质因数是多少? …

二代三代社保卡读卡器串口命令协议,适用于单片机等嵌入式系统使用

接触读社保卡:EA EB EC ED 04 00 7E 7A BB 非接读社保卡:EA EB EC ED 04 00 2E 2A BB 返回格式数据: EAEBECED长度信息类型域状态数据校验BB 例如: EA EB EC ED 57 00 00 7E 7B 22 6E 61 6D 65 22 3A 22 D5 C5 CE AC B1 A6 2…