PhyCAGE:符合物理规律的图像到 3D 生成

Paper: Yan H, Zhang M, Li Y, et al. PhyCAGE: Physically Plausible Compositional 3D Asset Generation from a Single Image[J]. arXiv preprint arXiv:2411.18548, 2024.
Introduction: https://wolfball.github.io/phycage/
Code: Unreleased

PhyCAGE 是一种 image-to-3D 方法,完成的任务是保证 3D 物体中的两个组成部分的嵌入方式在物理学上尽可能可信。
在这里插入图片描述

PhyCAGE 的生成过程如下:

  1. 先根据输入图像生成多视角的图像;
  2. 用多视角的图像训练 3D GS 场景。为了保证生成 3D 物体的物理合理性,引入 PSE-SDS 损失函数,使用物理模拟器修正 Gaussians 的位置信息。

在这里插入图片描述

目录

  • 一. Multi-view Generation
  • 二. Multi-view Images to 3D
  • 三. Physical Simulation-Enhanced Optimization

一. Multi-view Generation

输入图像 I I I 包含背景 O 1 O_1 O1 和前景 O 2 O_2 O2,分别对应文本描述 τ 1 \tau_1 τ1 τ 2 \tau_2 τ2。使用 Grounded-SAM 从 I I I 中分割出前景目标 O 2 O_2 O2
{ M 1 , M 2 } = GroundedSAM ⁡ ( I ; τ 1 , τ 2 ) \left\{M_1, M_2\right\}=\operatorname{GroundedSAM}\left(I ; \tau_1, \tau_2\right) {M1,M2}=GroundedSAM(I;τ1,τ2)

然后修复 O 1 O_1 O1 中被 O 2 O_2 O2 遮挡的区域:
I ^ = Inpainting ⁡ ( I ∗ ( ∼ M 2 ) + I noise  ∗ M 2 ; τ 1 ) \hat{I}=\operatorname{Inpainting}\left(I *\left(\sim M_2\right)+I_{\text {noise }} * M_2 ; \tau_1\right) I^=Inpainting(I(M2)+Inoise M2;τ1)

再使用 SyncDreamer 生成 16 个视角的全景和背景图像:
{ I i } i = 1 16 = SyncDreamer ⁡ ( I ) , { I ^ i } i = 1 16 = SyncDreamer ⁡ ( I ^ ) \begin{gathered} \{I_i\}_{i=1}^{16}=\operatorname{SyncDreamer}(I), \\ \{\hat{I}_i\}_{i=1}^{16}=\operatorname{SyncDreamer}(\hat{I}) \end{gathered} {Ii}i=116=SyncDreamer(I),{I^i}i=116=SyncDreamer(I^)

并使用 Grounded-SAM 获取每张全景图 I i I_i Ii 中的语义 mask S i S_i Si,-1 代表背景,1 代表 O 1 O_1 O1,2 代表 O 2 O_2 O2

二. Multi-view Images to 3D

上一步已经获得了多视角的全景 RGB 图像、全景图像的 mask、背景 RGB 图像,现在来重建 3DGS 场景。但由于 Grounded-SAM 分割得到的 mask 并不能保证多视角连续性,因此使用 Part123 根据全景 RGB 图像和 mask 优化一个 SDF 场和语义场以提供几何引导:
{ f , g } = Part123 ⁡ ( { I i , S i } i = 1 16 ) \{f, g\}=\operatorname{Part123}(\left\{I_i, S_i\right\}_{i=1}^{16}) {f,g}=Part123({Ii,Si}i=116)

再使用 Marching Cubes 算法从 SDF 场中提取顶点 V V V,并将其分为 V 1 V_1 V1 V 2 V_2 V2,分别表示背景和前景的顶点。

然后使用背景 RGB 图像 I ^ i \hat{I}_i I^i 重建 GS 场景 G 1 G_1 G1,使用全景 RGB 图像 I i I_i Ii 结合 V 2 V_2 V2 顶点重建 GS 场景 G 2 G_2 G2
G 1 = GaussianSplatting  ( { I ^ i } i = 1 16 ) , G 2 = GaussianSplatting ⁡ ( { I i } i = 1 16 ; μ ∈ V 2 ) \begin{gathered} G_1=\text { GaussianSplatting }\left(\left\{\hat{I}_i\right\}_{i=1}^{16}\right), \\ G_2=\operatorname{GaussianSplatting}\left(\left\{I_i\right\}_{i=1}^{16} ; \mu \in V_2\right)\\ \end{gathered} G1= GaussianSplatting ({I^i}i=116),G2=GaussianSplatting({Ii}i=116;μV2)

三. Physical Simulation-Enhanced Optimization

这里所说的物理合理性指的就是前景和背景位置关系的合理性,因此只需要优化与位置相关的参数即可:位置 μ \mu μ、放缩矩阵 Σ \Sigma Σ(原文是 S S S)、旋转四元数 q q q,不透明度 α \alpha α 和球谐系数 c c c 直接冻结。其中 μ \mu μ 使用模拟器进行优化, Σ \Sigma Σ q q q 正常使用优化器优化(文中将 Σ \Sigma Σ q q q 记为 t t t)。

优化过程中计算 SDS 损失和图像 RGB 损失:
∇ θ L S D S = E t , ϵ [ w ( t ) ( ϵ ϕ ( I t p ; y , t ) − ϵ ) ∂ I t p ∂ θ ] L Image  = ( 1 − λ 1 ) L 1 ( I c , I ) + λ 1 L S S I M ( I c , I ) L : = L Image  ( θ μ , θ t ) + λ 3 L S D S ( θ μ , θ t ) \nabla_\theta \mathcal{L}_{S D S}=\mathbb{E}_{t, \epsilon}\left[w(t)\left(\epsilon_\phi\left(I_t^p ; y, t\right)-\epsilon\right) \frac{\partial I_t^p}{\partial \theta}\right] \\ \mathcal{L}_{\text {Image }}=\left(1-\lambda_1\right) \mathcal{L}_1\left(I^c, I\right)+\lambda_1 \mathcal{L}_{S S I M}\left(I^c, I\right)\\ \mathcal{L}:=\mathcal{L}_{\text {Image }}\left(\theta_\mu, \theta_t\right)+\lambda_3 \mathcal{L}_{S D S}\left(\theta_\mu, \theta_t\right) θLSDS=Et,ϵ[w(t)(ϵϕ(Itp;y,t)ϵ)θItp]LImage =(1λ1)L1(Ic,I)+λ1LSSIM(Ic,I)L:=LImage (θμ,θt)+λ3LSDS(θμ,θt)

然而,直接优化会导致穿透和伪影,因此将 μ \mu μ 的优化过程交给 MLS-MPM 模拟器,将损失函数关于 μ \mu μ 的梯度作为粒子的速度:
x n + 1 , v n + 1 = MPM ⁡ ( x n , v n , Δ t , ψ ) \mathbf{x}^{n+1}, \mathbf{v}^{n+1}=\operatorname{MPM}\left(\mathbf{x}^n, \mathbf{v}^n, \Delta t, \psi\right) xn+1,vn+1=MPM(xn,vn,Δt,ψ)

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/67699.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

麒麟操作系统服务架构保姆级教程(十三)tomcat环境安装以及LNMT架构

如果你想拥有你从未拥有过的东西,那么你必须去做你从未做过的事情 之前咱们学习了LNMP架构,但是PHP对于技术来说确实是老掉牙了,PHP的市场占有量越来越少了,我认识一个10年的PHP开发工程师,十年工资从15k到今天的6k&am…

网站HTTP改成HTTPS

您不仅需要知道如何将HTTP转换为HTTPS,还必须在不妨碍您的网站自成立以来建立的任何搜索排名权限的情况下进行切换。 为什么应该从HTTP转换为HTTPS? 与非安全HTTP于不同,安全域使用SSL(安全套接字层)服务器上的加密代…

大模型GUI系列论文阅读 DAY1:《基于大型语言模型的图形用户界面智能体:综述》(6.6W 字长文)

摘要 图形用户界面(Graphical User Interfaces, GUIs)长期以来一直是人机交互的核心,为用户提供了直观且以视觉为驱动的方式来访问和操作数字系统。传统上,GUI交互的自动化依赖于基于脚本或规则的方法,这些方法在固定…

实战经验:使用 Python 的 PyPDF 进行 PDF 操作

文章目录 1. 为什么选择 PyPDF?2. 安装 PyPDF3. PDF 文件的合并与拆分3.1 合并 PDF 文件3.2 拆分 PDF 文件 4. 提取 PDF 文本5. 修改 PDF 元信息6. PDF 加密与解密6.1 加密 PDF6.2 解密 PDF 7. 页面旋转与裁剪7.1 旋转页面7.2 裁剪页面 8. 实战经验总结 PDF 是一种非…

MySQL 安装配置(完整教程)

文章目录 一、MySQL 简介二、下载 MySQL三、安装 MySQL四、配置环境变量五、配置 MySQL5.1 初始化 MySQL5.2 启动 MySQL 服务 六、修改 MySQL 密码七、卸载 MySQL八、结语 一、MySQL 简介 MySQL 是一款广泛使用的开源关系型数据库管理系统(RDBMS)&#…

PostgreSQL的学习心得和知识总结(一百六十六)|深入理解PostgreSQL数据库之\watch元命令的实现原理

目录结构 注:提前言明 本文借鉴了以下博主、书籍或网站的内容,其列表如下: 1、参考书籍:《PostgreSQL数据库内核分析》 2、参考书籍:《数据库事务处理的艺术:事务管理与并发控制》 3、PostgreSQL数据库仓库…

当当网书籍信息爬虫

1.基本理论 1.1概念体系 网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等,可以按照我们设置的规则自动化爬取网络上的信息,这些规则被称为爬虫算法。是一种自动化程序,用于从互联网上抓取数据。爬虫通过模拟浏览器的行为,访问网页…

计算机网络 (50)两类密码体制

前言 计算机网络中的两类密码体制主要包括对称密钥密码体制(也称为私钥密码体制、对称密码体制)和公钥密码体制(也称为非对称密码体制、公开密钥加密技术)。 一、对称密钥密码体制 定义: 对称密钥密码体制是一种传…

【PowerQuery专栏】实现JSON数据的导入

Json 格式数据是在互联网数据格式传输使用的非常频繁的一类数据,图7.44为Json数据格式中比较典型的数据格式。 PowerQuery进行Json数据解析使用的是Json.Document进行数据解析,Json.Document目前有2个参数。 参数1为内容数据,数据类型为二进制类型,值为需要解析的Json数据参…

软件授权管理中的软件激活向导示例

软件激活向导示例 在软件许可中,提供许可应该是简单和安全的。这适用于想要在中央许可证服务器上创建新许可证的软件开发人员,也适用于需要在其设备上获得许可证的最终用户。如果所讨论的系统有互联网连接,或是暂时的连接,就可以…

模型部署工具01:Docker || 用Docker打包模型 Build Once Run Anywhere

Docker 是一个开源的容器化平台,可以让开发者和运维人员轻松构建、发布和运行应用程序。Docker 的核心概念是通过容器技术隔离应用及其依赖项,使得软件在不同的环境中运行时具有一致性。无论是开发环境、测试环境,还是生产环境,Do…

【云岚到家】-day03-门户缓存方案选择

【云岚到家】-day03-门户缓存方案选择 1.门户常用的技术方案 什么是门户 说到门户马上会想到门户网站,中国比较早的门户网站有新浪、网易、搜狐、腾讯等,门户网站为用户提供一个集中的、易于访问的平台,使他们能够方便地获取各种信息和服务…

网络安全VS数据安全

关于网络安全和数据安全,我们常听到如下两种不同声音: 观点一:网络安全是数据安全的基础,把当年做网络安全的那一套用数据安全再做一遍。 观点二:数据安全如今普遍以为是网络安全的延伸,实际情况是忽略数据…

Python----Python高级(文件操作open,os模块对于文件操作,shutil模块 )

一、文件处理 1.1、文件操作的重要性和应用场景 1.1.1、重要性 数据持久化: 文件是存储数据的一种非常基本且重要的方式。通过文件,我们可 以将程序运行时产生的数据永久保存下来,以便将来使用。 跨平台兼容性: 文件是一种通用…

Ubuntu 24.04 LTS 安装 Docker Desktop

Docker 简介 Docker 简介和安装Ubuntu上学习使用Docker的详细入门教程Docker 快速入门Ubuntu版(1h速通) Docker 安装 参考 How to Install Docker on Ubuntu 24.04: Step-by-Step Guide。 更新系统和安装依赖 在终端中运行以下命令以确保系统更新并…

python+pygame+pytmx+map editor开发一个tiled游戏demo 05使用object层初始化player位置

代码 import mathimport pygame# 限制物体在屏幕内 import pytmxdef limit_position_to_screen(x, y, width, height):"""限制物体在屏幕内"""x max(0, min(x, SCREEN_WIDTH - width)) # 限制x坐标y max(0, min(y, SCREEN_HEIGHT - height))…

函数递归的介绍

1.递归的定义 在C语言中,递归就是函数自己调用自己 上面的代码就是 main 函数在函数主体内 自己调用自己 但是,上面的代码存在问题:main 函数反复地 自己调用自己 ,不受限制,停不下来。 最终形成死递归,…

【PCIe 总线及设备入门学习专栏 6.1 -- PCIe MCTP】

文章目录 1 什么是 MCTP?2 MCTP 消息在 PCIe 中的传输特点3 PCIe MCTP 的局限性(1) 出站(Outbound)MCTP 消息分解的限制(2) 入站(Inbound)MCTP 消息组装的限制4 MCTP 消息的实际使用流程发送端处理流程接收端处理流程5 实际使用场景例 1:管理命令传输例 2:监控数据报告例…

Text2Sql:开启自然语言与数据库交互新时代(30/30)

一、Text2Sql 简介 在当今数字化时代,数据处理和分析的需求日益增长。对于众多非技术专业人员而言,数据库操作的复杂性常常成为他们获取所需信息的障碍。而 Text2Sql 技术的出现,为这一问题提供了有效的解决方案。 Text2Sql,即文…

【机器学习实战入门项目】MNIST数字分类机器学习项目

Python 深度学习项目:手写数字识别 为了使机器更加智能,开发者们正在深入研究机器学习和深度学习技术。人类通过不断练习和重复来学习执行某项任务,从而记住如何完成这些任务。然后,大脑中的神经元会自动触发,他们能够…