Director3D: Real-world Camera Trajectory and 3DScene Generation from Text 论文解读

目录

一、概述

二、相关工作

1、文本到3D生成

2、3DGS

三、Director3D

1、Cinematographer

2、Decorator

3、Detailer 

4、Loss


一、概述

        该论文提出利用真实世界数据集,设计一个从文本生成真实世界3D场景和自适应相机轨迹的强大的开放世界文本到3D生成框架Director3D。

(1)引入Trajectory Diffusion Transformer(Traj-DiT)模型,用于根据文本描述建模相机轨迹分布。

(2)提出GS-driven Multi-view Latent Diffusion Model(GM-LDM,高斯驱动的多视角潜在扩散模型),用于生成像素对齐的3D高斯分布作为中间3D场景表示,在扩散过程中直接加强3D一致性产生3D表示。

(3)设计了一种用于细化生成的3D高斯分布的SDS++损失函数。

二、相关工作

1、文本到3D生成

        结合了NeRF和视觉语言模型CLIP的DreamField诞生之后,文本到3D生成领域逐渐发展。

        DreamFusion和SJC结合2D扩散模型 ,通过SDS分数蒸馏采样来作3D表示。

        大多数的方法都仅仅关注对象级3D生成,近期考虑场景级3D生成问题,但由于多视图的不一致性和单目深度估计会导致不好的几何和纹理伪影。另外也考虑使用全景图像扩散模型来生成3D场景,但这仅限于特定场景。所以开放世界泛化能力的文本到三维场景生成方法仍然是一个挑战。

2、3DGS

        3DGS,提出基于稠密视图的快速光栅化来用于新视图合成,大大减少渲染时间。当前方法集中于重建几何形状,适应动态场景建模。另外也有一些考虑将图像特征转换为像素对齐的3DGS,并通过反向传播渲染图像的损失来优化,训练可泛化的稀疏视图重建模型。

        DreamGaussian、GaussianDreamer,GSGen等考虑用3DGS来作文本到3D生成,通过点云扩散模型初始化3DGS提高生成质量和3D一致性。

        GRM、LGM、GS-LRM等基于3DGS的可泛化稀疏视图重建模型,也可以作上游任务参与文本到3D生成。

        GM-LDM直接在扩散过程中采用像素对齐的3DGS作为中间3D表示,来强化3D一致性。

三、Director3D

        Director3D框架分为三个部分:Cinematographer(生成密集视角相机轨迹的Traj-DiT,模拟密集视图摄影机的轨迹分布),Decorator(通过密集视图的稀疏子集来建模图像分布,生成像素对齐的3DGS基元),Detailer(通过密集相机插值渲染精炼3DGS基元)。

1、Cinematographer

        首先相机轨迹C表示为一组相机参数c_i=\left \{ r_i,t_i,f_i,p_i \right \},其中rt表示相机姿态的旋转和平移,f是相机焦距,p是相机主点。为了确保跨场景的一致性和可比性,将每个场景的轨迹都归一化,并将第一个相机姿态改为单位矩阵,并且距离摄像机最远。

        之后采用DiT结构(交叉注意力-自注意力-MLP)来生成摄像机的运动轨迹\hat{C}(左图),另外在每一个模块引入一个可学习的时间嵌入,来区分不同帧的摄像机,可以捕获真实数据的固有顺序依赖关系。另外在交叉注意力层引入一个CLIP编码器编码的文本嵌入信息。

        相比于以往的DiT结构(Diffusion Transformer)来说,将以往预测图像中的噪声,改为预测摄像机轨迹中的噪声。

        右图是不同去噪步骤下预测的摄像机轨迹(右图)。

2、Decorator

        GM-LDM的流程:

(1)基于2D的去噪

        首先输入潜在的多视图噪声表示Z_t和DiT输出的相机轨迹\hat{C},通过潜在的去噪网络Z_{\theta}得到多视图的潜在表示\hat{Z}和多视角的附加特征F,之后通过潜在表示\hat{Z}和原噪声Z_t来不断监督优化这个去噪网络(L_{2d})。

(2)基于渲染的去噪

        将多视图的潜在表示\hat{Z}和多视角的附加特征F输入到GS解码器D_G,解码器输出GS特征\left \{ \tau_i,q_i,s_i,\alpha_i,c_i \right \},其中\tau_i为深度图,q_i为旋转四元数,s_i缩放矩阵,\alpha_i不透明度,c_i256*256的球谐系数。之后通过光线起点o_i,终点d_i,计算GS位置\mu_i得到完整的3D高斯参数,来生成三维场景。

3、Detailer 

        Detailer负责提高生成3D场景的视觉质量模块,采用了一种SDS++的损失函数,利用2D扩散模型先验来优化3D高斯分布。

        首先利用3DGS参数来渲染2D图像x,并重新通过潜在网络\varepsilon得到图像的潜在表示z,并将图像x和潜在表示z均进行去噪处理得到\hat{x},\hat{z},并通过SDS++损失来监督。相当于又对渲染的2D图像进和潜在表示的图像,进行了两个扩散模型,来计算损失。

4、Loss

        因为该模型不是端到端的,所以在三个步骤分别计算损失进行监督,之后进行冻结网络。

        第一部分:

                ​​​​​​​        

        第二部分(监督Z_{\theta},D_G):

        

        第三部分:

        ​​​​​​​        

        

参考论文:Director3D: Real-world Camera Trajectory and 3D Scene Generation from Text

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/57483.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

067_基于springboot的HSK学习平台

目录 系统展示 开发背景 代码实现 项目案例 获取源码 博主介绍:CodeMentor毕业设计领航者、全网关注者30W群落,InfoQ特邀专栏作家、技术博客领航者、InfoQ新星培育计划导师、Web开发领域杰出贡献者,博客领航之星、开发者头条/腾讯云/AW…

【进阶OpenCV】 (18)-- Dlib库 --人脸关键点定位

文章目录 人脸关键点定位一、作用二、原理三、代码实现1. 构造人脸检测器2. 载入模型(加载预测器)3. 获取关键点4. 显示图像5. 完整代码 总结 人脸关键点定位 在dlib库中,有shape_predictor_68_face_landmarks.dat预测器,这是一个…

安装vue发生异常: idealTree:nodejs: sill idealTree buildDeps

一、异常 C:\>npm install vue -g npm ERR! code CERT_HAS_EXPIRED npm ERR! errno CERT_HAS_EXPIREDnpm ERR! request to https://registry.npm.taobao.org/vue failed, reason: certificate has expired 二、原因 请求 https://registry.npm.taobao.org 失败,证…

Spring Boot与Flyway实现自动化数据库版本控制

一、为什么使用Flyway 最简单的一个项目是一个软件连接到一个数据库,但是大多数项目中我们不仅要处理我们开发环境的副本,还需要处理其他很多副本。例如:开发环境、测试环境、生产环境。想到数据库管理,我们立刻就能想到一系列问…

网站漏扫:守护网络安全的关键防线

网站漏洞扫描,简称漏扫,是一种针对网站进行漏洞检测的安全服务。网站漏洞扫描在网络安全中占据着至关重要的地位。 网站漏扫在及时发现和修复漏洞方面发挥着关键作用 通过对网站和系统的全面扫描,能够快速识别出各种潜在的漏洞,…

jmeter中发送post请求遇到的问题

用jmeter发送post请求,把请求参数放在Body Data处,参数都写得正确,但没想到结果每次都报错,直接响应结果乱七八糟,改成用Parameters,反而不乱报错了。 上图 请求里如下 另外一些请求也是这样 这个响应结果也是错误的…

【文献及模型、制图分享】长江中游经济区“水—能源—粮食”系统与城市绿色转型适配性研究

文献介绍 评价资源系统与城市绿色发展适配程度是判断城市健康程度的关键。通过构建“系统压力指数—优劣解距离法(TOPSIS)—脱钩弹性模型(Tapio)”评价体系,对2012—2021年长江中游经济区“水—能源—粮食”&#xff…

aws 把vpc残留删除干净

最近忘了把vpc 删干净导致又被收了冤大头钱 在删除vpc 的收发现又eni在使用,但是忘了是哪个资源在占用 先用命令行把占用的资源找出来停掉 使用 AWS 命令行界面(CLI)来查看 VPC 的使用情况 列出子网: aws ec2 describe-subnets …

项目管理必备!2024年Jira与禅道之间的秘密故事?

一、项目管理工具的重要性 在当今快节奏的工作环境中,项目管理软件的重要性愈发凸显。随着企业规模的不断扩大和业务的日益复杂,传统的项目管理方式已经难以满足需求。项目管理软件成为提升团队协作和工作效率的关键工具。 首先,项目管理软…

vue3项目页面实现echarts图表渐变色的动态配置

完整代码可点击vue3项目页面实现echarts图表渐变色的动态配置-星林社区 https://www.jl1mall.com/forum/PostDetail?postId202410151031000091552查看 一、背景 在开发可配置业务平台时,需要实现让用户对项目内echarts图表的动态配置,让用户脱离代码也…

计算机导论

概述 计算机简史 1935年代,英国数学家图灵(Alan Turing)提出“图灵机”,奠定了计算机的理论基础。 1952年,冯诺依曼确定了计算机由运算器、控制器、存储器、输入、输出等5部分组成(Von Neumann 体系结构)。 60年代…

k8s备份恢复(velero)

velero简介 velero官网: https://velero.io/ velero-github: https://github.com/vmware-tanzu/velero velero的特性 备份可以按集群资源的子集,按命名空间、资源类型标签选择器进行过滤,从而为备份和恢复的内容提供高度的灵活…

【含开题报告+文档+PPT+源码】基于SSM框架的诗词吟诵知识学习系统的设计与实现

开题报告 随着信息技术的迅猛发展和互联网的普及,在线教育逐渐成为现代教育的重要形式。在线学习平台以其便捷性、灵活性和个性化等特点,受到广大师生的青睐。特别是在线吟诵知识学习,已经成为许多学生提升自我修养、陶冶情操的重要途径。青…

Google DeepMind推出DemoStart自主强化学习方法 利用少量示范样本实现复杂操作任务

一直以来,研究人员都在试图开发出能够在现实环境中安全、高效地执行复杂任务(如多指手操作)的机器人技能。传统的机器人学习方法往往需要大量的实际数据,这不仅耗时耗力,还存在安全风险。因此,仿真环境下的…

Netty简单应用

1.服务端构建 接收客户端请求,打印请求消息;消息采用内置String作为编码与解码器;开启信息输入监听线程,发送消息至客户端; 1.1 服务端消息处理类 import io.netty.channel.Channel; import io.netty.channel.Chann…

双十一好物必买清单攻略,这几款双十一必入的宝藏好物分享

随着双十一购物节的脚步日益临近,无数消费者都在期待着在这个年度大促中抢购到自己心仪已久的好物,为了帮助大家更好地规划购物计划,精选出真正值得入手的宝藏产品,我们特别整理了这份双十一好物必买清单攻略,无论你是…

spring day1023

ok了家人们,今天继续学习spring框架, 七.Spring的注解开发 在开发中,配置文件中 Bean 标签会非常多,难以维护。怎么 办? 使用注解的形式替代 xml 配置,可以将一些繁杂的 spring 配置 从工程中消除掉&…

业余时间试一试利用AI 人工智能赚钱

内容创作与写作: 撰写文章:许多网站、博客和企业都需要大量的优质内容。利用 AI 工具如 ChatGPT 等,获取文章的思路、框架甚至初稿,然后根据自己的知识和经验进行修改、润色和完善。你可以在一些自由撰稿人平台、内容创作平台上承…

智能园艺:Spring Boot植物健康系统

1系统概述 1.1 研究背景 随着计算机技术的发展以及计算机网络的逐渐普及,互联网成为人们查找信息的重要场所,二十一世纪是信息的时代,所以信息的管理显得特别重要。因此,使用计算机来管理植物健康系统的相关信息成为必然。开发合适…

es索引库操作和使用RestHignLevelClient客户端操作es

目录 es索引库操作 mapping映射操作 索引库的CURD操作 1.创建索引库和映射 ​编辑 2.查询索引库 3.删除索引库 4.修改索引库 5.总结 文档的CURD操作 1.新增文档 2.查询文档 3.删除文档 4.修改文档 全量修改 增量修改 5.总结 RestAPI 使用API例子 需要的数…