ADGaussian:用于自动驾驶的多模态输入泛化GS方法

25年4月来自香港中文大学和浙大的论文“ADGaussian: Generalizable Gaussian Splatting for Autonomous Driving with Multi-modal Inputs”。

提出 ADGaussian 方法,用于可泛化的街道场景重建。所提出的方法能够从单视图输入实现高质量渲染。与之前主要关注几何细化的 gaussian Splatting 方法不同,其强调联合优化图像和深度特征以实现准确的高斯预测的重要性。为此,首先将稀疏 LiDAR 深度作为一种额外的输入模态,将高斯预测过程制定为视觉信息和几何线索的联合学习框架。此外,提出一种多模态特征匹配策略,结合多尺度高斯解码模型,以增强多模态特征的联合细化,从而实现高效的多模态高斯学习。在两个大规模自动驾驶数据集 Waymo 和 KITTI 上进行的大量实验表明, ADGaussian 实现最先进的性能,并在新视图转换中表现出卓越的零样本泛化能力。

最近,3D Gaussian Splatting (3DGS) [14] 因其实时渲染速度和高质量输出而在 3D 场景重建和新视图合成领域引起了广泛关注。一个关键应用是从图像序列建模街道场景,这在自动驾驶等领域起着至关重要的作用。

在对城市场景进行建模时,一些方法遵循逐场景优化技术 [4, 17, 48],尤其是 Street-Gaussians [38],它将动态城市街道表示为一组配备语义逻辑和 3D 高斯的点云。虽然逐场景优化方法在高质量重建方面表现出色,但它往往难以应对昂贵的训练成本和大范围的新视图合成。

为了实现可泛化的街道场景重建,大多数现有方法都建立在 Pix-elSplat [3] 或 MVSplat [6] 的架构之上。例如,GGRt [19] 引入一种无姿势架构来迭代更新多视图深度图,随后基于 PixelSplat 估计高斯基元。同样,GGS [9] 通过集成多视图深度细化模块增强 MVSplat 的深度估计。

尽管如此,基于多视图特征匹配的深度估计,可能会在无纹理区域和反射表面等具有挑战性的条件下失败。为了解决这个问题,并行工作 DepthSplat [36] 将 Depth Anything V2 [40] 中预训练的深度特征与多视图深度估计相结合,以实现准确的深度回归,其中估计的深度特征进一步用于高斯预测。鉴于 Depth Anything V2 强大的泛化能力,将 DepthSplat 扩展到城市街道场景是合理的。然而,DepthSplat 在应用于这些环境时面临特定的限制。首先,视觉渲染质量受到预训练深度模型的有效性限制。此外,即使在深度质量较高的情况下,直接将图像和深度特征连接起来进行高斯预测也会导致在复杂的自动驾驶情况下视觉重建不令人满意(如图所示)。

请添加图片描述

为此,提出一种多模态表示框架 ADGaussian,如上图所示,旨在增强街道场景中的几何建模和视觉渲染。

深度基础模型 [1、2、39、40、42] 已被集成到Gaussian Splatting 中以改进几何重建。然而,由于光度和几何线索之间的相互作用不足,这种框架的渲染质量往往不理想。为了解决这个问题,提出 ADGaussian,这是一种同步多模态优化架构,它将稀疏深度数据与单目图像相结合,以增强街景建模。

Gaussian Splatting 的深度基础模型

最近,DepthSplat 等工作已经研究使用预训练的深度基础模型进行图像条件 3D 高斯重建的优势,并充分利用其在各种真实世界数据集中的出色性能。所有这些方法都利用预训练的单目深度特征来增强最终的深度估计,从而提高高斯渲染的质量。

例如,DepthSplat 使用两个并行分支处理多视图图像 {Ii} 以提取密集的每像素深度。一个分支专注于从多视图输入中建模成本体的特征 Ci,而另一个分支采用预训练的单目深度主干,特别是 Depth Anything V2,以获得单目深度特征 F^i_mono。随后,将每视图成本体和单目深度特征连接起来进行 3D 高斯预测。

直观地说,这种模型可以轻松适应城市场景。尽管如此,重建的有效性在很大程度上取决于预训练的深度基础模型的性能,导致不同街道数据集和场景的准确性不一致。此外,图像和深度特征的处理总是在每个视图中并行进行,没有任何信息共享或同步优化,这限制了模型的学习能力。

多模态特征匹配

这里找到一种有效的方法,将稀疏的 LiDAR 深度集成到 Gaussian Splatting 中,充分利用多模态特征。为此,提出了一种针对城市场景定制的多模态特征匹配架构,以实现稀疏深度信息和彩色图像数据的同步集成。在此过程中,深度引导位置嵌入将深度线索纳入位置嵌入,增强 3D 空间感知并提高多模态上下文理解。

多模态特征匹配。如图所示,模型的核心是图像中的光度特征和深度数据几何线索的多模态特征匹配。这是通过 Siamese 式编码器和信息交叉注意解码器实现的,灵感来自 DUSt3R 系列 [18, 30]。

请添加图片描述

具体来说,单目图像 I 和同步稀疏深度图 S 以 Siamese 配置输入权重共享 ViT 编码器,产生两个 token 表示 F_I 和 F_S 。两个相同的编码器以权重共享的方式协作处理多模态特征,从而实现相似特征的自动学习。

之后,配备交叉注意的 Transformer 解码器用于增强两个多模态分支之间的信息共享和同步优化。此步骤对于生成融合良好的多模态特征图至关重要。

深度引导位置嵌入 (DPE)。 Vision Transformers 中的传统位置嵌入对 2D 图像平面上的相对或绝对空间位置进行编码,以确保图像内的空间感知。然而,仅仅依靠 2D 图像平面的几何特性不足以实现同步多模态设计。为此,提出一种直接的深度引导位置嵌入 (DPE),将深度位置与基于图像的空间位置相结合。具体而言,给定下采样的图像和稀疏深度图,首先将 2D 空间位置网格展平为 1D 矢量,其中每个元素对应于图像中的特定空间位置。随后,对稀疏深度图进行下采样以匹配图像分辨率,从而生成一组独立的深度索引来补充空间位置。最终的位置嵌入 D_pos 是通过将展平的空间位置与深度位置连接起来构建的,从而有效地在 xy-z 平面中编码位置信息。通过整合空间和深度几何,该模块为有效的多模态特征匹配提供了全面的位置先验。

多尺度高斯解码

给定多模态 token G_I 和 G_S,目标是预测像素对齐的高斯参数 {(μ, α, Σ, c)},其中 μ、α、Σ 和 c 是 3D 高斯的中心位置、不透明度、协方差和颜色信息。为了充分利用图像 token G_I 和深度 token G_S 提供的外观线索和几何先验,实现两个具有相同架构的独立回归头,即高斯头和几何头,以生成不同的高斯参数。

两个回归头遵循 DPT [22] 架构,并通过额外的多尺度深度编码增强,为高斯预测提供精确的尺度先验。具体而言,在 DPT 解码器中的每个尺度上,最初调整输入稀疏深度图的大小以与当前特征尺度的空间大小对齐。之后,调整过大小的深度图,通过由两个卷积层组成的浅层网络进行处理,以提取深度特征,然后将其添加到 DPT 中间特征中。最后,输入图像和深度图(每个都由单个卷积层处理)分别合并到高斯头和几何头的最终特征中,以促进基于外观或基于几何的高斯解码。

训练损失

模型使用视图合成损失和深度损失的组合进行训练。

新视图合成损失。用渲染和真值图像颜色之间的均方误差 (MSE) 和 LPIPS 损失的组合来训练完整模型。

深度损失。利用深度损失来平滑相邻像素的深度值,从而最大限度地减少小区域的突然变化。

数据集。在两个广泛使用的自动驾驶数据集上评估提出的方法:Waymo 开放数据集 [24] 和 KITTI 跟踪基准 [8]。对于这两个数据集,采用大约 1:7 的训练-测试分割比。具体来说,在 Waymo 数据集上,主要关注静态和动态场景,其中每种场景类型分为 4 个测试场景和 28 个训练场景。同样,对于 KITTI 数据集,分割由 5 个测试场景和 37 个训练场景组成。这种划分确保方法在不同场景中的平衡评估,同时也为有效的模型训练提供足够的训练数据。

训练细节。实现基于 Py-Torch 框架。采用 Adam [16] 优化器和余弦学习率策略,初始学习率为 1e-4。在 3090 Ti GPU 上训练模型,在 Waymo 和 KITTI 数据集上均运行 150k 次迭代,批量大小为 1。为了确保公平比较,所有实验均在 Waymo 数据集分辨率为 320×480 图像和 KITTI 数据集分辨率为 256×608 图像进行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/900710.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

js中this指向问题

在js中,this关键字的指向是一个比较重要的概念,它的值取决于函数的调用方式。 全局状态下 //全局状态下 this指向windowsconsole.log("this", this);console.log("thiswindows", this window); 在函数中 // 在函数中 this指向win…

我的NISP二级之路-03

目录 一.ISMS 二.IP 三.http 四.防火墙 五.文件 解析 解析 六.攻击 解析 解析 七.风险管理工程 八.信息系统安全保护等级 九.我国信息安全保障 一.ISMS 1.文档体系建设是信息安全管理体系(ISMS)建设的直接体现,下列说法不正确的是: A&#…

HarmonyOS应用开发者高级-编程题-001

题目一:跨设备分布式数据同步 需求描述 开发一个分布式待办事项应用,要求: 手机与平板登录同一华为账号时,自动同步任务列表任一设备修改任务状态(完成/删除),另一设备实时更新任务数据在设备…

动态列表的数据渲染、新增、编辑等功能开发及数据处理

说一个比较繁琐的功能吧,我使用的是 vue element UI vxe-table 来实现的这个动态列表,其实呢 vxe-table 这个表格插件里边有动态表格 vxe-grid 只需要通过表头数组里边的 field: name, 与表体数组里的 name: Test1, 对应上就行了,很简单吧…

Linux学习笔记——文件系统基础与根文件系统详解

文件系统基础与根文件系统详解 什么是文件系统?什么是根文件系统(Root File System)?一句话理解:更详细地说: 根文件系统为什么重要?1. 启动依赖2. 提供根目录 /3. 支持挂载其他文件系统4. 提供…

R语言进行聚类分析

目录 简述6种系统聚类法 实验实例和数据资料: 上机实验步骤: 进行最短距离聚类: 进行最长距离聚类: 进行中间距离聚类: 进行类平均法聚类: 进行重心法聚类: 进行ward.D聚类:…

【回眸】Linux 内核 (十四)进程间通讯 之 信号量

前言 信号量概念 信号量常用API 1.创建/获取一个信号量 2.改变信号量的值 3. 控制信号量 信号量函数调用 运行结果展示 前言 上一篇文章介绍的共享内存有局限性,如:同步与互斥问题、内存管理复杂性问题、数据结构限制问题、可移植性差问题、调试困难问题。本篇博文介…

记录IBM服务器检测到备份GPT损坏警告排查解决过程

服务器设备:IBM x3550 M4 Server IMM默认IP地址:192.168.70.125 用户名:USERID 密码:PASSW0RD(注意是零0) 操作系统:Windows Hyper-V Server 2016 IMM Web System Status Warning&#xff1…

“Pseudo Global Warming”:伪全球变暖PGW

“Pseudo Global Warming”:伪全球变暖PGW PGW方法概述🔍 一、PGW 方法的定义🧠 二、PGW 方法的基本原理🛠️ 三、PGW 方法的主要步骤📈 四、PGW 模拟时常涉及的变量📊 五、PGW 方法的优/缺点📚…

2025-04-06 Unity Editor 2 —— GUILayout

文章目录 常用组件1 Label 文本标签2 TextField / TextArea / PasswordField 输入框3 Butto / RepeatButton 按钮4 Horizontal / Vertical 方向布局5 Box 自动布局框6 ScrollView 滚动视图7 Horizontal / VerticalSlider 滑动条8 Area GUI 区域9 Window 窗口10 Toolbar 工具栏1…

Qt 交叉编译详细配置指南

一、Qt 交叉编译详细配置 1. 准备工作 1.1 安装交叉编译工具链 # 例如安装ARM工具链(Ubuntu/Debian) sudo apt-get install gcc-arm-linux-gnueabihf g++-arm-linux-gnueabihf# 或者64位ARM sudo apt-get install gcc-aarch64-linux-gnu g++-aarch64-linux-gnu 1.2 准备目标…

用PointNet++训练自己的数据集(语义分割模型semseg)

(1)训练部件分割(partseg)模型和检测自己点云并将结果保存txt,请看博主上两篇文章 (2)本文背景是将pipe点云上的缺陷和本体检测出来,即1种语义场景(pipe)&…

kotlin中主构造函数是什么

一 Kotlin 中的主构造函数 主构造函数(Primary Constructor)是 Kotlin 类声明的一部分,用于在 创建对象时初始化类的属性。它不像 Java 那样是一个函数体,而是紧跟在类名后面。 主构造函数的基本定义 class Person(val name: S…

PHP 过滤器

PHP 过滤器 引言 PHP作为一种广泛使用的服务器端脚本语言,提供了强大的数据处理能力。在处理数据时,确保数据的安全性和准确性至关重要。PHP过滤器(Filters)就是用来对数据进行预处理和后处理的工具。本文将详细介绍PHP过滤器的…

【WebRTC】开源项目Webrtc-streamer介绍

WebRTC-Streamer 这是一个用于通过简单的信令机制(参见 api)流式传输 WebRTC 媒体源的实验项目,支持以下媒体源: 捕获设备 屏幕捕获 mkv 文件 RMTP/RTSP 源 同时该项目也兼容 WHEP 接口。 注意 * 在线演示已停止&#xff0c…

【Java设计模式】第9章 原型模式讲解

9. 原型模式 9.1 原型模式讲解 定义:通过拷贝原型实例创建新对象,无需调用构造函数。特点: 创建型模式无需了解创建细节适用场景: 类初始化消耗资源多对象创建过程繁琐(如属性赋值复杂)循环体中需创建大量对象优点: 性能优于直接new简化创建流程缺点: 必须实现clone()…

【Java集合】LinkedList源码深度分析

参考笔记:java LinkedList 源码分析(通俗易懂)_linkedlist源码分析-CSDN博客 目录 1.前言 2.LinkedList简介 3.LinkedList的底层实现 4.LinkedList 与 ArrayList 的对比 4.1 如何选择 4.2 对比图 5.LinkedList 源码Debug 5.1 add(E e) &#xff…

openssl源码分析之加密模式(modes)

openssl实现分组加密模式(例如AES128-CBC的CBC部分)的模块名字叫做modes,源代码位于 https://gitee.com/gh_mirrors/openssl/tree/master/crypto/modes 博主又打不开github了TT,只能找个gitee镜像 头文件是modes.h。 该模块目前…

Java 搭建 MC 1.18.2 Forge 开发环境

推荐使用 IDEA 插件 Minecraft Development 进行创建项目 创建完成后即可进行 MOD 开发。 但是关于 1.18.2 的开发教程太少,因此自己研究了一套写法,写法并非是最优的但是是探索开发MOD中的一次笔记和记录 GITHUB: https://github.com/zimoyin/zhenfa…

nginx如何实现负载均衡?

Nginx 是一款高性能的 Web 服务器和反向代理服务器,它可以通过配置实现负载均衡功能。以下是实现负载均衡的详细步骤和方法: 1. 基本概念 负载均衡是将客户端请求分发到多个后端服务器上,以提高系统的可用性和性能。Nginx 支持多种负载均衡策…