论文复现《SplaTAM: Splat, Track Map 3D Gaussians for Dense RGB-D SLAM》

前言

SplaTAM算法是首个开源的基于RGB-D数据,生成高质量密集3D重建的SLAM技术。

通过结合3DGS技术SLAM框架,在保持高效性的同时,提供精确的相机定位和场景重建

代码仓库:spla-tam/SplaTAM: SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM (CVPR 2024) (github.com)icon-default.png?t=N7T8https://github.com/spla-tam/SplaTAM

论文地址2312.02126.pdf (arxiv.org)

一、实验环境

1.1  电脑环境

Ubuntu18.04,python3.10,cuda11.6,pytorch1.12.1

1.2  配置须知

根据作者给的代码仓库,本人按照README文件进行配置,需要注意如下几点

1、pip install -r requirements.txt这块git的下载可能会很慢,可以注释掉然后再重新下载

在项目目录下运行下面指令即可: 

git clone https://github.com/JonathonLuiten/diff-gaussian-rasterization-w-depth

2、然后配置的时候,需要在终端bash的环境变量里面加入cuda的位置,修改.bashrc

3、编译器gcc版本需要降低到10,运行指令:

conda install gxx_linux-64=10

4、然后在下载的这个目录运行pip install .(注意有一个点 . )即可安装好diff-gaussian-rasterization-w-depth这个库(可微高斯光栅化的库)。

1.3  下载数据集(运行下载脚本即可)

代码提供给了几种数据集,有IPhone设备收集(可以在线和捕获照片后离线), 也有经典的数据集Replica、TUM-RGBD、ScanNet、ScanNet++、ReplicaV2 随后作者给出了上述数据集的基准测试的运行指令。

二、配置过程

由于本人在Ubuntu系统下运行,因此配置的过程也是使用的基于Linux的:

2.1  环境搭建

(conda安装+Python3.10的虚拟环境+cuda+pytorch+requirements.txt对应功能包)

conda create -n splatam python=3.10
conda activate splatam
conda install -c "nvidia/label/cuda-11.6.0" cuda-toolkit
conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.6 -c pytorch -c conda-forge
pip install -r requirements.txt

2.2  下载数据集

由于没有IPhone手机和相关设备,因此只能离线下载数据集进行渲染,本人选择的是TUM-RGBD数据集,因为Replica数据集太大了,下载时间太长。

bash bash_scripts/download_tum.sh

2.3  训练SplaTAM(渲染过程)

首先先把 configs/tum/splatam.py 文件里的 use_wandb = True 改成了 False

然后在终端运行即可开始训练:

python scripts/splatam.py configs/tum/splatam.py

训练过程如图所示:

使用的GTX4070显卡,训练了大概四五十分钟。 

三、复现结果

训练完成之后,我们运行下面的指令即可得到渲染的最终结果和渲染过程视频。

3.1  最终结果展示

在终端输入指令

python viz_scripts/final_recon.py configs/tum/splatam.py

在config/tum/splatam.py中修改参数,重新再训练得到对比如下:

3.2  渲染过程视频

在终端输入指令

python viz_scripts/online_recon.py configs/tum/splatam.py

视频放不上去,大家可以运行这个指令自我尝试一下。

四、算法解读

4.1  算法对比

【数据集】

在四个数据集ScanNet++ 、Replica、TUM-RGBD、ScanNet进行评估

【评价指标】

为了测量RGB渲染性能使用了PSNR、SSIM和LPIPS

【损失函数】

对于深度渲染性能使用深度L1损失

对于摄像机姿态估计跟踪使用平均绝对轨迹误差(ATE RMSE)

【Baselines】

比较的主要基线方法是Point-SLAM。

  • 完成了四个数据集上在线相机位姿实验;
  • 高斯图重建与摄像机pose的可视化;
  • 渲染质量比较评估;
  • 颜色和深度损失消融。

4.1  各向同性的3DGS

SplaTAM公式:

3DGS公式:

4.2  基于Splatting的可微分渲染

4.3  SplaTAM的缺点

尽管 SplaTAM 实现了最先进的性能,但该方法对运动模糊、大深度噪声和激进旋转表现出一定的敏感性。

五、代码解读

5.1  代码整体框架

对于项目代码的分析框架如下所示:

5.2  配置文件:configs/tum/splatam.py

  • 一、场景选择 (scene_name): 通过索引选择一个场景进行处理,共五个场景 map_every: 每多少帧进行一次映射(Map)操作。 keyframe_every: 每多少帧选择一个关键帧。 mapping_window_size: 映射窗口的大小。
  • 二、跟踪迭代和映射迭代 (tracking_iters, mapping_iters): tracking_iters: 跟踪(Tracking)阶段每帧的迭代次数。 mapping_iters: 映射(Mapping)阶段的迭代次数。 scene_radius_depth_ratio :用于在剪枝(Pruning)和致密化(Densification)过程中设置深度和场景半径的比例。
  • 三、跟踪配置 (tracking 字典): 包含了是否使用真实位姿(Ground Truth Poses)、是否前向传播姿态、是否使用轮廓(Silhouette)作为损失函数的一部分等设置。 映射配置 (mapping 字典):包含了映射迭代次数、是否添加新的高斯点、轮廓阈值、是否使用L1损失等。 prune_gaussians: 是否在映射过程中剪枝高斯点。 pruning_dict: 剪枝相关的参数,如开始剪枝的迭代后、移除大高斯点后的迭代数等。 use_gaussian_splatting_densification: 是否使用基于高斯溅射的致密化方法。 densify_dict: 致密化相关的参数,如开始致密化的迭代后、移除大高斯点后的迭代数等。
  • 四、可视化配置 (viz 字典): 包含了渲染模式、是否显示轮廓、可视化相机和轨迹、可视化窗口大小、视野深度等。

5.3  核心算法文件:scripts/splatam.py

其中的rgbd_slam函数是核心算法的实现

1、打印配置信息、创建输出目录、初始化WandB、加载设备和数据集等操作;

2、迭代处理RGB-D帧,进行跟踪(Tracking)和建图(Mapping)。

3、保存关键帧信息和参数。

4、最后,评估最终的SLAM参数。

 其他的重要函数见本人所制作的PPT,如下所示:

5.3.1  初始化阶段

 5.3.2  Tracking阶段

5.3.3  Mapping阶段

5.3.4  可视化阶段

可视化阶段: 可以使用生成的3D模型和相机轨迹来可视化场景。 将3D点云渲染成2D图像,并展示相机在场景中的运动轨迹。 可视化有助于理解算法的性能和重建的质量,还可以用于调试和优化算法参数。

 5.3.5  迭代优化

在整个SplaTAM算法中,跟踪和建图阶段是交替进行的。 每次迭代都会根据新的观测数据更新相机轨迹和场景模型,直到满足停止条件,例如达到预设的迭代次数或者误差收敛到一个可接受的范围。

5.3.6  反向传播 

5.4  其他算法文件

5.4.1utils/keyframe_selection.py
5.4.2utils/slam_external.py
5.4.3utils/slam_helper.py

这部分的内容,还请读者们自行阅读代码,代码量较少,阅读难度较低。

5.5  光栅化

3DGS的渲染过程是利用了光栅化(rasterization) 而光栅化的过程需要在GPU上运行。

from diff_gaussian_rasterization import GaussianRasterizationSettings GaussianRasterizer

这部分的源码用cuda写的 GaussianRasterizationSettings与GaussianRasterizer对应的代码 在submodules/diff-gaussian-rasterization/diff_gaussian_rasterization/__init__.py 光栅化的源码主要的运行及计算的工程是forward(采用前向渲染)

该函数使用了CUDA并行计算,通过调用名为 preprocessCUDA 的 CUDA 核函数来执行高斯光栅化的前处理。CUDA 核函数的执行由函数参数确定。在 CUDA 核函数中,每个线程块由多个线程组成,负责处理其中的一部分数据,从而加速高斯光栅化的计算。

参考链接如下:https://github.com/JonathonLuiten/diff-gaussian-rasterization-w-depth

总结

本人从配置运行SplaTAM,到进行算法解读和代码讲解,细致入微地对基于3D-GS的SLAM算法经典之作,进行了一个总结回顾。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/825409.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从零开始学习Linux(3)----权限

1.Linux权限的概念 Linux用户:1.root,超级管理员 2.非root,XXX,普通用户 命令:su[用户名] 功能:切换用户。 su -:是指以root的身份重新登录一次。 普通用户切换root需要输入密码,…

java算法day56 | 动态规划part15 ● 392.判断子序列 ● 115.不同的子序列

392.判断子序列 动规五部曲: 确定dp数组(dp table)以及下标的含义 dp[i][j] 表示以下标i-1为结尾的字符串s,和以下标j-1为结尾的字符串t,相同子序列的长度为dp[i][j]。确定递推公式 在确定递推公式的时候,…

优先编码器电路①

描述 下表是某优先编码器的真值表。 ①请用Verilog实现此优先编码器 输入描述 ①输入描述: input [8:0] I_n 输出描述 ①输出描述: output reg [3:0] Y_n 解题分析 本优先编码器,可采用case语句实现&#xff…

嵌入式操作系统FreeRTOS(队列管理)

1.队列管理 (1)数据存储 队列可以保存有限个具有确定长度的数据单元。队列可以保存的最大单元数目被称为队列的“深度”。在队列创建时需要设定其深度和每个单元的大小。通常情况下,队列被作为FIFO (先进先出)使用,即数据由队列尾…

解决Git 不相关的分支合并

可以直接调到解决方案,接下来是原因分析和每步的解决方式 问题原因: 我之前在自己本机创建了一个初始化了Git仓库,后来有在另一个电脑初始化仓库,并没有clone自己在本机Git远程仓库地址,导致Git历史版本不相关 错误信息 From https://gitee.com/to-uphold-justice-for-other…

点击广告就能日赚收益1000+?开发一款看广告赚收益的APP靠谱吗?

APP对接广告变现是开发者获得收益的重要方式之一,对一些体量较小的APP来说,甚至是唯一的收益来源。开发者是否可以单独开发一款全是广告的APP,拿出一部分的广告收益给点击者,类似在快手极速版里看广告获得金币一个原理&#xff0c…

【Axure教程】制作书本翻页效果

翻书效果是一种模拟真实书本翻页动作的视觉效果,常用于网页设计和应用程序中,以增强用户体验和交互性。这种效果通常通过动画和过渡效果来模拟书页的翻转,使用户感觉像在真实的书本中翻页一样。 所以今天作者就教大家怎么在Axure里用中继器制…

(CVPR,2024)CAT-Seg:基于成本聚合的开放词汇语义分割

文章目录 摘要引言方法计算成本与嵌入空间成本聚合类别成本聚合CAT-Seg框架 实验 摘要 开放词汇的语义分割面临着根据各种文本描述对图像中的每个像素进行标记的挑战。在这项工作中,我们引入了一种新颖的基于成本的方法,以适应视觉语言基础模型&#xf…

CSS显示模式

目录 CSS显示模式简介 CSS显示模式的分类 块元素 行元素 行内块元素 元素显示模式的转换 使块内文字垂直居中的方法 设计简单小米侧边栏(实践) CSS显示模式简介 元素显示模式就是元素(标签)以什么方式进行显示&#xff0…

让15万的车也配激光雷达,速腾发布中长距「千元机」MX

‍作者 |老缅 编辑 |德新 4月15日,国内头部激光雷达公司速腾聚创发布了新一代中长距激光雷达MX。 相比较其产品配置,最令人惊喜的是它的价格。 「MX将以低于200美元的价格作为基础,实现第一个项目的量产。」速腾聚创CEO邱纯潮在发布会现场…

ABAP 批次换算率和批次辅单位数量计算

文章目录 ABAP 批次换算率和批次辅单位数量计算第一种方式批次换算率获取辅单位完整程序运行结果 第二种方式核心程序 CONVERSION_EXIT_ATINN_INPUT:特征值转换示例 ABAP 批次换算率和批次辅单位数量计算 如果一个物料有批次双单位,并且在报表里面展示批…

初识LangChain的快速入门指南

LangChain 概述 LangChain是一个基于大语言模型用于构建端到端语言模型应用的框架,它提供了一系列工具、套件和接口,让开发者使用语言模型来实现各种复杂的任务,如文本到图像的生成、文档问答、聊天机器人等。 LangChain简化了LLM应用程序生…

Mysql The last packet sent successfully to the server was 0 milliseconds ago.

项目启动后,报错,但是我的navicat 数据库连接工具是连接上的,没有问题的,但是程序就是连接不上。端口放开了,防火墙也放开了 先说问题:是网络问题, 如何解决:因为我的机子上又跑了…

Pytest精通指南(18)多种手段过滤或升级警告

文章目录 前言使用命令行实现过滤未处理警告,执行结果升级警告忽略警告忽略警告摘要 使用装饰器实现过滤装饰方法装饰类装饰模块 使用配置文件实现过滤 前言 在 pytest 中执行测试时,可能会出现警告,这些警告通常是由于代码中存在某些可能导致…

代码随想录算法训练营Day58|LC739 每日温度LC496 下一个更大元素I

一句话总结:单调栈专题! 原题链接:739 每日温度 很简单的单调栈入门题。 在使用单调栈解决此题之前,先要想到:单调栈要什么时候用呢?怎么才能想到用单调栈呢? 什么时候用单调栈呢?…

海信发布《黑神话:悟空》定制电视E8N新品,重塑大屏游戏体验

4月17日,在“AI美好生活”2024海信电视E8系列新品发布会上,海信电视官宣成为《黑神话:悟空》全球官方合作伙伴。同时,海信电视还为广大游戏玩家带来了《黑神话:悟空》的显示CP,推出了官方定制电视——旗舰新…

基于SpringBoot的“论坛管理系统”的设计与实现(源码+数据库+文档+PPT)

基于SpringBoot的“论坛管理系统”的设计与实现(源码数据库文档PPT) 开发语言:Java 数据库:MySQL 技术:SpringBoot 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 论坛管理系统结构图 前台首页功能界面图 用户登录…

「GO基础」在Windows上安装Go编译器并配置Golang开发环境

文章目录 1、安装Go语言编译程序1.1、下载GoLang编译器1.2、安装GoLang编译器 2、配置Golang IDE运行环境2.1、配置GO编译器2.1.1、GOROOT 概述2.1.2、GOROOT 作用2.1.2、配置 GOROOT 2.2、配置GO依赖管理2.2.1、Module管理依赖2.2.2、GOPATH 管理依赖 2.3、运行GO程序2.3.1、创…

C# 整数转罗马数字

罗马数字包含以下七种字符:I,V,X,L,C,D和M。 例如,罗马数字2写做 II ,即为两个并列的 1。12 写做XII,即为XII。27写做 XXVII,即为XXV II 。 通常情况下,罗马数字中小的数字在大的数字…

一个不同长度元素排序找行和列的需求

1、需求:三种长度的元素,分别是4、8、12,每一行的长度是12,超过12就排到下一行,我们将这三种类型的多个元素打乱,然后找到这些元素对应的行和列。 如下图: 2、解决思路: 创建一个长…