学习笔记之——2D Gaussian Splatting(2DGS)

3DGS在辐射场重建中取得了巨大的成就,实现高质量的新视图合成和快速渲染。最近新出了3DGS的升级版本,2DGS。写下本博文记录本人学习及测试2DGS的过程,本博文仅为本人学习记录用~

  • Project Website
  • Github Code
  • Original paper

目录

原理解读

什么是surfels?

2DGS与3DGS的区别

2DGS的理解

2DGS 的Modeling

2DGS的Splatting

2DGS的Rasterization

2DGS的训练及loss

Depth Distortion

Normal Consistency

Final Loss

代码测试

代码解读

参考材料


原理解读

由于3D 高斯在多视角下的不一致性,使得它在surface reconstruction中效果不佳。为此,作者提出用2D平面高斯圆盘(2D oriented planar Gaussian disks)来表征三维单元。2DGS通过采用surfels的表达方式,并使用针对surfels的投影方法较好地保证了多视角一致性。通过ray-splat intersection和 rasterization实现2D高斯的渲染。进一步的,通过在loss中引入depth distortion and normal consistency提高了重建几何的质量,而不能单单只靠RGB的loss。

从motivation来看,应该就是3D高斯难以处理复杂的几何形状下的重建,特别是平面会有比较多的noise(这点之前大量的实验也可观察到,也确实3D高斯球叠加一起的平面肯定有些棱角之类的noise)。对于3D高斯而言,对于相邻高斯球交汇处,不同的视角会有不同的渲染值/深度值(3DGS evaluates a Gaussian’s value at the intersection between a pixel ray and a 3D Gaussian, which leads to inconsistency depth when rendered from different viewpoints.)

而采用2D 高斯,也就是类似于Mesh或者surfels差不多的平面来构建的话,可以交换的拟合复杂的平面。

什么是surfels?

Surfels approximate the object surface locally with shape and shade attributes, and can be derived from known geometry.

Surfels(surface elements)是体积渲染文献中的“表面元素”或“表面体素”。其他人将其描述为零维n元组,其形状和阴影属性局部近似于对象表面。对象可以由一组密集的点(表面)表示,这些点(表面)保存照明信息。

A surfel, that is, a point structure representing Euclidean xyz coordinates, together with normal coordinates, a RGBA color, a radius, a confidence value and the surface curvature estimate.

其表达如下:

基于surfels的方法基本上都需要几何的GT、深度信息或者在光照已知的场景下才能运行。而2DGS将其结合起来。2DGS采用了扁平的基元(2D高斯,oriented elliptical disk)对3D场景进行表示,2DGS的基元辐射场垂直于其法线,使其可以更好地贴合场景表面。

2DGS与3DGS的区别

关于3DGS的原理,此处就不再阐述了,请见博客:学习笔记之——3D Gaussian Splatting及其在SLAM与自动驾驶上的应用调研_3d gaussian splatting slam-CSDN博客

虽然3DGS取得巨大的成就,但是由于3D 高斯在多视角下的不一致性,使得它在surface reconstruction中效果不佳。而2D高斯则是多视觉一致性强。而2DGS使用2D的圆盘来表示场景,这使得2DGS与3DGS相比能够表达精确的表面几何。3DGS通过像素发出的光线束和3D Gaussian之间的交平面来计算投影到像平面的高斯值,这在不同视点进行渲染时会导致得到不同的depth(因此depth sort的结果也会不连续)。2DGS使用ray-splat来得到准确连续的投影结果,大大提高了几何的质量。如下图所示。对于3DGS而言,不同的视角,其对应的是不同的交互平面(Intersection Plane),但是对于2DGS,都是相同的平面,因此多视角一致性较强~

此外,2D高斯中固有的表面法线使得能够通过法线约束进行直接的重构表面进行正则化,因此相比于传统的surfel-based的方法,2DGS可以从未知几何体中恢复。(2DGS天生具有normal使其可以很自然地使用normal进行监督,并且2DGS可以通过基于梯度的优化方法从未知的几何中进行重建。)

如下图所示,2DGS所构建的平面光滑一些~

下图放大一些细节就更明显了~

虽然效果比较不错,但是2DGS是通过不透明度来判断场景的表面,对于诸如玻璃一类半透明的物体会遇到较大困难。其次,2DGS的densification策略使其主要集中在纹理较丰富区域,对于弱纹理区域表示较差。

2DGS的理解

2DGS 的Modeling

2DGS采用了扁平的基元(planar disk)对场景进行表示,2DGS的基元辐射场垂直于其法线(the normal as the direction of steepest change of density),使其可以更好地贴合场景表面。也有其他类似的工作采用2D 高斯来做几何重建,但是需要稠密的点云以及真值法向量作为输入,但是本文只需要colmap或sfm得到的稀疏点以及作为supervision的图片。

如所图所示。2D高斯的定义为:其中心点 p_{k},两个切向量 t_{u}t_{v}一个控制2D Gaussians 方差的scaling向量(scalling vector)S=\left (s_{u}, s_{v} \right)。2D Gaussians的法线由两个互相正交的切向量来定义t_{w}=t_{u}\times t_{v} 。因此2D高斯的方位参数可以组织成旋转矩阵R=\left [ t_{u}, t_{v}, t_{w} \right ],缩放参数(scalling factors)可以组织为最后一列为0的对角矩阵 𝑆 。

一个2D Gaussian被定义在3D空间中局部的切平面(local tangent plane)坐标系如下:

其中H ∈ 4 × 4 是一个齐次变换矩阵,可以表示2D Gaussian的几何形状。这里的点u = (𝑢, 𝑣)是在2D Gaussian的局部的切平面(local tangent plane)中取得的,可以理解为此时高斯函数的均值为0,方差为1,因此可以通过一个简单的公式高效地计算点 𝑢 的函数值:

随后可以通过矩阵 𝐻 将局部点 𝑢 变换到全局坐标系中。中心点 p_{k} 、尺度S=\left (s_{u}, s_{v} \right)、rotation \left ( t_{u}, t_{v} \right )都是可学习的参数,并且与3DGS一样,2D Gaussian基元也有opacity 𝛼 和通过球谐函数计算的视角依赖的外观c。

2DGS的Splatting

渲染2D Gaussians的常用策略是利用透视投影的仿射近似将2D Gaussian基元投影到image space。但这个方法只有在接近基元中心是准确的,离中心越远误差越大。为了解决这个问题,采用基于齐次坐标的计算公式,将2D splat的投影过程描述为齐次表示下一个统一的2D-to-2D的映射。让W ∈ 4 × 4 为world space到camera space到变换矩阵(transformation matrix from world space to screen space),则screen space到点可以通过下式进行计算:

其中 𝑥 表示从像素 (𝑥,𝑦) 发射点一条齐次坐标表示的光线,其与2D splat在深度 𝑧 处相交。因此,给定一个屏幕坐标 (𝑥,𝑦) ,可以计算得到Gaussian space的坐标 。但这个逆变换矩阵带来了数值的不稳定性,特别是从侧面观察splat退化为线段时。以前的一些方法会设定一个阈值,当splat退化到一定程度时就不再使用这个变换,但这又会使得可微渲染的优化过程不稳定。为了解决这个问题,2DGS使用了一个显式的ray-splat intersection。

Ray-splat Intersection: 2DGS中采用了计算三个非平行平面的交点来得到ray和splat的交点。首先从图像坐标系下任意点 𝑥=(𝑥,𝑦) 出发,根据其两个坐标轴方向的normal (−1,0,0),(0,−1,0) 和任意位移量 𝑥,𝑦 确定两个以齐次坐标表示的平面h_{x} = \left (-1, 0, 0, x \right ) ; h_{y}=\left (0,-1,0,y \right ),这两个平面的交线确定从对应像素发出的ray。接下来将这两个平面变换到2D Gaussian的局部坐标系下(将平面内的点进行变换时使用变换矩阵 𝑀 ,等价于使用其逆转置矩阵M^{-T}):

由前面得到的2D Gaussian局部坐标系下点坐标为 (𝑢,𝑣,1,1) ,以及ray-splat intersection位于两个平面内,可以得到:

通过这个式子可以导出ray-splat intersection的计算公式:

其中h_{u}^{i} ; h_{v}^{i}分别代表齐次坐标平面的第i个参数。

Degenerate Solutions: 从一些很斜的角度看,2D Gaussian会退化成一条线,在rasterization过程中会突然消失。为了解决这个问题,2DGS中使用一个object-space的低通滤波:

其中 𝑢(𝑥) 为ray-splat intersection, 𝑐 是投影后的2D Gaussian的中心。

2DGS的Rasterization

2DGS的rasterization过程与3DGS一致,首先为2D Gaussian计算一个screen space的bound ing box,然后将2D Gaussians按照其depth进行排序并且根据bounding box将其划分为多个tiles,最后使用volumetric α blending来累加得到最终的color:

2DGS的训练及loss

如果仅仅使用photometric loss,重建得到的几何会比较noisy,于是2DGS引入了两个regularization terms对几何进行约束。

(由于3D重建任务的多解性,2DGS中除了rgb loss外还使用了两个loss,分别是对depth的监督和对normal连续性的约束。通过额外的两个约束,使得2DGS能够重建出精确的mesh)

Depth Distortion

由于3DGS的体渲染没有考虑intersected高斯基元之间的距离,因此分散的高斯会导致相似的颜色和深度渲染,即体渲染过程中没有准确地对表面部分进行渲染。为了解决这个问题,可以通过最小化ray-splat intersections之间的距离,来使体渲染的权重尽量集中在表面:

其中,。2DGS在CUDA中对这一项进行了高效的实现。

Normal Consistency

2DGS这种基于2D Gaussians的surfels表达需要在局部上保证和真实的表面对齐,但体渲染中一条光线上可能会有多个半透明的surfels,于是2DGS将中间的surfels即累积不透明度为0.5的点视为真实表面所在的位置。随后将真实表面位置对应的normal与depth maps的梯度对齐:

其中 𝑖 代表沿着光线排列的intersected splat, 𝜔 代表交点处的blending weight, 𝑛𝑖 ​​代表splat朝向camera的法线, N 代表depth maps的归一化梯度,可以由下式计算:

Final Loss

最终的loss为:

其中第一项为rgb loss, 𝛼=100∼1000,𝛽=0.05。那么就是Normal Consistency的贡献量相对少些?

下面图例将2DGS与3DGS的数学模型放在一起对比,有助于更加直观的感受二者的区别~

至于从论文的实验来看,视觉效果好像是2DGS好不少,但是数值效果跟3DGS差不多~

代码测试

安装

git clone https://github.com/hbb1/2d-gaussian-splatting.git --recursive# if you have an environment used for 3dgs, use it
# if not, create a new environment
conda env create --file environment.yml
conda activate surfel_splatting

由于之前已经有3DGS的环境了,因此直接用原来的conda环境

conda activate 3DGS

但是运行的时候会报错,大几率是环境名字不一样,所以不能直接用3DGS的环境,重新安装2DGS的环境~

但是还是会报错如下:

看上去像是setuptools版本有问题。应该是由于安装的python包的环境不对?为此先把构建好的conda 环境remove掉。然后更新一下yaml文件如下

name: surfel_splatting
channels:- pytorch- nvidia- conda-forge- defaults
dependencies:- ffmpeg=4.2.2- pillow=10.2.0- pip=23.3.1- python=3.8.18- pytorch=2.0.0- torchaudio=2.0.0- torchvision=0.15.0- typing_extensions=4.9.0- setuptools=69.5.1- pip:- open3d==0.18.0- mediapy==1.1.2- lpips==0.1.4- scikit-image==0.21.0- tqdm==4.66.2- trimesh==4.3.2- submodules/diff-surfel-rasterization- submodules/simple-knn
conda remove --name surfel_splatting --all
conda env create --file environment.yml
conda activate surfel_splatting

配置成功

开启训练

conda activate surfel_splattingpython train.py -s <path to COLMAP or NeRF Synthetic dataset>#测试tandt数据集
python train.py -s /home/gwp/dataset/tandt/train -m output/tandt/train #验证
python render.py -s /home/gwp/dataset/tandt/train -m output/tandt/train --unbounded --skip_test --skip_train --mesh_res 1024

但是会报错No module named 'plyfile'

 pip install plyfile,然后再运行

又显示ModuleNotFoundError: No module named 'cv2'

安装

pip install opencv-python

终于可以了~~~~

先试试采用MobaXterm用SIBR_remoteGaussian_app来可视化,但是没有任何输出~(github issue中也提出了online SIBR viewer for 2dgs · Issue #17 · hbb1/2d-gaussian-splatting · GitHub)

因此,需要等待有模型保存后再运行下面命令

训练完后也有对应的模型输出了~

conda activate surfel_splatting#验证
python render.py -s /home/gwp/dataset/tandt/train -m output/tandt/train --unbounded --skip_test --skip_train --mesh_res 1024CUDA_VISIBLE_DEVICES=3 python render.py -s /home/gwp/dataset/tandt/train -m output/tandt/train --unbounded --skip_test --skip_train --mesh_res 1024CUDA_VISIBLE_DEVICES=3 python render.py -s /home/gwp/dataset/tandt/train -m output/tandt/train --skip_test --skip_train --mesh_res 1024

注意模型太大可能会爆掉内存,感觉这个可视化还是有点问题~(加载模型也很慢)

最终把渲染点云生成后再用gaussian-splatting-lightning来查看

python viewer.py TRAINING_OUTPUT_PATH在本次实验中为如下:conda activate gsplpython viewer.py /home/gwp/2d-gaussian-splatting/output/tandt/train/point_cloud/iteration_30000/point_cloud.ply

出来的不知道是什么鬼。。。

换个数据集再测试看看~

#测试chair数据集
python train.py -s /home/gwp/dataset/chair -m output/chair

后续把训练结果放上来~

代码解读

类似3DGS系列的博客,关于2DGS的代码解读后续会push到github仓库~

参考材料

2D Gaussian Splatting论文阅读笔记 - 知乎

更多关于3DGS的介绍及解读请见:

http://t.csdnimg.cn/ZwV2ricon-default.png?t=N7T8http://t.csdnimg.cn/ZwV2r

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/18474.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

企业级OV SSL证书的应用场景和加密手段

为了保护数据传输的安全性与用户隐私&#xff0c;企业级OVSSL&#xff08;Organization Validation SSL&#xff09;证书成为众多企业的首选安全解决方案。本文将深入探讨OVSSL证书的应用场景及其实现数据加密的核心手段&#xff0c;为企业构建坚不可摧的在线信任桥梁提供指南。…

YOLOv8+PyQt5车辆类型检测系统完整资源集合(yolov8模型,从图像、视频和摄像头三种路径识别检测,包含登陆页面、注册页面和检测页面)

资源包含可视化的车辆类型检测系统&#xff0c;基于最新的YOLOv8训练的车辆类型检测模型&#xff0c;和基于PyQt5制作的可视化车辆类型检测系统&#xff0c;包含登陆页面、注册页面和检测页面&#xff0c;该系统可自动检测和识别图片或视频当中出现的21种车辆类型&#xff0c;包…

语音控制系统的安全挑战与防御策略(上)

语音控制系统&#xff08;VCS&#xff09;提供了便捷的用户界面&#xff0c;涉及智能家居、自动驾驶汽车、智能客服等众多应用场景&#xff0c;已成为现代智能设备不可或缺的一部分。其市场规模预计到2023年达到70亿美元&#xff0c;这种扩张带来了重大的安全挑战&#xff0c;如…

基于ViutualBox+Ubuntu(Linux)的开发环境搭建

实际在选择虚拟机的时候纠结了要用virualbox还是vmware&#xff0c;初步比较结果&#xff1a; 1.virualbox能够使用vmware的硬盘格式&#xff0c;因此可以自由选择。 2.都能够实现主机和宿主机之间的文件夹共享。 3.virualbox是自由软件&#xff0c;vmware是商业软件。 在功能上…

【SCAU操作系统】实验二页面置换算法的模拟实现及命中率对比python源代码及实验报告参考

一、课程设计目的 通过请求页式管理方式中页面置换算法的模拟设计&#xff0c;了解虚拟存储技术的特点&#xff0c;掌握请 求页式存储管理中的页面置换算法。 二、课程设计内容 模拟实现 OPT &#xff08;最佳置换&#xff09;、 FIFO 和 LRU 算法&#xff0c;并计算缺页…

JUC从实战到源码:CompletableFuture详细学习

【JUC】- CompletableFuture详细学习 &#x1f604;生命不息&#xff0c;写作不止 &#x1f525; 继续踏上学习之路&#xff0c;学之分享笔记 &#x1f44a; 总有一天我也能像各位大佬一样 &#x1f3c6; 博客首页 怒放吧德德 To记录领地 &#x1f31d;分享学习心得&#xf…

读人工智能时代与人类未来笔记17_人类未来

1. 人类未来 1.1. 在印刷读物出现之前&#xff0c;中世纪的欧洲人主要通过社区传统获取知识 1.1.1. 通过参与收割和季节轮作积累民间智慧 1.1.2. 在礼拜场所践行信仰并遵守圣礼 1.1.3. 加入行业公会&#xff0c;学习技术&…

补环境——A股市场

补环境 吐环境 1.Proxy对象 Proxy对象由两个部分组成&#xff1a;target、handler target:目标对象 handler&#xff1a;是一个对象&#xff0c;声明了代理target的指定行为&#xff0c;支持的拦截操作&#xff0c;一共13种&#xff1a; get(target,propKey,receiver)&…

Java特性之设计模式【备忘录模式】

一、备忘录模式 概述 备忘录模式&#xff08;Memento Pattern&#xff09;保存一个对象的某个状态&#xff0c;以便在适当的时候恢复对象&#xff0c;备忘录模式属于行为型模式 备忘录模式允许在不破坏封装性的前提下&#xff0c;捕获和恢复对象的内部状态 主要解决&#xff…

【硬核测评】猫咪主食冻干测评揭秘SC、希喂、爱立方真实对比测评

主食冻干喂养是否必要&#xff1f; 来自七年经验的铲屎官明确告诉你&#xff0c;这是非常必要的喂养方式&#xff01; 随着宠物经济的蓬勃发展和科学养宠知识的普及&#xff0c;如今养猫已不仅仅是让猫咪吃饱那么简单。越来越多的养猫人开始重视猫咪的饮食健康。大量实际喂养案…

电脑如何远程访问?

【天联】的使用场景 电脑远程访问在现代科技的发展中扮演了重要的角色。对于企业和个人用户来说&#xff0c;远程访问的便利性提供了许多机会和可能性。作为一种高效的工具&#xff0c;【天联】具有广泛的应用场景&#xff0c;可以实现异地统一管理、协同办公以及远程数据采集…

【数据结构】AVL树——平衡二叉搜索树

个人主页&#xff1a;东洛的克莱斯韦克-CSDN博客 祝福语&#xff1a;愿你拥抱自由的风 目录 二叉搜索树 AVL树概述 平衡因子 旋转情况分类 左单旋 右单旋 左右双旋 右左双旋 AVL树节点设计 AVL树设计 详解单旋 左单旋 右单旋 详解双旋 左右双旋 平衡因子情况如…

阿里开源React应用动效解决方案:ant-motion

ant-motion&#xff1a;简化动效开发&#xff0c;提升用户体验 - 精选真开源&#xff0c;释放新价值。 概览 Ant Motion是由Ant Design团队精心打造&#xff0c;专为React应用设计的动画规范和组件库。它不仅仅是一套动画规范&#xff0c;更是一个完整的解决方案&#xff0c;旨…

C# yolov8 TensorRT Demo

C# yolov8 TensorRT Demo 目录 效果 说明 项目 代码 下载 效果 说明 环境 NVIDIA GeForce RTX 4060 Laptop GPU cuda12.1cudnn 8.8.1TensorRT-8.6.1.6 版本和我不一致的需要重新编译TensorRtExtern.dll&#xff0c;TensorRtExtern源码地址&#xff1a;https://githu…

2024年JAVA、C++、Pyhton学哪种语言更容易进国央企?

对于不同编程语言在进入国有企业的观点大体是正确的&#xff0c;不过在实际选择时还需考虑一些因素。我这里有一套编程入门教程&#xff0c;不仅包含了详细的视频讲解&#xff0c;项目实战。如果你渴望学习编程&#xff0c;不妨点个关注&#xff0c;给个评论222&#xff0c;私信…

【CSDN独家公开】Python解析.SchDoc格式文件转换为json文件

前情提要 因工作需求&#xff0c;需要解析.SchDoc格式文件&#xff0c;提取文本和位置关系&#xff0c;通常方式是转换为图片或PDF&#xff0c;再进行OCR&#xff0c;但是这样识别精度太低了 Github找了好些项目&#xff0c;都不支持 PyAltium不支持 https://github.com/plu…

apexcharts数据可视化之饼图

apexcharts数据可视化之饼图 有完整配套的Python后端代码。 本教程主要会介绍如下图形绘制方式&#xff1a; 基础饼图单色饼图图片饼图 基础饼图 import ApexChart from react-apexcharts;export function SimplePie() {// 数据序列const series [44, 55, 13, 43, 22]// …

APM2.8内置罗盘校准

如果你有外置罗盘&#xff0c;可以不用校准内置罗盘&#xff0c;可以忽略此文。推荐使用外置罗盘&#xff0c;内置罗盘容易受干扰。 使用内置罗盘需要插入飞控GPS接口旁边的跳线帽。如图&#xff1a; 如果要使用内置罗盘&#xff0c;而又加了GPS的&#xff0c;记得一定要把GPS…

【错误记录】HarmonyOS 运行报错 ( Failure INSTALL _PARSE _FAILED _USESDK _ERROR )

文章目录 一、报错信息二、问题分析三、解决方案 一、报错信息 在 DevEco Studio 中 , 使用 远程设备 , 向 P40 Failure[INSTALL_PARSE_FAILED_USESDK_ERROR] compileSdkVersion and releaseType of the app do not match the apiVersion and releaseType on the device. 二、…

SpringMVC枚举类型字段处理

在日常的项目开发中经常会遇到一些取值范围固定的字段&#xff0c;例如性别、证件类型、会员等级等&#xff0c;此时我们可以利用枚举来最大程度减少字段的乱定义&#xff0c;统一管理枚举的值。 SpringMVC中对于枚举也有默认的处理策略&#xff1a; 对于RequestParam&#xf…