3D Gaussian Splatting介绍

目录

    • 一、概述
    • 二、基础介绍
    • 三、整体流程
    • 四、 伪代码
    • 五、评价指标
    • 六、实验结果
    • 七、reference

一、概述

3D Gaussian Splatting和NeRF一样,主要用于新视图合成。
特点:

  • 使用光栅化渲染方式,而不是NeRF的基于射线的体渲染(volumetric rendering along a ray)
  • 使用多个3D高斯球显示的表达场景
  • 训练推理速度快的同时保证质量高
  • 本质上是一个优化问题,没有使用神经网络

二、基础介绍

1. 多维高斯分布

Gaussians are defined by a full 3D covariance matrix Σ defined in world space centered at point (mean) μ \mu μ
在这里插入图片描述

进行了一定简化,我们回顾一下原始形式,若随机变量服从 X ∼ N ( μ , σ 2 ) X\sim N(\mu ,\sigma^2) XN(μ,σ2),则有如下的概率密度函数
Alt
对应到多元,就是下面的形式,

高斯分布的协方差Σ 是正定矩阵,一定可以进行对角化,因此可以分解成如下形式
在这里插入图片描述
R通过四元数表示,4个参数,S为对角矩阵,3个参数,所以协方差一共7个参数

2. 将3D 高斯投影到2D像素平面

y = p c = W w c p w + t w c y=p_c = W^c_w p_w+t^c_w y=pc=Wwcpw+twc
线性变换,依然符合高斯分布
Σ p c = W Σ p w W T \Sigma_{p_c} = W\Sigma_{p_w}W^T Σpc=WΣpwWT
从相机坐标系变换到像素坐标系:
z = [ z x z y 1 ] = ( 1 / p c z ) [ f x 0 c x 0 f y c y 0 0 1 ] [ p c x p c y p c z ] z = \begin{bmatrix} z_x\\ z_y\\ 1 \end{bmatrix}=(1/p_c^z)\begin{bmatrix} fx& 0& cx& \\ 0& fy& cy& \\ 0& 0& 1& \end{bmatrix} \begin{bmatrix} p_c^x\\ p_c^y\\ p_c^z \end{bmatrix} z= zxzy1 =(1/pcz) fx000fy0cxcy1 pcxpcypcz
这个变换是非线性的,需要进行一阶泰勒展开, z = F ( p c ) ≈ F ( μ y ) + J ( y − μ y ) z=F(p_c)\approx F(\mu _y)+ J(y-\mu_y) z=F(pc)F(μy)+J(yμy),进而得到协方差变换为:
Σ z = J Σ p c J T = J W Σ p w W T J T \Sigma _z=J\Sigma _{p_c}J^T=JW\Sigma _{p_w}W^TJ^T Σz=JΣpcJT=JWΣpwWTJT
均值如下:
μ z = F ( μ y ) = F ( W μ p w c + t ) \mu_z = F(\mu^y)=F(W\mu_{p_w^c}+t) μz=F(μy)=F(Wμpwc+t)

3. 球谐函数
  • 球谐函数用于表达空间中某点的光照模型(NeRF通过MLP来建模光照模型,输入(x,y,z,theta,phi)-> MLP->颜色C)
  • 光照函数 C ( θ , ϕ ) C(\theta, \phi) C(θ,ϕ)可以表示为球谐函数的加权线性组合,如下,某一个位置高斯球的函数,输入为角度,输出为这个角度的颜色
    在这里插入图片描述
    其中:
    在这里插入图片描述
  • m由J决定,如J=3, m=-3,-2,-1,0,1,2,3, J =2 m = -2,-1,0,1,2 , 对应7+5+3+1=16个球谐函数,所以有16个系数c,RGB分别对应一个球谐函数线性组合,所以光照模型一共16*3=48个参数,这些参数就是需要优化的变量。
  • 输入 ( θ , ϕ ) (\theta, \phi) (θ,ϕ),确定J,那么球谐函数就是固定的,如下,带入 ( θ , ϕ ) (\theta, \phi) (θ,ϕ),那么球谐函数就是一个个实数
    在这里插入图片描述
    带入J,化简之后:
    在这里插入图片描述
    其他如下图所示
    在这里插入图片描述
    实际使用时,不用 ( θ , ϕ ) (\theta, \phi) (θ,ϕ),而是使用方向向量d = (x,y,z)(模长为1),转换如下图所示,这样就可以把上面球谐函数表示为关于x,y,z的函数。
    在这里插入图片描述

NeRF通过MLP确定光照模型,这里是通过球谐函数确定光照模型,每个高斯球48个参数,估计出来就能知道这个高斯球的光照模型。

注:也可以理解为一种朝向编码方法,NeRF中姿态会进行编码,这种编码方式可以替换为球谐函数,更有物理意义。

4. Splatting and α \alpha α blending

Splatting是一种光栅化(Rasterize)3D对象的方法,即将3D对象投影到2D图形。如将3D高斯球(也可以是其他图形)往像素平面扔雪球,在像素平面的能量从中心向外扩散并减弱。该过程可以方便的并行处理。一会可以看到,这对应后面的projection过程,即把3D高斯球投影到2D图像上的过程。
α \alpha α blending介绍
光栅化之后怎么混合这些像素平面的椭球呢?使用 α \alpha α blending,主要解决图层融合的问题。
以两幅图像为例,图像 I 1 I_1 I1透明度为KaTeX parse error: Undefined control sequence: \lapha at position 1: \̲l̲a̲p̲h̲a̲_1,图像 I b k I_{bk} Ibk为背景,融合公式如下:
I r e s u l t = I 1 ∗ α 1 + I B K ∗ ( 1 − α 1 ) I_{result} = I_1 * \alpha_1 + I_{BK}*(1-\alpha_1) Iresult=I1α1+IBK(1α1)
在这里插入图片描述

扩展到多张图,按照深度由近到远排序四张图,融合公式如下: I B K I_{BK} IBK先和 I 3 I_3 I3融合,再和 I 2 I_2 I2, I 1 I_1 I1
在这里插入图片描述
I B K I_{BK} IBK为0,则可以写成
在这里插入图片描述
这就是 α \alpha α blending 公式了。

接下来说一下 α \alpha α blending和NeRF体渲染的区别:
体渲染公式如下:
在这里插入图片描述
在这里插入图片描述
公式相同,虽然公式相同,但实现上区别比较大,应用方式也不一样。

三、整体流程

在这里插入图片描述
场景表达通过很多个高斯球来实现,如下图所示,每个高斯球对应59个参数。
在这里插入图片描述
其中决定一个高斯球需要59个系数来表达,这些也是优化问题要求解的状态:

  • 中心位置:3dof
  • 协方差矩阵:7dof
  • 透明度:1dof
  • 球谐系数:48 dof(J = 3,16 * 3)

整体流程

1)Initialization: 输入为3D点云,可以 通过colmap得到,(NeRF也会用到colmap,使用位姿), 基于这些点云初始化高斯球,每个点云位置放置一个高斯球,中心点位置设置为点云位置,其他随机初始化
2) Projection: 根据相机内外参数(图像位姿),把高斯球splatting到图像上–把能看到99%的所有高斯球投影到图像上(参考“将3D 高斯投影到2D像素平面”)使用下面3个公式
在这里插入图片描述

3)Differentiable Tile Rasterizer:在投影重叠区域进行光栅化渲染(Differentiable Tile Rasterizer),使用 α \alpha α blending,这是确定的函数,不需要学习。把这些高斯球进行混合,过程可微,公式就是:
在这里插入图片描述
4)与gt计算loss,更新每个高斯球的59维系数
在这里插入图片描述
损失函数为:

在这里插入图片描述
其中:

  • L1 loss:基于逐像素比较差异,然后取绝对值
    在这里插入图片描述
  • SSIM loss(结构相似)损失函数:考虑了亮度 (luminance)、对比度 (contrast) 和结构 (structure)指标,这就考虑了人类视觉感知,一般而言,SSIM得到的结果会比L1,L2的结果更有细节,SSIM 的取值范围为 -1 到 1,1 表示两幅图像完全一样,-1 表示两幅图像差异最大。
    在这里插入图片描述
def _ssim(img1, img2, window, window_size, channel, size_average=True):mu1 = F.conv2d(img1, window, padding=window_size // 2, groups=channel)mu2 = F.conv2d(img2, window, padding=window_size // 2, groups=channel)mu1_sq = mu1.pow(2)mu2_sq = mu2.pow(2)mu1_mu2 = mu1 * mu2sigma1_sq = F.conv2d(img1 * img1, window, padding=window_size // 2, groups=channel) - mu1_sqsigma2_sq = F.conv2d(img2 * img2, window, padding=window_size // 2, groups=channel) - mu2_sqsigma12 = F.conv2d(img1 * img2, window, padding=window_size // 2, groups=channel) - mu1_mu2C1 = 0.01 ** 2C2 = 0.03 ** 2ssim_map = ((2 * mu1_mu2 + C1) * (2 * sigma12 + C2)) / ((mu1_sq + mu2_sq + C1) * (sigma1_sq + sigma2_sq + C2))if size_average:return ssim_map.mean()else:return ssim_map.mean(1).mean(1).mean(1)

参考论文:Loss Functions for Image Restoration with Neural Networks(ref)
参考链接:wiki

5)梯度回传

  • 更新每个高斯球的属性(59维系数)-这是个优化问题
    在这里插入图片描述
  • Adaptive Density Control:根据梯度实现3D高斯球的clone和split,具体而言
  1. 学习过程中,较大梯度(59维导数,模长大)的高斯球存在under-reconstruction和over-reconstruction问题
  2. under-reconstruction区域的高斯球方差小,进行clone
  3. over-reconstruction区域高斯球方差大,进行split
    在这里插入图片描述
  4. 每经过固定次数的迭代进行一次剔除操作,剔除几乎透明(透明度接近0)的高斯球以及方差过大的高斯球

四、 伪代码

在这里插入图片描述
对应colmap输入点云,内部处理流程:
在这里插入图片描述
rasterization pipeline:
在这里插入图片描述

  1. cull some 3D gaussian, 99%必须投影到当前图像,才有效
    2)都投影到图像
    3)把图像分成很多tile,并行处理
    4)建立索引和tile的对应关系,每个tile的深度值存在key里面
    5)key排序
    6)逐个tile渲染
    注意:rasterzation时,每个高斯球投影到image时,透明度也需要从中心点开始递减,根据概率衰减

五、评价指标

PSNR (Peak Signal-to-Noise Ratio) 峰值信噪比是一种评估图像质量的常用指标,主要用于衡量原始图像和压缩或重构后的图像之间的质量差异。

  • PSNR 是基于预测错误的均方值来定义的,公式为:
  • 在这里插入图片描述

其中,MAX_I 是图像可能的最大像素值(对于8位图像来说,值为255),MSE 是均方误差,计算公式为:

  • MSE = (1/mn) ΣΣ[(I(i,j)-K(i,j))^2] (i=1:m, j=1:n)

其中,I(i,j) 和 K(i,j) 分别是在位置 (i,j) 的原始图像和重构后的图像单元像素的亮度值,‘m’ 和 ‘n’ 分别是图像的行数和列数。
PSNR 的取值范围是 0到无穷大,单位是 dB(分贝)。PSNR 值越大,说明重构图像质量越高。但需要注意的是,PSNR 只是一个粗略的图像质量度量指标,有时候 PSNR 很高的两幅图像,人眼可能会觉得差异很大;反之,PSNR 很低的两幅图像,人眼可能觉得差异不大。

六、实验结果

训练速度快,和instant NGP相当,效果更好。推理速度135fps,很快,训练时间增长51min,效果比Mip-NeRF360更好,因为有更多高斯球,所以推理速度慢一点,但也有93fps.
在这里插入图片描述

七、reference

多元高斯分布介绍
深蓝学院课程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/2056.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

三相电子式电表ADL400储能防逆流含CE/MID认证

安科瑞薛瑶瑶18701709087/17343930412 ADL400 导轨式多功能电能表,是主要针对电力系统,工矿企业,公用设施的电能统计、 管理需求而设计的一款智能仪表,产品具有精度高、体积小、安装方便等优点。集成 常见 电 力参数测量及电能…

Ozone V3.32a使用总结

目录 前言 Ozone介绍 Ozone下载使用 总结 前言 由于项目需要,现在正在使用Ozone作为软件debug的工具,不同于Keil集成了代码编辑器,编译器,调试器,Ozone则主要作为一个代码调试工具使用。最近发现Ozone还有些功能挺…

vue项目打包时因为图片问题报错

执行 npm run build命令打包项目时报错,看起来是图片的问题: package.json里面image-webpack-loader的版本是^7.0.1 解决方案: 1、先卸载 npm uninstall image-webpack-loader 2、用cnpm重新安装 cnpm install image-webpack-loader --save…

PLSQL程序块中的无名块

文章目录 PLsql ---过程化语言程序块:无名块变量利用 select into 语句给变量赋值 打印输出手动输入变量类型引用型变量类型%TYPE%ROWTYPE 记录型变量类型 在程序块下的增删改RETURNING INTO增加数据修改数据删除数据 PLsql —过程化语言 程序块 plsql是Oracle默认…

单细胞+RIP-seq项目文章| Cell ReportshnRNPU蛋白在小鼠精原干细胞池建立的关键作用

精原干细胞(SSCs)是负责精子发生的干细胞,具有自我更新和分化产生功能性精子的能力。SSCs的持续再生对于维持雄性生育力至关重要。然而,SSC池的发育起源尚不清楚。在哺乳动物中,SSCs源自名为 prospermatogonia&#xf…

Android Studio开发工具学习之Git远程仓库拉取与推送

Git远程仓库操作 1.1 推送项目到远端服务器1.1.1 进入Gitee或Github、创建一个新的仓库1.1.2 将Android Studio中项目推送至Gitee 1.2 从远端服务器拉取项目1.2.1 AS工程页拉取新项目1.2.2 AS启动页拉取项目 1.1 推送项目到远端服务器 1.1.1 进入Gitee或Github、创建一个新的仓…

微服务两种方式登录

目录 1.restTemplate方式 1.1页面 1.2消费者 1.3生产者 1.4效果 2.Feign方式 2.1Service 2.2生产者 三个生产者 一个消费者,三个生产者需要用mysqlmybatis 三个不同的数据库。 页面输入用户名和密码,提交到后端消费者,消费者传到生产…

RabbitMQ入门实战

文章目录 RabbitMQ入门实战基本概念安装快速入门单向发送多消费者 RabbitMQ入门实战 官方:https://www.rabbitmq.com 基本概念 AMQP协议:https://www.rabbitmq.com/tutorials/amqp-concepts.html 定义:高级信息队列协议(Advanc…

让流程图动起来

我们平时画流程,然后贴到文档,就完事了。但是过程演示的时候,如果只是一张静态图,很难吸引到听众的注意力,表达效果并不太好。常用的方法是可以用PPT进行动态演示,做PPT也是需要花一些时间,同时…

7、OpenCompass 大模型评测实战

0、为什么要研究大模型的评测? 首先,研究评测对于我们全面了解大型语言模型的优势和限制至关重要。尽管许多研究表明大型语言模型在多个通用任务上已经达到或超越了人类水平,但仍然存在质疑,即这些模型的能力是否只是对训练数据的…

【数据结构(邓俊辉)学习笔记】向量01——接口与实现

文章目录 0.意图1、概述2 从数组到向量3 向量ADT接口4 Vector 模板类5 构造与析构5.1默认构造方法5.2基于复制的构造方法5.3 析构方法 0.意图 一方面是将工作学习中零星的知识点串起来,另一方面向量是其他数据类型的基础,比如栈队列等,所以基…

分享4张亚马逊云科技AWS免费云开发和AI证书(有答案)

今天给大家带来特别福利,一口气带来亚马逊云科技AWS4张免费云开发/AI证书(有Credly徽章,有答案),这四门都是云开发相关的硬核知识,含金量极高。 主要考察如何用AWS AI服务进行开发、以及当下热门的云原生改造,16道题80…

Skill Check: Build an LLM Application using OCI Generative AI Service

Skill Check: Build an LLM Application using OCI Generative AI Service

基于模糊控制的电动汽车锂电池SOC主动均衡电路MATLAB仿真模型

微❤关注“电气仔推送”获得资料(专享优惠) 模型简介 模型在 Matlab/Simulink仿真平台中搭建16节电芯锂电池电路模型,主要针对电动车锂电池组SOC差异性,采用模糊控制算法动态调节均衡电流,以减少均衡时间和能量损耗。…

Python全栈开发前端与后端的完美融合

👽发现宝藏 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。 在当今互联网时代,全栈开发已经成为了一种趋势。全栈开发者具备前端和后端开发的…

java Web-Spring AOP

AOP的概念 AOP:面向切面编程,面向方法编程。简单理解就是对特定方法的扩充的思想 例如我们要在特定方法进行方法的执行时间判断,我们假如去使用在每个方法去进行业务逻辑扩充,这样就太繁琐了,而使用AOP就可以简化操作。Spring A…

Pytorch 学习路程 - 1:入门

目录 下载Pytorch 入门尝试 几种常见的Tensor Scalar Vector Matrix AutoGrad机制 线性回归尝试 使用hub模块 Pytorch是重要的人工智能深度学习框架。既然已经点进来,我们就详细的介绍一下啥是Pytorch PyTorch 希望将其代替 Numpy 来利用 GPUs 的威力&…

.net6项目模板搭建教程

1.集成log4net 安装如下扩展依赖即可,已经包含了log4net依赖: Microsoft.Extensions.Logging.Log4Net.AspNetCore 添加日志配置文件: 日志配置文件属性设置为始终复制: 注入服务: #region 注入log4net日志服务build…

一年期免费SSL证书正在消失?这里还有

在数字化时代,数据安全与隐私保护的重要性不言而喻。SSL(Secure Sockets Layer)证书作为保障互联网通信安全的关键工具,其有效期一直是业界关注的焦点。近年来,我们见证了免费一年期SSL证书向三个月有效期的转变&#…

win11右键默认显示更多选项

目录 方法一:使用 Shift 键加右键单击方法二:修改注册表方法三:运行命令重启打开命令行恢复win10右键恢复win11右键 在 Windows 11 中,右键单击某个文件或文件夹时,默认情况下可能会显示较少的选项。如果您希望在右键菜…