Mamba3D革新3D点云分析:超越Transformer,提升本地特征提取效率与性能!

DeepVisionary 每日深度学习前沿科技推送&顶会论文分享,与你一起了解前沿深度学习信息!

Mamba3D革新3D点云分析:超越Transformer,提升本地特征提取效率与性能!

在这里插入图片描述

引言:3D点云分析的重要性与挑战

3D点云数据是现代许多应用领域中不可或缺的一部分,包括自动驾驶、虚拟现实(VR/AR)、机器人技术等。这些数据通常由3D扫描设备捕获,能够详细地描述物体的空间形状和外观。与传统的2D图像相比,3D点云能提供更加丰富和精确的空间信息,这使得它们在处理和分析三维物体时显示出独特的优势。

然而,点云数据的处理和分析也面临着一系列挑战。首先,点云数据通常是无序的,即点的存储顺序并不反映任何形式的实际空间关系,这与传统的像素排列的2D图像不同。其次,点云数据的复杂几何结构使得从中提取有用信息变得更加困难。此外,随着输入数据量的增加,许多基于深度学习的模型,尤其是基于Transformer的模型,会遇到计算复杂度急剧增加的问题。这些模型在处理大规模点云数据时,往往需要巨大的计算资源,且效率低下。

为了克服这些挑战,研究人员一直在探索更高效的模型架构。最近,基于状态空间模型(State Space Model, SSM)的Mamba模型显示出了处理长序列数据的潜力,其计算复杂度为线性,相比于Transformer模型具有明显优势。本文介绍的Mamba3D模型,是专为点云数据设计的,它不仅继承了Mamba模型的高效性,还通过引入局部规范池化(Local Norm Pooling, LNP)和双向SSM(Bidirectional-SSM)等技术,显著提高了对点云数据的处理能力和准确性。

论文标题: Enhancing Local Features for 3D Point Cloud Analysis via State Space Model

机构: Huazhong University of Science and Technology

论文链接: https://arxiv.org/pdf/2404.14966.pdf

项目地址: 未提供

通过对Mamba3D模型的深入分析和实验验证,我们展示了其在多个点云处理任务上相较于现有技术的优越性,特别是在从头开始训练时,在ScanObjectNN和ModelNet40分类任务上达到了新的状态艺术水平(State of the Art, SoTA),证明了其作为点云分析新基准的潜力。

Mamba3D模型概述

Mamba3D是一种专为3D点云学习设计的状态空间模型,它在处理无序点云数据时展现出卓越的性能和高效率。与传统的Transformer模型相比,Mamba3D通过其线性复杂度优势,能够处理更大规模的数据集,同时保持较低的参数数量和计算成本。

Mamba3D的设计灵感来源于Mamba模型,该模型是基于状态空间模型(SSM)的一种高效实现。Mamba模型通过引入选择机制,有效压缩上下文信息,使其能够处理长序列数据。然而,直接将Mamba模型应用于点云任务时,由于其递归/扫描模式导致的序列依赖性以及缺乏对局部几何特征的显式提取,其性能并不理想。

针对这些问题,Mamba3D引入了局部规范池化(Local Norm Pooling, LNP)块和双向SSM(Bidirectional-SSM, bi-SSM)技术,专门针对无序点的特点进行优化。这些技术的结合不仅提高了模型对局部几何特征的捕捉能力,还增强了全局特征的提取效率,使得Mamba3D在多个点云处理任务中取得了领先的性能。
在这里插入图片描述

Mamba3D的关键技术

1. 局部规范池化(LNP)

局部规范池化(LNP)是Mamba3D中的一个关键技术,它通过K-范数和K-池化操作来进行特征的传播和聚合。LNP块的设计简单但高效,只使用了0.3M的参数。在LNP块中,首先通过K最近邻(KNN)构建局部图,然后通过K-范数操作对邻居点的特征进行标准化和融合,最后通过K-池化操作将信息聚合回中心点,从而更新中心点的特征表示。

2. 双向状态空间模型(bi-SSM)

为了更好地捕捉全局特征,Mamba3D引入了双向状态空间模型(bi-SSM),包括一个正向的SSM(L+SSM)和一个新颖的反向SSM(C-SSM),后者在特征通道上操作。这种设计考虑到点云数据的无序性,通过对特征通道而非点令牌序列进行建模,减少了伪序依赖性,从而更有效地利用全局特征。

通过这些关键技术的应用,Mamba3D不仅在从头开始训练时表现出色,还能够配合多种预训练策略,进一步提升模型的性能和可扩展性。在多个基准测试中,Mamba3D均显示出优于当前最先进模型的性能,证明了其在处理大规模点云数据时的有效性和高效率。

在这里插入图片描述

预训练策略详解

在Mamba3D的开发过程中,预训练策略扮演了重要的角色,以提升模型在下游任务中的表现。本文详细介绍了两种预训练策略:Point-BERT和Point-MAE。

Point-BERT预训练策略:首先,我们随机遮盖55%至85%的输入点嵌入,这一遮盖比例高于Point-BERT原始的25%至45%。增加遮盖比例不仅可以加速训练过程,还能推动Mamba3D在有限输入下的特征学习能力。然后,Mamba3D编码器处理可见和遮盖的嵌入,生成一个标记序列。同时,我们直接使用Point-BERT预训练的dVAE权重来预测点嵌入的标记序列,作为标记指导。最后,我们计算编码器输出的标记序列与dVAE输出的标记序列之间的L1损失,作为损失函数。

Point-MAE预训练策略:遵循Point-MAE的方法,我们采用遮盖点建模方法,并直接重建被遮盖的点。我们使用一个编码器-解码器架构,其中编码器仅处理可见的标记并生成它们的编码。与Point-MAE不同的是,我们的解码器采用与编码器不同的架构,仅包含双向SSM(bi-SSM)块而不包含LNP块,这有助于加速收敛而不损失性能。编码的可见标记和被遮盖的标记被送入解码器以预测被遮盖的点。损失是使用Chamfer Distance计算输出和真实点之间的差异。在下游任务中,我们仅使用预训练的编码器来提取特征,并附加任务头进行微调。

实验验证与性能分析

为了全面评估Mamba3D的性能和表征学习能力,我们通过从头开始训练我们的模型以及使用两种不同的预训练策略进行了广泛的实验。

实验设置:我们在ScanObjectNN和ModelNet40数据集上进行了对象分类实验。ScanObjectNN数据集包含约15K个从真实世界扫描的带有杂乱背景的对象。我们使用其三个变体:OBJ_BG、OBJ_ONLY和PB_T50_RS,并采用旋转作为数据增强。ModelNet40数据集包括约12K个合成3D CAD模型,我们使用1024个点作为输入,并应用缩放和平移进行数据增强。

性能分析:在从头开始训练时,Mamba3D在ScanObjectNN的PB_T50_RS变体上达到了91.81%的整体准确率(OA),并在投票后达到92.64%,超过了SoTA模型DeLA的90.4%。与Transformer相比,Mamba3D的OA提高了+15.40%,参数和FLOPs分别减少了24%和19%。在ModelNet40数据集上,Mamba3D比Transformer高出+2.7%。使用Point-BERT预训练策略后,Mamba3D在ScanObjectNN上超过Point-BERT +4.51%,在ModelNet40上超过+1.2%。使用Point-MAE策略,Mamba3D在ModelNet40上达到了95.1%的OA,为单模态预训练模型设定了新的SoTA。在ScanObjectNN数据集上,Mamba3D比使用OcCo的Transformer高出+10.2%,比Point-MAE高出+3.8%。
在这里插入图片描述

这些结果突出显示了Mamba3D在各种设置中的优越性,超越了现有的专用架构和基于Transformer或Mamba的模型,实现了多个SoTA,展示了其跨不同设置的强大实力。

模型的局限性与未来方向

尽管Mamba3D在多个3D点云任务中取得了优异的表现,但仍存在一些局限性和未来的发展方向。首先,Mamba3D的预训练效果并不如Transformer模型稳健,这可能是由于其循环模型特性不适合处理掩码点建模任务。未来的研究可以探索更适合Mamba3D的预训练策略,以进一步提升模型的泛化能力和效率。

其次,虽然Mamba3D通过双向状态空间模型(bi-SSM)和局部规范池化(LNP)块有效地处理了无序点云数据,但如何更好地整合和优化这些结构以处理更大规模的数据集,仍是一个值得探讨的问题。此外,Mamba3D在处理特定任务时可能还需要针对性的调整和优化,以适应不同的应用场景。

最后,随着3D点云数据的应用越来越广泛,如何设计更加高效且能够处理超大规模点云数据的模型,也是未来研究的一个重要方向。这包括但不限于改进模型的计算效率、减少参数数量、以及提高模型的可扩展性和鲁棒性。

总结

Mamba3D作为一种基于状态空间模型的新型点云学习架构,通过引入局部规范池化(LNP)和双向状态空间模型(bi-SSM),有效地提升了对3D点云的局部和全局特征提取能力。相较于基于Transformer的模型,Mamba3D不仅在多个标准数据集上设定了新的最佳表现,还显著降低了模型的参数量和计算复杂度。

通过广泛的实验验证,Mamba3D展示了其在从头开始训练以及使用预训练策略时的优越性能。尤其是在模型净化和部分分割任务中,Mamba3D都表现出了卓越的性能和高效的信息处理能力。未来,我们期望Mamba3D能够在处理大规模点云模型方面取得更进一步的突破,并在多种3D点云应用场景中发挥重要作用。同时,针对现有模型的局限性,我们将探索更加有效的预训练策略和模型优化方法,以充分利用Mamba3D在线性复杂度下的性能优势。

关注DeepVisionary 了解更多深度学习前沿科技信息&顶会论文分享!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/831428.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

软件工程毕业设计选题100例

文章目录 0 简介1 如何选题2 最新软件工程毕设选题3 最后 0 简介 学长搜集分享最新的软件工程业专业毕设选题,难度适中,适合作为毕业设计,大家参考。 学长整理的题目标准: 相对容易工作量达标题目新颖 1 如何选题 最近非常多的…

ubuntu ros noetic 编译 ORB_SLAM2 过程记录

1. 连接 eigen库 sudo ln -s /usr/include/eigen3/Eigen /usr/include/Eigen 2. opencvx 修改 CMakeList.txt 中的 find_package open cv版本 修改 include/orbExtracter.h 文件为&#xff1a; //#include <opencv2/opencv.hpp> #include<opencv2/imgproc/imgpro…

【深入浅出MySQL】「性能调优」高性能查询优化MySQL的SQL语句编写

高性能查询优化MySQL的SQL语句编写准则这里写目录标题 总体优化大纲&#xff08;1&#xff09;优化查询性能&#xff1a;通过索引降低全表扫描频率优化方向案例介绍问题分析解决方案建立复合索引建立单独索引 &#xff08;2&#xff09;优化数据表与查询&#xff1a;合理使用非…

【C语言的完结】:最后的测试题

看到这句话的时候证明&#xff1a; 此刻你我都在努力~ 个人主页&#xff1a; Gu Gu Study ​​ 专栏&#xff1a;语言的起点-----C语言 喜欢的一句话&#xff1a; 常常会回顾努力的自己&#xff0c;所以要为自己的努力留下足迹…

PZK via OWF

参考文献&#xff1a; [SMP88] Santis A, Micali S, Persiano G. Non-Interactive Zero-Knowledge with Preprocessing[C]//Advances in Cryptology—CRYPTO’88.[LS90] Lapidot D, Shamir A. Publicly verifiable non-interactive zero-knowledge proofs[C]//Advances in Cry…

解决WordPress无法强制转换https问题

原因&#xff1a;我在用cs的时候&#xff0c;突然老鸟校园网突然断了&#xff0c;客户端cs连不上了&#xff0c;进程也杀不死&#xff0c;cpu占用100%&#xff0c;只能重启&#xff0c;但是重启后我的blog网站打不开了 开始以为是Nginx的问题&#xff0c;重启它说配置出了问题…

python学习笔记B-14:序列结构之元组--元组的访问与遍历

下面是几种元组的方位与遍历方法&#xff1a; t ("hello","python","world") print("原元组",t) print("t[1]",t[1]) print("t[0:3:2]",t[0:3:2]) #切片操作&#xff0c;从索引值0到索引值为2&#xff0c;步长为…

利用大语言模型(KIMI)构建智能产品的控制信息模型

数字化的核心是数字化建模&#xff0c;为一个事物构建数字模型是一项十分复杂的工作。不同的应用场景&#xff0c;对事物的关注重点的不同的。例如&#xff0c;对于一个智能传感器而言&#xff0c;从商业的角度看&#xff0c;产品的信息模型中应该包括产品的类型&#xff0c;名…

修改Ubuntu远程登录欢迎提示信息

无论何时登录公司的某些生产系统&#xff0c;你都会看到一些登录消息、警告或关于你已登录服务器的信息&#xff0c;如下所示。 修改方式 1.打开ubuntu终端,进入到/etc/update-motd.d目录下面 可以发现目录中的文件都是shell脚本, 用户登录时服务器会自动加载这个目录中的文件…

ThreeJS:坐标辅助器与轨道控制器

ThreeJS与右手坐标系 使用ThreeJS创建3D场景时&#xff0c;需要使用一个坐标系来定位和控制对象的位置和方向。 ThreeJS使用的坐标系是右手坐标系&#xff0c;即&#xff1a;X轴向右、Y轴向上、Z轴向前&#xff0c;如下图所示&#xff0c; ThreeJS-右手坐标系 Tips&#xff1a;…

【C++】命名冲突了怎么办?命名空间来解决你的烦恼!!!C++不同于C的命名方式——带你认识C++的命名空间

命名空间 导读一、什么是C?二、C的发展三、命名空间3.1 C语言中的重名冲突3.2 什么是命名空间&#xff1f;3.3 命名空间的定义3.4 命名空间的使用环境3.5 ::——作用域限定符3.6 命名空间的使用方法3.6.1 通过作用域限定符来指定作用域3.6.2 通过关键字using和关键字namespace…

云服务器+ASF实现全天挂卡挂时长

目录 前言正文1.安装下载2.编辑配置文件3.设置Steam社区证书4.启动ASF5.给游戏挂时长6.进阶-ASF自动启动且后台保活 前言 我遇到的最大的问题是&#xff0c;网络问题 其实不然&#xff0c;各大厂商的云服务器后台都有流量监控&#xff0c;意味着依靠一般方法是不能正常访问St…

变量内存和存储单位

基本数据类型及其占位符 存储单位 内存中的数据存储单元是由一个一个的二进制组成的&#xff0c;每个二进制只能存储0 和1 科学家为了更加方便存储更多的数据&#xff0c;把内存中8个二进制分为一组&#xff0c;叫做一个字节&#xff0c;Byte字节是最小的存储单位。(重点⭐⭐⭐…

聚焦Spring后置处理器分析对比

目录 一、理解Spring后置处理器 二、Spring后置处理器在IOC容器和bean对象生命周期的切入时机分析 &#xff08;一&#xff09;IOC 容器生命周期中的切入时机 &#xff08;二&#xff09;Bean 对象生命周期中的切入时机 三、BeanPostProcessor后置器分析 &#xff08;一&…

OpenCV(三)—— 车牌筛选

本篇文章要介绍如何对从候选车牌中选出最终进行字符识别的车牌。 无论是通过 Sobel 还是 HSV 计算出的候选车牌都可能不止一个&#xff0c;需要对它们进行评分&#xff0c;选出最终要进行识别的车牌。这个过程中会用到两个理论知识&#xff1a;支持向量机和 HOG 特征。 1、支…

Redis__事务

文章目录 &#x1f60a; 作者&#xff1a;Lion J &#x1f496; 主页&#xff1a; https://blog.csdn.net/weixin_69252724 &#x1f389; 主题&#xff1a;Redis__事务 ⏱️ 创作时间&#xff1a;2024年05月02日 ———————————————— 这里写目录标题 文章目…

SSM+Vue在线OA办公系统

在线办公分三个用户登录&#xff0c;管理员&#xff0c;经理&#xff0c;员工。 SSM架构&#xff0c;maven管理工具&#xff0c;数据库Mysql&#xff0c;系统有文档&#xff0c;可有偿安装调试及讲解&#xff0c;项目保证质量。需要划到 最底 下可以联系到我。 功能如下&am…

蓝桥杯练习系统(算法训练)ALGO-950 逆序数奇偶

资源限制 内存限制&#xff1a;256.0MB C/C时间限制&#xff1a;1.0s Java时间限制&#xff1a;3.0s Python时间限制&#xff1a;5.0s 问题描述 老虎moreD是一个勤于思考的青年&#xff0c;线性代数行列式时&#xff0c;其定义中提到了逆序数这一概念。不过众所周知我们…

nginx--location详细使用和账户认证

在没有使用正则表达式的时候&#xff0c;nginx会先在server中的多个location选取匹配度最高的一个uri&#xff0c;uri是用户请求的字符串&#xff0c;即域名后面的web文件路径&#xff0c;然后使用该location模块中的正则url和字符串串&#xff0c;如果匹配成功就结束搜索&…

C语言----贪吃蛇(补充)

各位看官好&#xff0c;我想大家应该已经看过鄙人的上一篇博客贪吃蛇了吧。鄙人在上一篇博客中只是着重的写了贪吃蛇的实现代码&#xff0c;但是前期的一些知识还没有具体的介绍&#xff0c;比如确认光标位置&#xff0c;句柄等。那么我这一篇博客就来补充上一篇博客所留下来的…