AAAI2025:这也能融合?巧用多坐标系融合策略,PC-BEV实现点云分割170倍加速,精度显著提升!

引言:本文提出了一种基于鸟瞰图(BEV)空间的激光雷达点云分割方法,该方法通过融合极坐标和笛卡尔分区策略,实现了快速且高效的特征融合。该方法利用固定网格对应关系,避免了传统点云交互中的计算瓶颈,并通过混合Transformer-CNN架构增强了场景理解能力。实验结果证明,该方法在性能和推理速度方面均优于现有的多视图融合技术。

©️【深蓝AI】编译

论文标题:PC-BEV: An Efficient Polar-Cartesian BEV Fusion Framework for LiDAR Semantic Segmentation

论文作者:Shoumeng Qiu, Xinrun Li, Xiangyang Xue, Jian Pu

论文链接:https://arxiv.org/pdf/2412.14821

1、背景介绍

激光雷达点云分割是自动驾驶领域的核心任务,其目标在于精细地理解周围环境的语义信息。目前,该领域的方法主要分为三类:基于点的方法、基于体素的方法和基于投影的方法。

其中,基于投影的方法因其能够利用2D卷积神经网络(CNN)高效处理投影点云而受到青睐。但是,相比于计算量大的基于体素方法,从3D到2D的投影过程中不可避免地丢失信息,这限制了这种算法的性能。

为了缩小这一性能差距,多视图融合技术应运而生,通过整合不同投影技术捕获的互补信息。近期的多视图融合方法,如AMVNet、GFNet和CPGNet,通过基于点的特征交互增强了表示学习。

然而,由于缺乏视图间的固定对应关系,这些方法需要进行高成本的网格采样和散射操作,影响了实时性能。此外,特征融合通常仅限于点存在的区域,可能会忽略周围区域中有价值的上下文信息。

▲图1 | 与其他基于投影的方法比较,结果展示了本文方法在性能和速度方面的优越性。©️【深蓝AI】编译

2、方法提出

为了克服这些限制,作者提出了一种创新的多分区特征融合框架,完全在BEV空间内操作,充分利用了极坐标和笛卡尔分区方案之间的固定对应关系。该方法受到BEV中极坐标分区与范围视图中球坐标分区相似性的启发,并且实验表明不同分区方法的性能具有互补性。

为了促进极坐标和笛卡尔分支之间的特征融合,作者引入了一种高效且有效的基于重映射的融合方法。利用极坐标和笛卡尔空间分区在相同BEV空间内固有的固定坐标对应关系,预先计算对应参数,再通过精心设计的重映射操作实现高效特征融合。这种方法比以往的基于点的特征交互方法快170倍。此外,所有的特征融合在BEV空间位置操作,不仅实现了密集融合,还保留了比以往基于点的方法更多的宝贵上下文信息。

作者还提出了一种混合Transformer-CNN架构,用于BEV特征提取。Transformer块中的自注意力捕获全局场景信息,然后是一个轻量级的U-net样式CNN用于详细特征提取。实验结果表明,这种架构在保持实时推理能力的同时增强了模型性能。

▲图2 | 极坐标-笛卡尔BEV融合框架用于3D点云语义分割任务的流程图。©️【深蓝AI】编译

3、方法详解

3.1. 极坐标-笛卡尔BEV融合框架

作者提出的极坐标-笛卡尔BEV融合框架用于激光雷达语义分割的概述如图2所示。它包括两个分支:笛卡尔分支和极坐标分支。给定一个点云P = \{p_0, p_1, \ldots, p_{N-1}\},由N个激光雷达点p_i = \{x_i, y_i, z_i, r_i\}组成,其中\{x_i, y_i, z_i\}是相对于扫描仪的笛卡尔坐标,r_i是返回激光束的强度。

作者对BEV投影应用两种不同的分区策略:笛卡尔和极坐标。点云仅沿x和y轴进行量化,以实现高效的2D基础特征提取。对于点云P,点首先通过简化的PointNet进行编码,该PointNet仅由全连接层、批量归一化和ReLU层组成。随后,提取的特征被重新散射回BEV空间,分别表示为F_{\text{cart}}F_{\text{polar}}。作者使用两个具有相同结构但不同参数的网络执行特征提取。这两个分支的特征在过程中进行双向交互,包括特征对齐和融合,最终预测结果也从这两个分支的融合中得出。每个分支的特征提取网络是本文提出的Transformer-CNN混合架构,包括两个标准Transformer块和一个CNN网络。

在两个分支之间的双向特征交互之前,首先对两个分支的特征执行空间对齐。具体来说,假设F_{\text{polar}}F_{\text{cart}}分别来自极坐标和笛卡尔分支,作者使用极坐标到笛卡尔和笛卡尔到极坐标的重映射操作来对齐不同分区策略下的空间特征。

\hat{F}_{\text{cart}} = \text{PolarToCart}(F_{\text{polar}}),

\hat{F}_{\text{polar}} = \text{CartToPolar}(F_{\text{cart}}),

其中\text{PolarToCart}(\cdot)\text{CartToPolar}(\cdot)分别指从极坐标空间到笛卡尔空间和从笛卡尔空间到极坐标空间的重映射。重映射操作的详细信息将在特征融合通过重映射小节中说明。对于特征融合,作者采用常用的连接操作。例如,当将极坐标分支的特征融合到笛卡尔分支时,作者首先将空间变换特征F'_{\text{cart}}F_{\text{cart}}连接起来。然后,使用简单的卷积操作将特征的通道大小减少到原始大小。融合过程可以表示为:

F_{\text{fusion, cart}} = \text{MLPfusion}(\text{Concat}(\hat{F}_{\text{cart}}, F_{\text{cart}}))

对于最终的语义预测,由于本方法的目标是为场景中的每个点提供语义预测,因此需要获取每个点在投影空间中用于类别预测的特征。对于从不同分支提取了特征,以前方法中的常见做法是通过网格采样(GS)操作检索每个点的相应特征。然后从不同分支采样的特征被融合。最后,融合的特征用于获得最终的语义预测结果。以前的基于点的输出融合可以表示为(这里作者假设使用连接操作进行融合):

F_{\text{out}} = \text{Concat}(\text{GS}(F_{\text{out, cart}}), \text{GS}(F_{\text{out, polar}}))

为了进一步加速模型推理,作者使用重映射操作对一个分支的特征与另一个分支对齐,这使模型能够仅对重映射分支执行一次网格采样。在论文中,作者选择将从极坐标分支提取的特征与笛卡尔空间对齐,因为作者实验发现这比相反的方式表现略好。作者将重映射的极坐标特征与笛卡尔特征连接,然后使用网格采样获得每个点的BEV位置特征。因此,作者方法中的最终点级特征输出可以表示为:

F_{\text{out}} = \text{GS}(\text{Concat}(F_{\text{out, cart}}, \text{PolarToCart}(F_{\text{out, polar}})))

其中F_{\text{out}} \in \mathbb{R}^{N \times C_{\text{out}}}。最后,融合的特征被送入最终的语义分类器:

\text{pred} = \text{MLP}_{cls}(F_{​{out}})

▲图3 | 在不同设置下,比较先前的基于点的方法和基于重映射的方法的特征交互操作过程。©️【深蓝AI】编译

3.2. 特征融合通过重映射

与以前的多视图融合方法在不同投影空间中操作,由于投影过程中的信息丢失导致动态网格到网格的对应关系不同,本设计的方法从两个分区分支在同一BEV空间下的固定位置对应关系中受益,这为本设计提供了改进特征融合过程效率的机会。

具体来说,作者采用重映射技术来对齐两种不同分区方法下的特征。鉴于两个分支之间网格对应关系是固定的,重映射参数可以预先计算,以实现高效特征融合。作者提供了重映射操作的详细步骤,突出了基于重映射的交互相对于基于点的交互的优势。以从极坐标空间到笛卡尔空间的重映射过程为例,注意从笛卡尔到极坐标空间的重映射遵循相同的原则。

对于笛卡尔分支中的每个网格,作者将网格中心的坐标记为\{ \text{Pos}_{\{0,0\}}, \text{Pos}_{\{0,1\}}, \text{Pos}_{\{1,0\}}, \ldots, \text{Pos}_{\{\{H-1,W-1\}} \},其中\text{Pos}_{\{i,j\}} = \{ p_{i}, p_{j} \}。接下来,需要确定它们在极坐标分支中的特征融合对应的坐标。为了实现这一点,首先计算网格中心点\text{Pos}_{\{i,j\}}在真实世界BEV空间中的坐标\{x_i, y_j\}。随后,便可以轻松计算每个点在极坐标分支下的坐标,遵循极坐标分区机制:\phi_i = \arctan2\{x_i, y_j\},\rho_i = \sqrt{x_i^2 + y_j^2}

到目前为止,建立了笛卡尔和极坐标分支之间的坐标对应关系,这是固定的,所以可以预先计算融合。可以将网格中心视为一个点,并应用以前的基于点的方法进行特征融合;然而,作者的实验表明,这种方法在实践中是低效的。

为了更高效和有效地进行特征融合,作者开发了一种基于重映射的特征融合操作,显著提高了两个分支之间的特征对齐速度。传统的基于点的方法之所以慢,主要是因为网格采样操作和散射回操作。它们将每个点单独视为点级并行处理,导致实验中的缓存未命中率高。

与基于点的方法不同,作者的基于重映射的操作考虑了空间位置的连续性,使过程更友好于内存访问,并显著加快了计算速度。图3比较了不同特征融合方法。需要注意的是,并非一个分支中的每个网格在另一个分支中都有对应的区域,由于空间占用模式的变化。

如果一个分支中的空间位置在另一个分支中不可用,则简单地对该位置应用零填充。更详细的效率分析可以在补充材料中找到。基于重映射的融合方法通过在融合过程中整合更多的上下文信息提供了额外的优势。

如图4所示,基于点的方法仅在存在点的区域进行融合,丢弃了没有点的特征,作者称之为稀疏融合。相比之下,基于重映射的方法使整个BEV空间内的融合成为可能,实现了密集融合,丰富了来自另一分支的特征信息。

▲图4 | 基于点的交互结果与基于重映射的交互结果之间的比较。©️【深蓝AI】编译

3.3. Transformer-CNN混合架构

作者提出了一种Transformer-CNN混合网络,用于BEV表示中的特征提取。作者首先使用Transformer的自注意力机制捕获全局场景信息,然后通过轻量级CNN进行进一步的特征提取。以笛卡尔BEV特征F^{in}_{cart}为例说明详细的特征提取过程。首先将特征划分为n \times n块,\text{Patch} = \{\text{patch}_0, \text{patch}_1, \ldots, \text{patch}_{n \times n - 1}\},其中\text{patch}_i \in \mathbb{R}^{H/n \times W/n \times C}。每个块然后使用核大小为H/n \times W/n的卷积操作编码成向量。将编码的块记为\text{Patch}^{\text{emb}} = \{\text{patch}_0^{\text{emb}}, \text{patch}_1^{\text{emb}}, \ldots, \text{patch}_{n \times n - 1}^{\text{emb}}\},其中\text{patch}_i^{\text{emb}} \in \mathbb{R}^{1 \times C_{\text{emb}}}。由于注意力机制缺乏区分输入序列中位置信息的能力,作者引入了正弦位置编码\text{PE}到特征中。最终的块嵌入输入自注意力可以表示为:\text{Patch}^{in} = \text{MLP}(\text{Cat}(\text{Patch}^{emb}, \text{PE}))。然后,作者采用多头自注意力,输出通过前馈网络(FFN)模块。作者将Transformer块中的最终块嵌入记为\text{Patch}^{out} = \{\text{patch}_0^{\text{out}}, \text{patch}_1^{\text{out}}, \ldots, \text{patch}_{n \times n - 1}^{\text{out}}\}。将输出特征从2D形状的\text{Patch}_{out} \in \mathbb{R}^{n^2 \times C}重塑为标准3D特征图\mathbb{R}^{n \times n \times C}。之后,对输出进行双线性上采样,以匹配投影伪图像的全分辨率:

\text{Patch}^{out}_{​{bev}} = \text{Bi-Interpolate}(\text{Patch}_{out})

其中\text{Patchout}_{\text{cart}} \in \mathbb{R}^{H \times W \times C}。作者采用简单的加法操作来融合\text{Patch}^{out}_{​{cart}}F^{in}_{​{cart}}

F^{enhanced}_{​{bev}} = F^{in}_{​{cart}} + \text{Patch}^{out}_{​{cart}}

富含全局信息的特征然后被送入一个高效的CNN模型进行进一步提取。作者使用了一个U-net架构的CNN。实验表明,本文的Transformer-CNN混合架构在性能和推理速度方面都提供了优势。

4、实验结果

作者在SemanticKITTI和nuScenes数据集上进行了广泛的实验,证明了本方法以更快的推理速度实现了最先进的性能。

▲表1 | 在SemanticKITTI 测试集的定量比较。©️【深蓝AI】编译

▲表2 | 在SemanticKITTI 验证机的定量比较。©️【深蓝AI】编译

▲表3 | 在nuScenes测试集定量比较。©️【深蓝AI】编译

▲表4 | 基于重映射的交互效率的对比。©️【深蓝AI】编译

▲表5 | 在nuScenes验证集上的消融研究。©️【深蓝AI】编译

5、本文总结

本文介绍了一种新颖的实时激光雷达点云分割方法。该技术采用作者研发的高效重映射空间对齐融合策略,通过优化内存连续性,不仅大幅提升了处理速度,而且在性能上超越了传统的基于点的交互方法,同时还能保留更为详尽的上下文信息。

此外,文章中还介绍了一种Transformer-CNN混合架构,该架构在维持实时处理能力的基础上,进一步增强了模型的整体性能。通过在SemanticKITTI和nuScenes数据集上进行的广泛实验,充分验证了该方法的有效性和高效率。

展望未来,研究者可以会进一步探索将此技术应用于由多相机图像数据生成的BEV(鸟瞰图)表示,以拓展其应用范围。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/66019.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

职场常用Excel基础04-二维表转换

大家好,今天和大家一起分享一下excel的二维表转换相关内容~ 在Excel中,二维表(也称为矩阵或表格)是一种组织数据的方式,其中数据按照行和列的格式进行排列。然而,在实际的数据分析过程中,我们常…

python-redis访问指南

Redis(Remote Dictionary Server)是一种开源的内存数据结构存储,可用作数据库、缓存和消息代理。它功能强大且灵活,可根据需求调整架构和配置,以高性能、简单易用、支持多种数据结构而闻名,广泛应用于各种场…

Px4 V2.4.8飞控Mavlink命令控制说明

首先,可以使用两种方法连接飞控,使用虚拟机(LINUX)或使用地面站(QGC)连接。 在px4的代码文件位置打开命令终端,输入连接命令: ./Tools/mavlink_shell.py 在控制台使用help来获取所有…

MySQL8安装与卸载

1.下载mysql MySQL :: Download MySQL Community Serverhttps://dev.mysql.com/downloads/mysql/ 2.解压mysql安装包 解压到自己定义的目录,这里解压就是安装,解压后的路径不要有空格和中文。 3.配置环境变量 配置环境变量可以方便电脑在任何的路径…

简洁安装配置在Windows环境下使用vscode开发pytorch

简洁安装配置在Windows环境下使用vscode开发pytorch 使用anaconda安装pytorch,通过vscode集成环境开发pytorch 下载 anaconda 下载网址,选择对应系统的版本 https://repo.anaconda.com/archive/ windows可以选择Anaconda3-2024.10-1-Windows-x86_64.e…

使用 Jupyter Notebook:安装与应用指南

文章目录 安装 Jupyter Notebook1. 准备环境2. 安装 Jupyter Notebook3. 启动 Jupyter Notebook4. 选择安装方式(可选) 二、Jupyter Notebook 的基本功能1. 单元格的类型与运行2. 可视化支持3. 内置魔法命令 三、Jupyter Notebook 的实际应用场景1. 数据…

unity学习3:如何从github下载开源的unity项目

目录 1 网上别人提供的一些github的unity项目 2 如何下载github上的开源项目呢? 2.1.0 下载工具 2.1.1 下载方法1 2.1.2 下载方法2(适合内部项目) 2.1.3 第1个项目 和第4项目 的比较 第1个项目 第2个项目 第3个项目 2.1.4 下载方法…

npm install --global windows-build-tools --save 失败

注意以下点 为啥下载windows-build-tools,是因为node-sass4.14.1 一直下载不成功,提示python2 没有安装,最终要安装这个,但是安装这个又失败,主要有以下几个要注意的 1、node 版本 14.21.3 不能太高 2、管理员运行 …

十二、Vue 路由

文章目录 一、简介二、安装与基本配置安装 Vue Router创建路由实例在应用中使用路由实例三、路由组件与视图路由组件的定义与使用四、动态路由动态路由参数的定义与获取动态路由的应用场景五、嵌套路由嵌套路由的概念与配置嵌套路由的应用场景六、路由导航<router - link>…

NLP 中文拼写检测纠正论文-08-Combining ResNet and Transformer

拼写纠正系列 NLP 中文拼写检测实现思路 NLP 中文拼写检测纠正算法整理 NLP 英文拼写算法&#xff0c;如果提升 100W 倍的性能&#xff1f; NLP 中文拼写检测纠正 Paper java 实现中英文拼写检查和错误纠正&#xff1f;可我只会写 CRUD 啊&#xff01; 一个提升英文单词拼…

儿童坐姿矫正器是如何实现语音提示功能?

儿童坐姿不正确&#xff0c;不仅影响他们的体态美观&#xff0c;更关乎其身体健康与成长发育。长期以往&#xff0c;可能会导致脊柱侧弯、近视加深等一系列健康问题。家长应当对此给予足够重视&#xff0c;及时纠正孩子们的坐姿习惯。 为了改善这一状况&#xff0c;可以从这方…

【蓝桥杯——物联网设计与开发】Part1:GPIO

目录 一、GPIO输出——LED &#xff08;1&#xff09;资源介绍 &#x1f505;原理图 &#x1f505;驱动原理 &#xff08;2&#xff09;STM32CubeMX 软件配置 &#xff08;3&#xff09;代码编写 &#x1f7e2;️main 函数 &#xff08;4&#xff09;实验现象 二…

小程序发版后,强制更新为最新版本

为什么要强制更新为最新版本&#xff1f; 在小程序的开发和运营过程中&#xff0c;强制用户更新到最新版本是一项重要的策略&#xff0c;能够有效提升用户体验并保障系统的稳定性与安全性。以下是一些主要原因&#xff1a; 1. 功能兼容 新功能或服务通常需要最新版本的支持&…

Servlet解析

概念 Servlet是运行在服务端的小程序&#xff08;Server Applet)&#xff0c;可以处理客户端的请求并返回响应&#xff0c;主要用于构建动态的Web应用&#xff0c;是SpringMVC的基础。 生命周期 加载和初始化 默认在客户端第一次请求加载到容器中&#xff0c;通过反射实例化…

太速科技-633-4通道2Gsps 14bit AD采集PCie卡

4通道2Gsps 14bit AD采集PCie卡 一、板卡概述 二、性能指标 板卡功能 参数 内容 ADC 芯片型号 AD9689 路数 4路ADC&#xff0c; 采样率 2Gsps 数据位 14bit 数字接口 JESD204B 模拟接口 交流耦合 模拟输入 1V 连接器 6路 SMA 输入阻抗 50Ω 模拟指…

戴尔/Dell 电脑按什么快捷键可以进入 Bios 设置界面?

BIOS&#xff08;基本输入输出系统&#xff09;是计算机硬件与操作系统之间的桥梁&#xff0c;它负责初始化和测试系统硬件组件&#xff0c;并加载启动操作系统。在某些情况下&#xff0c;如调整启动顺序、更改系统时间或日期、修改硬件配置等&#xff0c;您可能需要进入BIOS进…

分类模型评估利器-混淆矩阵

相关文章 地理时空动态模拟工具介绍&#xff08;上&#xff09; 地理时空动态模拟工具介绍&#xff08;下&#xff09;地理时空动态模拟工具的使用方法 前言 混淆矩阵&#xff08;Confusion Matrix&#xff09;是机器学习领域中用于评估分类模型性能的一种工具。它通过矩阵的…

贪心算法概述

贪心算法总是作出当前看来最好的选择&#xff0c;是局部最优 可以使用贪心算法的问题一般具有两个重要的性质 贪心选择性质最优子结构性质 贪心选择性质是指所求问题的整体最优解可以通过一系列局部最优的选择来达到 其与动态规划的问题区别在于&#xff0c;动态规划算法通…

Unity-Mirror网络框架-从入门到精通之Basic示例

文章目录 前言Basic示例场景元素预制体元素代码逻辑BasicNetManagerPlayer逻辑SyncVars属性Server逻辑Client逻辑 PlayerUI逻辑 最后 前言 在现代游戏开发中&#xff0c;网络功能日益成为提升游戏体验的关键组成部分。Mirror是一个用于Unity的开源网络框架&#xff0c;专为多人…

wx015基于springboot+vue+uniapp的经济新闻资讯的设计与实现

开发语言&#xff1a;Java框架&#xff1a;springbootuniappJDK版本&#xff1a;JDK1.8服务器&#xff1a;tomcat7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/ideaMaven包&#…