【论文解读】VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking

VoxelNeXt

  • 摘要
  • 引言
  • 方法
    • Sparse CNN Backbone Adaptation
    • Sparse Prediction Head
  • 3D Tracking
  • 实验
  • 结论

摘要

3D物体检测器通常依赖于手工制作的方法,例如锚点或中心,并将经过充分学习的2D框架转换为3D。因此,稀疏体素特征需要通过密集预测头进行密集化和处理,这不可避免地需要额外的计算成本。在本文中,我们提出了VoxelNext来进行完全稀疏的3D物体检测。我们的核心见解是直接基于稀疏体素特征来预测对象,而不依赖于手工制作的方法。我们强大的稀疏卷积网络VoxelNeXt完全通过体素特征检测和跟踪3D物体。它是一个优雅而高效的框架,不需要稀疏到密集的转换或NMS后处理。我们的方法在nuScenes数据集上实现了比其他主机检测器更好的速度-精度权衡。我们首次证明了一个完全稀疏的基于体素的表示可以很好地用于LIDAR 3D目标检测和跟踪。在nuScenes、Waymo和Argoverse2基准测试上进行的大量实验验证了我们方法的有效性。我们的模型在nuScenes跟踪测试基准上优于所有现有的LIDAR方法。代码和模型可在github.com/dvlab-research/VoxelNeXt上获得。

引言

锚点和中心首先是为规则和网格结构的图像数据设计的,不考虑3D数据的稀疏性和不规则性。这种方法将3D稀疏特征转换为2D密集特征,从而为有序的锚点或中心构建密集的检测头。尽管有用,但这种密集的头部传统会导致其他限制,包括效率低下和管道复杂。
在图1中,我们将CenterPoint中的热图可视化[57]。很明显,很大一部分空间的预测分数几乎为零。由于固有的稀疏性和背景点多,只有少数点有响应,即nuScenes验证集中Car类的平均响应不到1%。然而,密集预测头根据密集卷积计算的要求对特征映射中的所有位置进行计算。它们不仅浪费了大量的计算,而且由于冗余的预测而使检测管道复杂化。它需要使用非最大抑制(NMS),如后处理来删除重复检测在这里插入图片描述
在本文中,我们提出了VoxelNeXt。它是一个简单,高效,无后处理的3D物体检测器。我们设计的核心是一个体素到对象的方案,它通过一个强大的全稀疏卷积网络,直接从体素特征预测3D对象。
我们在图2中说明了主流3D探测器和我们的pipeline的区别。
在这里插入图片描述
高推理效率是由于我们的体素到目标方案避免了密集的特征映射。它只对稀疏和必要的位置进行预测,如表1所示,与CenterPoint[57]进行比较。这种表示也使得voxelnext可以很容易地扩展到使用离线跟踪器的3D跟踪。先前的工作[57]只跟踪预测的对象中心,这可能涉及到对其位置的预测偏差。在VoxelNeXt中,查询体素,即用于框预测的体素,也可以被跟踪以进行关联。
在这里插入图片描述
【NDS】在目标检测任务中,NDS(Normalized Detection Score)是一个综合评价指标,用于衡量模型在多种检测任务上的表现。NDS通常综合了多个指标,以便更全面地评估模型的性能。虽然具体的计算方式可能因不同的研究或竞赛而有所不同,但一般包括以下几个方面:

  • mAP(mean Average Precision):平均精度的均值,通常是目标检测中最常用的评估指标,衡量模型在不同
  • IoU(Intersection over Union)阈值下的检测精度。
  • AP(Average Precision):对不同类别的目标分别计算平均精度,然后取其平均值。
  • Precision(精确率)和Recall(召回率):精确率是正确检测出的正样本数占所有检测出样本数的比例,召回率是正确检测出的正样本数占所有实际正样本数的比例。
  • IoU(Intersection over Union):预测框与实际框的交并比,用于衡量检测框的准确度。
  • FPS(Frames Per Second):检测速度,表示模型每秒能处理的帧数。

NDS的具体计算公式可能会根据不同的任务和场景进行调整。例如,在自动驾驶中的目标检测任务中,NDS可能综合考虑不同类别的目标(如行人、车辆、交通标志)的检测精度和速度。
下面是一个假设的NDS计算示例:
NDS=α⋅mAP+β⋅Precision+γ⋅Recall+δ⋅FPS
其中,𝛼𝛽𝛾𝛿δ是权重系数,用于平衡不同指标的重要性。
总之,NDS作为一个综合指标,可以更全面地反映模型在目标检测任务中的整体性能,有助于选择和优化模型。

最近,FSD[16]利用了完全稀疏框架。受VoteNet[37]的启发,它对对象中心进行投票,并采用迭代细化。由于3D稀疏数据通常分散在物体表面上,因此这种投票过程不可避免地会引入偏差或误差。因此,需要改进,如迭代组校正,以确保最终的准确性。该系统因其对对象中心的强烈信仰而变得复杂。FSD[16]在大范围Argoverse2上很有前景,但其效率不如我们,如图3所示。为了证明VoxelNeXt的有效性,我们在nuScenes[3]、Waymo[45]、Argoverse2[52]数据集的三个大规模基准上评估了我们的模型。VoxelNeXt在这两个基准测试中都以高效的3D对象检测实现了领先的性能。它还具有最先进的3D跟踪性能。没有花哨的功能,它在所有仅使用激光雷达的nuScenes跟踪测试中排名第一[3]。在这里插入图片描述

方法

点云或体素不规则分布,通常散布在3D对象的表面,而不是中心或内部。这促使我们沿着一个新的方向进行研究,直接基于体素而不是手工制作的锚点或中心来预测3D盒子。为此,我们的目标是进行最小的修改,使普通的3D稀疏CNN网络适应直接的体素预测。在下文中,我们将介绍骨干自适应(第3.1节)、稀疏头设计(第3.2节)和对3D对象跟踪的扩展(第3.3节)。

Sparse CNN Backbone Adaptation

额外下采样:具有足够感受野的强特征表示是确保对稀疏体素特征进行直接和正确预测的必要条件。尽管普通稀疏CNN骨干网已被广泛应用于3D对象检测器[12,41,57],但最近的工作表明了它的弱点,并提出了各种方法来增强稀疏骨干网,例如使用设计良好的卷积[7]、大核[8]和变换器[25,26,35]。
与所有这些方法不同,我们只使用额外的下采样层,尽可能少地进行修改来实现这一点。默认情况下,普通稀疏CNN骨干网有4个阶段,特征步长为{1,2,4,8}。我们分别将输出稀疏特征命名为{F1,F2,F3,F4}。此设置无法直接预测,特别是对于大型对象。**为了增强其能力,我们只需添加两个额外的下采样层,即可获得{F5,F6}的步幅为{16,32}的特征。**这一微小变化直接对扩大感受野产生了显著影响。我们结合了最后三个阶段{F4,F5,F6}到Fc的稀疏特征。它们的空间分辨率都与F4对齐。对于第i阶段,Fi是一组单独的特征fp。p∈Pi是3D空间中的一个位置,坐标为(xp,yp,zp)。该过程如图4所示。值得注意的是,这种简单的稀疏连接不需要其他参数化层。稀疏特征Fc及其位置Pc可通过下式获得:
在这里插入图片描述
在这里插入图片描述
我们在图5中可视化了有效感受野(ERF)。通过额外的下采样层,ERF更大,预测框更准确。它足够有效,几乎不需要额外的计算,如表2所示。因此,我们使用这种简单的设计作为骨干网。
在这里插入图片描述

稀疏高度压缩:[12,41,57]的3D对象检测器通过将稀疏特征转换为密集特征,然后将深度(沿z轴)组合到通道维度中,将3D体素特征压缩为密集的2D图。这些操作需要占用内存和计算空间。在VoxelNet中,我们发现2D稀疏特征对于预测是有效的。VoxelNeXt中的高度压缩是完全稀疏的。我们只是将所有体素放在地面上,并在相同的位置总结特征。它的成本不超过1ms。我们发现,对压缩的2D稀疏特征的预测成本低于使用3D稀疏特征的成本,如表5所示。压缩的稀疏特征Fc及其位置Pc可通过以下方式获得:在这里插入图片描述其中S̄p={p|xp=x̄p,yp=ȳp,p∈Pc},包含放置在相同2D位置p上的体素。
在这里插入图片描述
**空间体素修剪:**我们的网络完全基于体素。3D场景通常包含大量冗余的背景点,对预测几乎没有好处。我们沿着下采样层逐渐修剪不相关的体素。遵循SPS Conv[32],我们抑制了特征量较小的体素的膨胀,如图6所示。在这里插入图片描述
将抑制比设为0.5,我们仅扩展特征量|fp|(在通道维度上的平均值)排名前半的体素,如表3所示,体素修剪在不影响性能的情况下大大节省了计算。在这里插入图片描述

Sparse Prediction Head

Voxel Selection
图4显示了体素NeXt模型的详细框架。我们不依赖于密集特征图M,而是直接基于3D CNN骨干网络V∈RN×F的稀疏输出来预测对象。我们首先预测K类体素的分数,s∈RN×K。在训练过程中,我们将最靠近每个带注释的边界框中心的体素指定为阳性样本。我们使用Focal loss[31]进行监督。我们注意到,在推理查询过程中,体素通常不在对象中心。它们甚至不一定在边界框内,例如图9中的行人。我们在nuScenes验证集的表7中统计了查询体素的分布。在这里插入图片描述

在推理过程中,我们通过使用稀疏最大池来避免NMS后处理,因为特征足够稀疏。类似于子流形稀疏卷积[19],它只对非空位置进行操作。这是基于预测的分数s,并针对每个班级单独进行的。我们采用稀疏最大池来选择具有空间局部最大值的体素。去除的体素将被排除在框预测中,这节省了头部的计算。
Box Regression
边界框直接从正或选定的稀疏体素特征v∈Rn×F回归。根据CenterPoint[57]中的协议,我们回归位置(∆x,y)∈R2,高度h∈R,三维尺寸s∈R3,旋转角度(sin(α),cos(α))∈R。对于nuScenes数据集或跟踪,我们通过任务定义对速度v∈R2进行回归。在训练期间,这些预测在L1损失函数下进行监督。对于Waymo数据集,我们还预测了IoU,并在IoU损失的情况下进行训练,以提高性能[22]。我们只需使用核大小为3的全连接层或3×3子流形稀疏卷积层进行预测,而无需其他复杂的设计。我们发现,3×3稀疏卷积比全连接层产生更好的结果,负担有限,如表6所示。

3D Tracking

我们的框架自然扩展到3D跟踪。CenterPoint[57]通过二维速度v∈R2跟踪预测的对象中心,该速度也受L1损失的监督。我们使用体素关联来包含更多与查询体素位置匹配的轨迹。
如图8所示,我们记录了用于预测每个框的体素的位置。与中心关联类似,我们计算L2距离进行匹配。查询位置是通过将其索引追溯到原始输入体素来选择的,而不是遍历8个位置。被跟踪的体素存在于输入数据中,其偏差小于预测的中心。此外,相邻帧之间的查询体素与框具有相似的相对位置。我们在表11中实证表明,体素关联改善了跟踪。在这里插入图片描述
在这里插入图片描述

实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论

在本文中,我们提出了一种完全稀疏和基于体素的3D目标检测和跟踪框架。它技术简单,运行速度快,没有太多额外成本,并且在没有NMS后处理的情况下以优雅的方式工作。我们首次证明了基于体素的直接预测是可行和有效的。因此,基于规则的方案,例如锚或中心,以及密集的头部在我们的方案中变得不必要。VoxelNeXt在大规模数据集上展示了有前景的结果,包括nuScenes[3]、Waymo[45]和Argoverse2[52]。凭借其高效率,它在3D物体检测方面取得了领先的性能,并在nuScenes 3D跟踪激光雷达基准测试中排名第一。局限性理论FLOP和实际推理速度之间存在差距。VoxelNeXt的FLOP为38.7G,比CenterPoint的186.6G小得多[57]。实际的延迟减少很明显,但不如表1中的FLOP那么大,因为它在很大程度上取决于实施和设备。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/46508.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

免费的数字孪生平台助力产业创新,让新质生产力概念有据可依

关于新质生产力的概念,在如今传统企业现代化发展中被反复提及。 那到底什么是新质生产力?它与哪些行业存在联系,我们又该使用什么工具来加快新质生产力的发展呢?今天我将介绍一款为发展新质生产力而量身定做的数字孪生工具。 新…

OpenCv 如何在 Java 中使用

Java 项目引入 OpenCv 环境准备OpenCv介绍下载Maven 安装动态链接库 完成 环境准备 JDK 8 OpenCv 4.0.0 Maven 3.9 Windows 11 OpenCv 介绍 OpenCV(开源计算机视觉库)是一个功能强大的计算机视觉和机器学习库。它提供了广泛的工具和算法,用…

MYSQL中的库表建立基础操作

任务:新建产品库mydb6_product, 新建3张表如下: 一, employees表 (1):id,整型,主键 (2):name,字符串,最大长度50,不能为空 &#xff…

【Django】网上蛋糕商城后台-类目管理

1.类目管理列表实现 当管理员进入后台管理后,点击类目管理,向服务器发出请求 path(admin/type_list/,viewsAdmin.type_list), # 处理商品分类管理列表请求 def type_list(request):# 读取分页页码try:ym request.GET["ym"]except:ym 1# 查…

html2canvas + jspdf 纯前端HTML导出PDF的实现与问题

前言 这几天接到一个需求,富文本编辑器的内容不仅要展示出来,还要实现展示的内容导出pdf文件。一开始导出pdf的功能是由后端来做的,然后发现对于宽度太大的图片,导出的pdf文件里部分图片内容被遮盖了,但在前端是正常显…

【Node.js】会话控制

express 中操作 cookie cookie 是保存在浏览器端的一小块数据。 cookie 是按照域名划分保存的。 浏览器向服务器发送请求时,会自动将 当前域名下可用的 cookie 设置在请求头中,然后传递给服务器。 这个请求头的名字也叫 cookie ,所以将 c…

LLaMA 背景

什么是LLaMA? 模型介绍:LLaMA是Meta开发的语言模型,旨在推动开放科学和人工智能的实践。 参数范围:这些模型的参数数量从7B到65B不等,覆盖了不同规模的需求。 训练数据:LLaMA模型是在数万亿个公开数据集的…

Python算法实现之排序算法的Python实现详解

概要 排序算法是计算机科学中最基础和最重要的算法之一。它们在数据处理中起着关键作用,广泛应用于搜索、数据分析和优化等领域。本文将详细介绍几种常见的排序算法及其Python实现,包括冒泡排序、选择排序、插入排序、归并排序和快速排序,并通过具体示例代码展示它们的工作…

推荐一款基于Spring Boot 框架开发的分布式文件管理系统,功能齐全,非常便捷(带私活源码)

前言 在数字化时代,文件管理是企业和个人用户的基本需求。然而,现有的文件管理系统往往存在一些痛点,如存储空间有限、文件共享困难、缺乏在线编辑功能、移动端适配性差等。这些问题限制了用户在不同设备和场景下的文件处理能力。 为了解决…

【20】读感 - 架构整洁之道(二)

概述 继上一篇文章讲了前两章的读感,已经归纳总结的重点,这章会继续跟进的看一下,深挖架构整洁之道。 编程范式 编程范式从早期到至今,提过哪些编程范式,结构化编程,面向对象编程,函数式编程…

ClickHouse 入门(二)【基础SQL操作】

1、ClickHouse 1.1、SQL 操作 这里只介绍一些和我们之前 MySQL 不同的语法; 1.1.1、Update 和 Delete ClickHouse 提供了 Delete 和 Update 的能力,这类操作被称为 Mutation 查询(可变查询),它可以看 做 Alter 的一…

负载均衡 lvs

1. 4层转发(L4) 与 7层转发(L7) 区别 4层转发(L4) 与 7层转发(L7) 区别 转发基于的信息 状态 常用的服务 L4 基于网络层和传输层信息: L4转发主要依赖于网络层IP头部(源地址,目标地址,源端口,目标端口)和传输层头部&#xff…

珈和科技完成全国首个农险服务类数据产品入表,实现数据资产化

近日,珈和科技与东湖大数据合作,完成全国首个保险服务类数据产品入表,标志着我国商业卫星遥感应用领域迈出了数据资产化的关键一步。 此次入表的数据产品为“华北农业保险服务数据集数据产品”,是珈和科技融合卫星遥感与无人机等…

新华三H3CNE网络工程师认证—VLAN使用场景与原理

通过华三的技术原理与VLAN配置来学习,首先介绍VLAN,然后介绍VLAN的基本原理,最后介绍VLAN的基本配置。 一、传统以太网问题 在传统网络中,交换机的数量足够多就会出现问题,广播域变得很大,分割广播域需要…

前端学习(二)之HTML

一、HTML文件结构 <!DOCTYPE html> <!-- 告诉浏览器&#xff0c;这是一个HTML文件 --><html lang"en"> <!-- 根元素&#xff08;起始点&#xff0c;最外层容器&#xff09; --><head> <!-- 文档的头部&#xff08;元信息&#xff…

Typora 1.5.8 版本安装下载教程 (轻量级 Markdown 编辑器),图文步骤详解,免费领取

文章目录 软件介绍软件下载安装步骤激活步骤 软件介绍 Typora是一款基于Markdown语法的轻量级文本编辑器&#xff0c;它的主要目标是为用户提供一个简洁、高效的写作环境。以下是Typora的一些主要特点和功能&#xff1a; 实时预览&#xff1a;Typora支持实时预览功能&#xff0…

实战篇(十一) : 拥抱交互的三维世界:利用 Processing 和 OpenGL 实现炫彩粒子系统

🌌 拥抱交互的三维世界:利用 Processing 和 OpenGL 实现炫彩粒子系统 在现代计算机图形学中,三维粒子系统是一个激动人心的领域。它不仅可以用来模拟自然现象,如烟雾、火焰和水流,还可以用来创造出令人叹为观止的视觉效果。在这篇文章中,我们将深入探讨如何使用 Proces…

【linux】服务器安装NVIDIA驱动

【linux】服务器安装NVIDIA驱动 【创作不易&#xff0c;求点赞关注收藏】&#x1f600; 文章目录 【linux】服务器安装NVIDIA驱动一、关闭系统自带驱动nouveau二、下载英伟达驱动三、安装英伟达驱动1、禁用X服务器和相关进程2、在TTY终端安装驱动3、验证是否安装成功4、重新启…

最新开源的解析效果非常好的PDF解析工具MinerU (pdf2md pdf2json)

毫不夸张的说 PDF解析工具MinerU是照进RAG黑暗中的一道光——这是我对它的评价。我测过太多了文档解析工具&#xff01; 最近在做文档解析的工作。看了很多的开源的文档解析的工具&#xff0c;版面分析的工具&#xff0c;其中包括paddelpaddel这样30kstar的明星工具。但是效果都…

01 安装

安装和卸载中&#xff0c;用户全部切换为root&#xff0c;一旦安装&#xff0c;普通用户也能使用 初期不进行用户管理&#xff0c;全部用root进行&#xff0c;使用mysql语句 1. 卸载内置环境 检查是否有mariadb存在&#xff0c;存在走a部分卸载 ps axj | grep mysql ps ajx |…