【ICCV 2023】FocalFormer3D : Focusing on Hard Instance for 3D Object Detection

原文链接:https://arxiv.org/abs/2308.04556

1. 引言

  目前的3D目标检测方法没有显式地去考虑漏检问题。
  本文提出了困难实例探测(HIP)。受目标检测的级联解码头启发,HIP逐步探测误检样本,极大提高召回率。在每个阶段,HIP抑制TP样本并关注之前阶段的FN样本,则通过迭代HIP,可以处理困难的FN样本。
  基于HIP,本文提出名为FocalFormer3D的3D目标检测,如下图所示。其中的多阶段热图预测用于挖掘困难实例。FocalFormer3D维护一个积累正样本掩膜,以指示之前阶段的正样本区域,这样网络忽略简单样本的训练而关注困难实例(FN)。最后,网络收集来自所有阶段的正预测以生成候选物体。
  此外,本文还提出边界框级的细化阶段,以消除冗余的候选物体。使用可变形Transformer解码器,通过RoIAlign将候选物体表达为边界框级的查询,以进行边界框级的查询交互和迭代框细化。最后,使用重新评分策略从候选物体中选择正实例。
在这里插入图片描述

3. 方法

3.1 困难实例探测(HIP)

  困难样本探测的表示:给定真实物体 O = { o i } i = 1 N G T \mathcal{O}=\{o_i\}_{i=1}^{N_GT} O={oi}i=1NGT,这是初期阶段的主要目标。给定一组候选物体 A = { a i } i = 1 N O C \mathcal{A}=\{a_i\}_{i=1}^{N_OC} A={ai}i=1NOC(可以是锚框、锚点或物体查询),神经网络预测其正负性。设第 k k k阶段预测的正样本为 P = { p i } i = 1 N P \mathcal{P}=\{p_i\}_{i=1}^{N_P} P={pi}i=1NP,可将真实物体分配给预测物体,以分配情况为真实边界框确定类别: O k T P = { o j ∣ ∃ p i ∈ P k , σ ( p i , o j ) > η } \mathcal{O}_k^{TP}=\{o_j|\exist p_i\in \mathcal{P}_k,\sigma(p_i,o_j)>\eta\} OkTP={oj∣∃piPk,σ(pi,oj)>η}其中 σ ( ⋅ , ⋅ ) \sigma(\cdot, \cdot) σ(,)为匹配指标(如IoU或中心距离), η \eta η为预定义的阈值。则剩余的未匹配的目标可视为困难实例: O k F N = O − ⋃ i = 1 k O k T P \mathcal{O}_k^{FN}=\mathcal{O}-\bigcup_{i=1}^k\mathcal{O}_k^{TP} OkFN=Oi=1kOkTP k + 1 k+1 k+1个阶段的训练的目标是检测出 O k F N \mathcal{O}_k^{FN} OkFN,而忽略正预测。
  由于本文从各个阶段收集候选物体,因此需要第二阶段的物体级细化模块消除FP。

3.2 多阶段热图编码器

  BEV感知中中心热图的准备知识:中心热图的目标是在物体中心生成热图峰值。BEV热图用张量 S ∈ R X × Y × C S\in\mathbb{R}^{X\times Y\times C} SRX×Y×C表达,其中 X × Y X\times Y X×Y为BEV特征图的大小, C C C为类别数。目标热图是通过在物体BEV投影点附近生成2D高斯得到的。
  正样本掩膜积累:为了跟踪正候选对象,本文在BEV上初始化全零的正样本掩膜(PM),并依照阶段进行积累得到积累正样本掩膜(APM): M ^ k ∈ { 0 , 1 } X × Y × C \hat{M}_k\in\{0,1\}^{X\times Y\times C} M^k{0,1}X×Y×C  多阶段BEV特征是通过阶段之间的轻型逆残差块级联得到的。通过添加一层额外的卷积层,可以得到多阶段BEV热图。根据正样本预测结果,将BEV热图响应进行分数排序,生成正样本掩膜。具体来说,在第 k k k阶段,BEV热图所有位置、所有类别中的前 K K K个响应被选择为物体预测结果 P k \mathcal{P}_k Pk。正样本掩膜会记录所有正预测 p i ∈ P k p_i\in\mathcal{P}_k piPk的位置 ( x , y ) (x,y) (x,y)和类别 c c c,并将掩膜相应位置和类别的值设为1( M ( x , y , c ) = 1 M_{(x,y,c)}=1 M(x,y,c)=1),其余位置设为0。
  上述掩膜生成方案仅填充候选物体中心点,称为点掩膜。本文提出另外两种掩膜生成方案:

  1. 基于池化的掩膜:小物体填充候选物体中心点,大型物体使用 3 × 3 3\times3 3×3大小的核填充。
  2. 边界框掩膜:为各阶段添加额外的边界框预测分支,掩膜填充预测边界框的内部区域。

  第 k k k层积累正样本掩膜如下生成: M ^ k = max ⁡ 1 ≤ i ≤ k M i \hat{M}_k=\max_{1\leq i\leq k}M_i M^k=1ikmaxMi然后,可以按照下式过滤热图的正样本区域并关注困难实例: S ^ k = S k ⋅ ( 1 − M ^ k ) \hat{S}_k=S_k\cdot(1-\hat{M}_k) S^k=Sk(1M^k)训练热图编码器时,对各层使用高斯focal损失,并求和得到总的热图损失。
  收集所有阶段的候选物体送入第二阶段,重新评分并去除FP。
  对HIP有效实施的讨论:掩膜方式需要满足以下条件以保证HIP的有效性:

  • 在当前阶段排除过去的正候选物体;
  • 避免移除潜在的真实物体。

  点掩膜能满足上述条件,但与使用真实边界框掩膜的理想掩膜相比,对每个正预测只排除了一个BEV候选物体。因此基于池化的掩膜方法更有效。

3.3 边界框级的可变形解码器

  候选物体可以视为带有位置信息的物体查询。增加候选物体数可以增加召回率,但冗余检测会增加FP。
  本文将候选物体建模为边界框级的查询,并使用可变形注意力以提高效率。
  边界框池化模块:使用RoIAlign从BEV特征中提取边界框上下文信息。具体来说,给定预测框,每个物体查询从BEV边界框中提取 7 × 7 7\times7 7×7的特征网格点,并通过2层MLP。位置编码被添加到查询和网格点中。
  解码器实施:类似Deformable DETR,本文使用多头自注意力与多头可变形注意力。可变形注意力在3个尺度的BEV特征图上采样特征。边界框池化模块在每个旋转BEV边界框中采样,通过2层FC后将特征添加到查询嵌入中。采样时,将边界框放大到原来的1.2倍。

3.4 模型训练

  模型按两个阶段训练。第一阶段使用Transformer解码头,训练激光雷达主干网络(对应的模型称为DeformFormer3D)。随后使用DeformFormer3D的权重初始化FocalFormer3D,训练多尺度热图编码器和边界框级的解码器。然而,在使用二部图匹配的可变形解码器时,训练初期会出现收敛缓慢的问题。因此,本文从真实物体生成噪声查询以解决这一问题。此外,匹配时会排除中心距离大于一定值的匹配对。

4. 实验

4.1 实验设置

  数据集与指标:nuScenes数据集上除了官方指标外,还添加一个由中心距离定义的平均召回率(AR)指标。

4.2 主要结果

  nuScenes基于激光雷达的3D目标检测:本文方法能达到SotA。比起使用额外分割级标注训练的模型仍能有更好的性能。
  nuScenes多模态3D目标检测:本文使用预训练的图像主干提取图像特征,并将图像特征提升到预定义体素空间与基于激光雷达的BEV特征融合。不进行测试时数据增广(TTA)时,本文的方法能比sota有更好的性能,且推断时间更少;在一些少见的类别上性能较优。
  nuScenes3D目标跟踪:使用SimpleTrack这一基于检测的跟踪算法,能比过去的sota更优;此外,使用TTA的FocalFormer3D能比使用模型集成的BEVFusion更优。
  Waymo激光雷达3D目标检测:在不微调模型超参数的情况下,本文的模型能达到有竞争力的结果。

4.3 召回率分析

  候选物体的召回率比较:仅使用激光雷达单一模态的FocalFormer3D能超过多模态方法。
  最终预测的召回率比较:随着距离阈值的提高,多数方法最终预测的召回率(相比候选物体召回率的)提升减小。本文方法的召回率能大幅超过之前的方法。
  逐类召回率比较:相比于TransFusion-L,FocalFormer3D在大型物体上的召回率更高。

4.4 消融研究

  HIP查询大小和生成阶段:增加HIP层数或查询总数均能提高性能。
  正样本掩膜类型:单点掩膜能比无掩膜方法有所提升;使用基于池化的掩膜能进一步提升性能。
  逐步细化:虽然与CenterPoint相比,添加多阶段热图编码器的模型有明显更高的召回率,但在mAP和NDS上的提升很小。通过使用物体级别的重新评分、基于RoI的对齐,能进一步提高性能;使用边界框级的可变形解码器能大幅提高性能。
  为评估重新评分的作用,本文设计了另一实验,在细化阶段仅进行重新评分以排除边界框回归的影响。实验表明,该方法相比于无细化阶段的模型有大幅性能提升。这说明初始阶段的热图评分存在局限。因此,第二阶段的重新评分是有用的。
  模型组件的延迟分析:主要的计算时间位于基于稀疏卷积的激光雷达主干网络,而多阶段热图编码器和边界框级别的可变形解码器耗时占比较低。

5. 讨论

  局限性:本文的HIP方法需要生成峰值在物体中心处的热图,可能不适用与基于相机的检测,因为相机的热图可能是扇状的。

附录

A. 额外消融实验

  解码头的设计:和交叉注意力相比,堆叠多层可变形注意力能有更低的延迟和更好的性能。和点级查询相比,使用边界框级别的查询(即进行边界框池化)能有更高性能。
  延迟分析:本文的方法能在性能和速度上均超过过去的方法。

B. 额外实施细节

  nuScenes数据集的模型细节:将非关键帧积累到关键帧上输入模型;训练初期使用GT采样增广。
  Waymo数据集的模型细节:使用单帧输入;训练初期使用GT采样增广。
  扩展为多模态模型:为从投影后图像3D网格特征得到图像BEV特征,本文在每个柱体中使用交叉注意力:将激光雷达BEV网格特征视为查询,图像体素特征视为键与值。使用额外的卷积融合图像BEV特征和激光雷达BEV特征。该融合在多阶段热图编码器的各阶段均会进行。

C. 第二阶段细化的预测局部性

  本文注意到,尽管使用了全局操作和相机透视图信息,小物体和大范围之间的差异限制了长距离二阶段细化。即与第一阶段的热图预测相比,多数方法在第二阶段的偏移量回归范围很小(即预测局部性),因此第二阶段补偿漏检(FN)的能力较弱。本文通过在BEV上确定FN并进行局部重新评分,能在一定程度上减轻这一问题。

D. 可视化示例

  可视化结果:尽管本文方法的AR较高,但严重遮挡和缺少点会导致出现FN;错误的边界框方向预测也能导致FN出现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/84866.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

UDP 的报文结构

1.UDP特点2.UDP协议报文结构 1.UDP特点 UDP特点分为: 无连接:知道对端的IP和端口号就可以进行传输,即通信时不需要创建连接(发送数据结束时也没有连接可以释放)所以减小了开销和发送数据前的时延;比如&am…

nginx部署多个项目

前言 实现在一台服务器上使用nginx部署多个项目的方法 查看并修改nginx安装的默认配置文件 在 Linux 操作系统中,Nginx 在编译安装时默认的配置文件路径是 /usr/local/nginx/conf/nginx.conf。 如果是通过发行版的包管理器安装,则默认的配置文件路径可能…

基于数据驱动的成本洞察,趣丸科技的FinOps进阶之路~

今年以来,我们注意到越来越多的单位开始积极实践FinOps,而随着FinOps的发展,大家对于其落地过程的关注也更加具体和深入,涉及了账单波动、FinOps的边际效应、成本模型、依赖工具等多个关键问题。 本月「UGeek大咖说」线上直播活动…

【c语言】贪吃蛇

当我们不想学习新知识的时候,并且特别无聊,就会突然先看看别人怎么写游戏的,今天给大家分享的是贪吃蛇,所需要的知识有结构体,枚举,以及easy-x图形库的一些基本函数就完全够用了,本来我想插入游…

创建一个简单的外卖订餐系统

在今天的快节奏生活中,外卖订餐系统已经成为了人们日常生活中不可或缺的一部分。这些系统通过在线点餐和配送服务,为用户提供了便捷的用餐体验。在本文中,我们将创建一个简单的外卖订餐系统,使用Python和Flask框架构建后端&#x…

Mac电脑系统怎么样才能干干净净地卸载应用程序?

Mac系统怎么样才能干干净净地卸载应用程序,不留下隐私数据和用户信息呢?如果有方法的话,那么该方法对于Mac电脑小白是否友好呢? CleanMyMac就是一款用于清理Mac系统下应用程序的一款清理工具,其内置了应用程序的安全卸…

轻松搞定Spring集成缓存,让你的应用程序飞起来!

Spring集成缓存 缓存接口开启注解缓存注解使用CacheableCachePutCacheEvictCachingCacheConfig 缓存存储使用 ConcurrentHashMap 作为缓存使用 Ehcache 作为缓存使用 Caffeine 作为缓存 主页传送门:📀 传送 Spring 提供了对缓存的支持,允许你…

Spring MVC常见面试题

Spring MVC简介 Spring MVC框架是以请求为驱动,围绕Servlet设计,将请求发给控制器,然后通过模型对象,分派器来展示请求结果视图。简单来说,Spring MVC整合了前端请求的处理及响应。 Servlet 是运行在 Web 服务器或应用…

内存管理之虚拟内存

本篇遵循内存管理->地址空间->虚拟内存的顺序描述了内存管理、地址空间与虚拟内存见的递进关系,较为详细的介绍了作为在校大学生对于虚拟内存的理解。 内存管理 引入 RAM(内存)是计算机中非常重要的资源,由于造价的昂贵&…

Linux 用户和用户组

Linux中关于权限的管控级别有2个级别,分别是: 针对用户的权限控制 针对用户组的权限控制 比如,针对某文件,可以控制用户的权限,也可以控制用户组的权限。 1、用户组管理 1.1、创建用户组 groupadd 用户组名 1.2、删除用户组 groupdel 用户…

社交媒体商业禁令冲击:TikTok如何应对印尼政策变化?

随着社交媒体的普及和发展,各国政府开始越来越关注这一领域的监管和控制。印尼政府最近的决定,禁止在社交媒体上进行商品交易,引起了广泛的关注。 这一政策变化对TikTok等社交媒体平台带来了巨大的挑战,要求它们重新审视商业模式…

CFCA证书 申请 流程(一)

跳过科普,可直接进入申请👉https://blog.csdn.net/Ximerr/article/details/133169391 CFCA证书 CFCA证书是指由中国金融认证中心颁发的证书,包括普通数字证书、服务器数字证书和预植证书等,目前,各大银行和金融机构都…

网站有反爬机制就爬不了数据?那是你不会【反】反爬

目录 前言 一、什么是代理IP 二、使用代理IP反反爬 1.获取代理IP 2.设置代理IP 3.验证代理IP 4.设置代理池 5.定时更新代理IP 三、反反爬案例 1.分析目标网站 2.爬取目标网站 四、总结 前言 爬虫技术的不断发展,使得许多网站都采取了反爬机制&#xff…

【深度学习】实验12 使用PyTorch训练模型

文章目录 使用PyTorch训练模型1. 线性回归类2. 创建数据集3. 训练模型4. 测试模型 附:系列文章 使用PyTorch训练模型 PyTorch是一个基于Python的科学计算库,它是一个开源的机器学习框架,由Facebook公司于2016年开源。它提供了构建动态计算图…

Linux 线程(thread)

进程线程区别 创建线程 #include <pthread.h> int pthread_create(pthread_t *thread, const pthread_attr_t *attr, void *(*start_routine) (void *), void *arg); -功能&#xff1a;创建一个子线程&#xff0c;一般情况下main函数所在的线程称为主线程&#xff0c;…

21天学会C++:Day14----模板

CSDN的uu们&#xff0c;大家好。这里是C入门的第十四讲。 座右铭&#xff1a;前路坎坷&#xff0c;披荆斩棘&#xff0c;扶摇直上。 博客主页&#xff1a; 姬如祎 收录专栏&#xff1a;C专题 目录 1. 知识引入 2. 模板的使用 2.1 函数模板 2.2 类模板 3. 模板声明和定义…

kubernetes(k8s)PVC

概念 PVC 的全称是&#xff1a;PersistentVolumeClaim&#xff08;持久化卷声明&#xff09;&#xff0c;PVC 是用户存储的一种声明&#xff0c;PVC 和 Pod 比较类似&#xff0c;Pod 消耗的是节点&#xff0c;PVC 消耗的是 PV 资源&#xff0c;Pod 可以请求 CPU 和内存&#x…

基于Kubernetes的Serverless PaaS稳定性建设万字总结

作者&#xff1a;许成铭&#xff08;竞霄&#xff09; 数字经济的今天&#xff0c;云计算俨然已经作为基础设施融入到人们的日常生活中&#xff0c;稳定性作为云产品的基本要求&#xff0c;研发人员的技术底线&#xff0c;其不仅仅是文档里承诺的几个九的 SLA 数字&#xff0c…

AI助手引领游戏创作革命

近期&#xff0c;Roblox 在其开发者大会&#xff08;RDC&#xff09;上宣布了一款新的对话式 AI 助手&#xff1a;RobloxAssistant。这款助手的本质是简化游戏制作难度&#xff0c;用自然语言代替编程。通过输入文字提示&#xff0c;创作者可以生成游戏场景、3D 模型等操作。该…

自动驾驶中的决策规划

参考: 【干货篇】轻舟智航&#xff1a;自动驾驶中的决策规划技术&#xff08;附视频回放 PPT 下载&#xff09; - AIQ 如图所示, 各模块介绍 定位模块主要负责解答的问题是“车现在在哪里”&#xff0c;是在道路上还是在路口&#xff0c;是在高架桥上还是在停车场里。 感知…