论文阅读《BEVFormer v2》

BEVFormer v2: Adapting Modern Image Backbones to Bird’s-Eye-View Recognition via Perspective Supervision

目录

  • 摘要
  • 1 介绍
  • 2 相关工作
    • 2.1 BEV三维目标检测器

摘要

我们提出了一种具有透视监督的新型鸟瞰图(BEV)检测器,其收敛速度更快并且更适合现代图像主干。现有的最先进的BEV检测器通常与某些深度预训练主干网络(如VoVNet)相关联,从而阻碍了蓬勃发展的图像主干网络和BEV检测器之间的协同作用。为了解决这一限制,我们优先通过引入透视图监督来简化BEV检测器的优化。为此,我们提出了一个两阶段BEV检测器,其中来自透视头的提议被输入到鸟瞰头中进行最终预测。为了评估我们模型的有效性,我们进行了广泛的消融研究,重点关注监督形式和所提出的检测器的通用性。所提出的方法通过广泛的传统和现代图像主干得到了验证,并在大规模nuScenes数据集上取得了新的SoTA结果。代码即将发布。

1 介绍

鸟瞰图(BEV)识别模型引起了自动驾驶领域的兴趣,因为它们可以自然地将来自多个传感器的部分原始观测结果整合到统一的整体3D输出空间中。典型的BEV模型建立在图像主干之上,然后是视图转换模块,该模块将透视图像特征提升为 BEV 特征,然后由BEV特征编码器和一些特定任务的头进一步处理。人们投入了大量精力来设计视图转换模块,并将不断增长的下游任务列表纳入新的识别框架,但BEV模型中图像主干的研究却被忽视了。作为一个前沿且要求极高的领域,将现代图像主干引入自动驾驶是理所当然的。令人惊讶的是,研究界选择坚持使用VoVNet来享受其大规模深度预训练。在这项工作中,我们专注于释放现代图像特征提取器的全部威力,用于BEV识别,为未来的研究人员探索该领域更好的图像主干设计打开大门。

然而,仅仅采用那些现代图像主干而没有进行适当的预训练并不能产生令人满意的结果。例如,在3D物体检测方面,ImageNet预训练的ConvNeXt-XL主干网络的性能与DDAD-15M预训练的VoVNet-99相当,尽管后者的参数是前者的3.5倍。我们将适应现代图像主干的努力归因于以下问题。其一,自然图像和自动驾驶场景之间的领域差距。在一般二维识别任务上进行预训练的主干网络无法感知三维场景,尤其是无法估计深度。其二,当前BEV检测器的结构复杂。以BEVFormer为例。3D边界框和物体类别标签的监督信号通过视图编码器和物体解码器与图像主干分离,每个编码器和物体解码器由多层transformer组成。用于适应自动驾驶任务的通用二维图像主干的梯度流被堆叠的transformer层扭曲了。为了解决在将现代图像主干网络应用于BEV识别时遇到的上述困难,我们在BEVFormer中引入了透视监督,即将来自透视视图任务的额外监督信号直接应用于主干网络。它引导主干网络学习二维识别任务中缺失的三维知识,并克服BEV检测器的复杂性,极大地促进了模型的优化。具体来说,我们在主干网络上构建一个透视3D检测头,它将图像特征作为输入并直接预测目标对象的3D边界框和类别标签。这个透视头的损失,表示为透视损失,被添加到由BEV头衍生的原始损失(BEV损失)中,作为辅助检测损失。两个检测头使用其相应的损失项进行联合训练。此外,我们发现将两个检测头自然而然地组合成两级BEV检测器BEV-Former v2。由于透视头已经很成熟了,它可以在透视图中生成高质量的目标提案,我们将其作为第一阶段提案。我们将它们编码为目标查询,并将它们与原始BEVFormer中可学习的查询收集起来,形成混合对象查询,然后将其输入到第二阶段检测头以生成最终预测。

我们进行了大量的实验来证实我们提出的透视监督的有效性和必要性。透视损失有助于图像主干的适应,从而提高检测性能并加快模型收敛。而如果没有这种监督,即使经过更长的时间训练,模型也无法取得类似的结果。因此,我们成功地将现代图像主干适应BEV模型,在nuScenes测试集上实现了63.4%的NDS。

本文的贡献总结如下:

  • 我们指出,透视监督是将一般的二维图像主干适应BEV模型的关键。我们通过透视图中的检测损失明确地添加了这种监督。
  • 我们提出了一种新颖的两阶段BEV检测器,BEV-Former v2。它由一个透视3D和一个BEV检测头组成,前者的提议与后者的目标查询相结合。
  • 我们通过将我们的方法与最新开发的图像主干相结合来强调其有效性,并在nuScenes数据集上取得了比以前最先进的结果更显著的改进。

2 相关工作

2.1 BEV三维目标检测器

最近,鸟瞰图(BEV)目标检测因其在自动驾驶系统中的巨大成功而受到了更多的关注。

早期的研究包括OF、Pseudo LiDAR和VPN,它们阐明了如何将透视特征转换为BEV特征,但无论是针对单个摄像头还是不太知名的任务。OFT率先采用从2D图像特征到3D BEV特征的转换,实现单目3D目标检测。Pseudo LiDAR,顾名思义,通过单目深度估计和相机内参创建伪点云,然后在BEV空间中对其进行处理。VPN是第一个将多视角相机输入融合到自上而下的视角特征图中以进行语义分割的技术。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/59239.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用 Vue 配合豆包MarsCode 实现“小恐龙酷跑“小游戏

作者:BLACK595 “小恐龙酷跑”,它是一款有趣的离线游戏,是Google给Chrome浏览器加的一个有趣的彩蛋。当我们浏览器断网时一只像素小恐龙便会出来提示断网。许多人认为这只是一个可爱的小图标, 但当我们按下空格后,小恐…

Attention is all you need详细解读

transformer目的是解决NLP中使用RNN不能并行计算问题。 Encoder-Decoder, Attention, Transformer 三者关系 1.基础储备 (1)CV基础知识 1.首先拿CV中的分类任务来说,训练前我们会有以下几个常见步骤: 2.获取图片 3.定义待分类的类…

面向对象的需求分析和设计(一)

[toc] 1. 引言 前一篇文章《我对需求分析的理解》提到了面向对象分析和设计,正好最近又重新有重点的读了谭云杰著的《Think in UML》,感觉有必要写把书中一些核心内容观点以及自己的想法整理出来,一是方便自己日后的复习,另外也…

Window下PHP安装最新sg11(php5.3-php8.3)

链接: https://pan.baidu.com/s/10yyqTJdwH_oQJnQtWcwIeA 提取码: qz8y 复制这段内容后打开百度网盘手机App,操作更方便哦 (链接失效联系L88467872) 1.下载后解压文件,将对应版本的ixed.xx.win文件放进php对应的ext目录下,如图所示 2.修改ph…

基于Spring Boot与Redis的令牌主动失效机制实现

目录 前言1. 项目结构和依赖配置1.1 项目依赖配置1.2 Redis连接配置 2. 令牌主动失效机制的实现流程2.1 登录成功后将令牌存储到Redis中2.2 使用拦截器验证令牌2.3 用户修改密码后删除旧令牌 3. Redis的配置与测试4. 可能的扩展与优化结语 前言 在现代Web系统中,用…

sql专题 之 sql的执行顺序

文章目录 sql的执行顺序sql语句的格式实际的执行顺序:虚拟表 vs 数据集虚拟表 结果集总结嵌套查询在sql查询中的执行顺序 前文我们了解了sql常用的语句,这次我们对于这些语句来个小思索 戳这里→ sql专题 之 常用命令 sql的执行顺序 SQL语句的执行顺序是…

Linux学习笔记之组管理和权限管理

组管理 文件/目录 所有者 一般文件所有者是文件的创建者,谁创建了该文件,就自然成为该文件的所有者 ls -ahl (查看文件的所有者) chown 用户名 文件名 (修改文件所有者) 文件/目录 所在组 当某个用户…

『黄河遗韵』数字非遗馆的守护之旅

创意定位 腾讯云推出的以“守护黄河文明,探索数字非遗馆”为主题的创意H5作品,通过长卷寻宝VR展馆形式,描绘了黄河文明中的非物质文化遗产,旨在唤起公众对黄河文明的保护意识,并邀请大家参与互动,深入了解…

前端监控与埋点 全总结

一、概念 前端埋点是指在网页或者应用程序中插入特定的代码,用于收集用户的行为数据并发送给服务器进行分析。这些数据可以包括用户的点击、浏览、输入等操作,帮助开发者了解用户的在其网站中的行为,从而进行针对性的优化和改进。 前端埋点…

2411d,右值与移动

原文 概述 添加语言内部__rvalue(Expression)函数,指示对匹配函数参数,按右值对待式.这在用非引用语义调用函数时启用移动语义. 移动语义对运行时和资源效率是可取的,因为可移动资源到新对象,而不是复制然后析构.其他语言(如C)有流行的移动语义. 先前的工作 C移动语义这里…

全面介绍软件安全测试分类,安全测试方法、安全防护技术、安全测试流程

一、软件系统设计开发运行安全 1、注重OpenSource组件安全检查和版本更新(black duck) 现在很多云、云服务器都是由开源的组件去搭成的,对于OpenSource组件应该去做一些安全检查和版本更新,尤其是版本管理,定期对在运…

十、文件上传和下载

文章目录 1. 文件下载2. 文件上传 1. 文件下载 使用ResponseEntity实现下载文件的功能 2. 文件上传

Springboot整合Prometheus+grafana实现系统监控

前言 Prometheus是一个开源的服务监控系统和时序数据库,它提供了强大的功能和灵活的架构,是目前主流的监控和管理应用系统的工具。 而Grafana是一个开源的数据可视化工具,与Prometheus集成,就可以可视化地监控系统的各个指标。 …

新增支持Elasticsearch数据源,支持自定义在线地图风格,DataEase开源BI工具v2.10.2 LTS发布

2024年11月11日,人人可用的开源BI工具DataEase正式发布v2.10.2 LTS版本。 这一版本的功能变动包括:数据源方面,新增了对Elasticsearch数据源的支持;图表方面,对地图类和表格类图表进行了功能增强和优化,增…

常用数字器件的描述-时序逻辑器件的描述

目录 锁存器与触发器 寄存器与移位寄存器 分频器及其应用 偶分频器 奇分频器 半整数分频器 分频器的应用 锁存器与触发器 锁存器与触发器是两种最基本的存储电路。 锁存器是电平敏感器件,而触发器是边沿触发器件。 为了使用灵活方便,商品化的锁…

机器视觉和计算机视觉的区别

机器视觉和计算机视觉的区别 1、本质上两者是一样的,都是将光信号转换成电信号,然后交给计算机处理; 2、二者侧重点不同,计算机视觉更偏向研究,更前沿,采集到图像后交给计算机进行分析处理,包括…

网络安全-Linux基础(bash脚本)

文章目录 bash脚本编写基础使用的脚本解析器/bin/bash(声明)bash脚本需要拥有执行权限bash脚本语法输入与输出函数的封装条件判断语句条件符号 循环语句模块化编程 Linux进程操作查看寻找进程终止进程暂停与恢复进程后台运行 bash脚本编写系统内存资源占…

今天出了10个4声母 .com

价格蛮低的 ,VJ.VT.Q.Q 十个 遥想当年6.5万收的5个四声母.com,上面有2个就在下图中呀,赔大发了

【网络安全 | 甲方建设】构建安全的密码重置功能

未经许可,不得转载。 文章目录 一、密码存储的安全策略二、发送新密码与发送重置链接的比较三、用户验证:邮箱还是用户名?四、用户过滤五、电子邮件通知变更总结任何需要登录的网站,都需为用户提供“找回密码”功能,以便在用户忘记密码时可以重新获得访问权限。但要做到安…

【echarts图轮播tooltips】

echarts饼状图轮播tooltips 定义echarts图写定时任务调用定时任务 定义echarts图 let chartDom document.getElementById(id); let myChart echarts.init(chartDom);写定时任务 通过echarts的events来控制高亮以及tooltips的现实 /**params dom dom元素params chartOption…