解读BEVFormer,新一代CV工作的基石

文章出处

BEVFormer这篇文章很有划时代的意义,改变了许多视觉领域工作的pipeline[2203.17270] BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers (arxiv.org)icon-default.png?t=N7T8https://arxiv.org/abs/2203.17270

BEV (Bird's Eye View)

即鸟瞰图通常用于描述地面上的物体、车辆、行人以及其他障碍物的位置和运动,含有丰富的特征。在自动驾驶系统中,BEV可以帮助车辆更好地理解周围的车辆和行人的位置,从而更安全地进行驾驶决策。

BEVFormer

这是一种基于Transformer的BEV编码器,从多视角摄像头和历史BEV特征中聚合时空特征,即时空编码,注意力机制用来融合时空信息。

文中提到了三个关键点

  • 网格状BEV查询,通过灵活的注意机制融合空间和时间特征

  • 空间交叉注意模块,用于聚合来自多摄像头图像的空间特征

  • 时间自注意模块,来自RNN的思想,用于从历史BEV特征中提取时序信息,(移动物体的速度估计和遮挡物体的检测)递归操作实现的准确速度预测

上面这个是文章中给出的示意图。输入数据是六个摄像头在相同时间段内的数据,每个时刻对应了六张图表示周围的空间。

具体工作流程

先对前一个时刻的BEV特征做查询结合上当前的时刻特征,这样就是能够学习到时序关系,输出的BEV query再空间交叉注意力查询多摄像头的特征信息,生成当前时间戳的BEV特征bev_embedding。

loss和损失评估

匈牙利算法做框匹配,利用已知的框位和模型框选计算L1 loss,结合分类损失平均最小

文中的关键概念解析

空间交叉注意力的概念

每个BEV查询只和感兴趣区域内的特征做交互,减少计算需要,也不会损失很多关键信息,学习效果也可以比全局注意力机制更强。这是基于可变注意力Deformable Attention的一个改进。首先操作是升为柱状的查询,不同高度的点只会对应某几个视角下2D图片的几个点位置,只对这些区域做查询,太高或太低导致不出现在2D图片中的投影点就不查询。

时间自注意力的概念

BEV查询会交互两个特征信息,当前的BEV和历史的BEV,比较特例的是时间序列的第一个样本不包含时间信息。操作是先将BEV查询Q和t-1时刻的特征对齐。这是因为车在运动,前后时刻的特征在空间上不对齐,使用车辆的旋转角度和偏移信息数据来做特征对齐。车周围的物体运动依靠注意力机制的学习实现对齐。文中提到的偏移量是一个车在运动时造成画面中特征的偏移值,这个根据自注意力学习得到,偏移量是对于参考点的一个修正作用。

BEV Quires

BEV中自注意力查询的方式:每次的操作在平面中查询一块的H,W大小网格中的信息,查询前对BEV查询Q做位置嵌入,目的是用于查询得到BEV特征图

应用

  • 3D目标检测,利用得到的BEV特征作为3D检测头输入,实现3D边框的检测和速度预测,无需后处理。

  • 地图分割,设计2D分割头,类似语义分割,利用掩码解码器做类别查询,实现车辆,道路,车道线等划分

代码部分的一些解读

论文项目的代码仓库fundamentalvision/BEVFormer: [ECCV 2022] This is the official implementation of BEVFormer, a camera-only framework for autonomous driving perception, e.g., 3D object detection and semantic map segmentation. (github.com)icon-default.png?t=N7T8https://github.com/fundamentalvision/BEVFormer

观察代码部分,可以发现其中先分别构建构建分类和回归的分支。

对于目标检测和边缘标注任务,将模型输出的当前bev_embedding特征做一个解码。

用到了多层的Decoder嵌套,每一层都会有计算分类和回归结果,除了初始选定参考点,每一次都是用回归的结果对前面参考点的一个优化,最终得到分类。具体是先通过自注意力更新query以及参考点做可变形的注意力,酸菜查询特征,再调用回归分支计算得到预测输出,输出的就是预测框的坐标和相关的运动信息,拿来更新点。

框选的实现是根据已经解码出来的一组点数据,结合做3D格式转换实现视频中框选和标注

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/649754.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

php mysql字段默认值使用问题

前提是使用了事务,在第一个阶段 是A表操作保存,第二阶段操作B表,操作B表的时候使用了A表的一个字段,这个字段在第一阶段没有设置值,保存的时候使用字段默认值。 【这种情况 最好是在第一阶段 把后面要使用的字段设置好…

深度学习-搭建Colab环境

Google Colab(Colaboratory) 是一个免费的云端环境,旨在帮助开发者和研究人员轻松进行机器学习和数据科学工作。它提供了许多优势,使得编写、执行和共享代码变得更加简单和高效。Colab 在云端提供了预配置的环境,可以直接开始编写代码&#x…

Python静态web服务器实战

准备html页面,包含两个页面(index.html, index2.html)和一个404(404html)页面,目录示意: 1.返回固定页面 with open("website/index.html","r") as file: import socket# # 返回固定的页面 website/index.html if __na…

arcgis 计算面积(计算经纬度、算数等同理)

arcgis 计算面积 先定义一个新的变量,例如:area 选中,右击,选择“打开属性表格”,在打开的属性表格中单击最左边的按钮,选择“添加字段” 定义新的字段为浮点型变量,定义变量名为area&#xff…

访问者模式-C#实现

该实例基于WPF实现,直接上代码,下面为三层架构的代码。 一 Model using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks;namespace 设计模式练习.Model.访问者模式 {public class Com…

网络安全全栈培训笔记(58-服务攻防-应用协议设备KibanaZabbix远控向日葵VNCTV)

第58天 服务攻防-应用协议&设备Kibana&Zabbix&远控向日葵&VNC&TV 知识点: 1、远程控制第三方应用安全 2、三方应用-向日葵&VNC&TV 3、设备平台-Zabbix&Kibanai漏洞 章节内容: 常见版务应用的安全测试: 1…

[蓝桥杯]真题讲解:冶炼金属(暴力+二分)

蓝桥杯真题视频讲解&#xff1a;冶炼金属&#xff08;暴力做法与二分做法&#xff09; 一、视频讲解二、暴力代码三、正解代码 一、视频讲解 视频讲解 二、暴力代码 //暴力代码 #include<bits/stdc.h> #define endl \n #define deb(x) cout << #x << &qu…

Flink面试题

0. 思维导图 1. 简单介绍一下Flink♥♥ Flink是一个分布式的计算框架&#xff0c;主要用于对有界和无界数据流进行有状态计算&#xff0c;其中有界数据流就是值离线数据&#xff0c;有明确的开始和结束时间&#xff0c;无界数据流就是指实时数据&#xff0c;源源不断没有界限&a…

【c语言】详解操作符(上)

1. 操作符的分类 2. 原码、反码、补码 整数的2进制表示方法有三种&#xff0c;即原码、反码、补码 有符号整数的三种表示方法均有符号位和数值位两部分&#xff0c;2进制序列中&#xff0c;最高位的1位是被当做符号位其余都是数值位。 符号位都是用0表示“正”&#xff0c;用…

JavaScript高级:闭包

1 概念 一个函数对周围状态的引用&#xff0c;捆绑在一起&#xff0c;内层函数中可以访问到外层函数的作用域。 简单理解&#xff1a;闭包 内层函数 外层函数的变量 先看个简单的代码&#xff1a; function outer() {let a 1function inner() {console.log(a)} } outer(…

Mysql-日志介绍 日志配置

环境部署 docker run -d -p 3306:3306 --privilegedtrue -v $(pwd)/logs:/var/lib/logs -v $(pwd)/conf:/etc/mysql/conf.d -v $(pwd)/data:/var/lib/mysql -e MYSQL_ROOT_PASSWORD654321 --name mysql mysql:5.7运行指令的目录下新建好这些文件&#xff1a; 日志类型 日…

顶顶通呼叫中心中间件机器人压力测试配置(mod_cti基于FreeSWITCH)

介绍 顶顶通呼叫中心中间件机器人压力测试(mod_cit基于FreeSWITCH) 一、配置acl.conf 打开ccadmin-》点击配置文件-》点击acl.conf-》我这里是已经配置好了的&#xff0c;这里的192.168.31.145是我自己的内网IP&#xff0c;你们还需要自行修改 二、配置线路 打开ccadmin-&g…

mac/macos上编译electron源码

官方教程&#xff1a;Build Instructions | Electron 准备工作这里不写了&#xff0c;参考官方文档&#xff0c;还有上一篇windows编译electron electron源码下载及编译-CSDN博客 差不多步骤&#xff0c;直接来 网络记得使用魔法 下载编译步骤 0. 选择目录很重要&#xff0…

Mac网线上网绿联扩展坞连接网线直接上网-无脑操作

声明&#xff1a;博主使用的绿联扩展坞 以下为绿联扩展坞Mac网线使用方法 1.首先需要下载电脑对应版本的驱动 直接点击即可下载 2. 下载好以后 解压 点进去 对应版本 博主直接使用最新的12-14 3. 安装包好了以后 会提示重启电脑 此时拔掉扩展坞 再重启动 拔掉扩展坞 再重启…

HttpHeaders 源码中headers成员变量为什么声明为final

源码如下 public class HttpHeaders implements MultiValueMap<String, String>, Serializable {private final Map<String, List<String>> headers;public String getFirst(String headerName) {List<String> headerValues (List)this.headers.get(…

2024最新版Visual Studio Code安装使用指南

2024最新版Visual Studio Code安装使用指南 Installation and Usage Guide for the Latest Visual Studio Code in 2024 By JacksonML Visual Studio Code最新版1.85已经于2023年11月由其官网 https://code.visualstudio.com正式发布&#xff0c;这是微软公司2024年发行的的最…

Android App开发基础(1)—— App的开发特点

本文介绍基于Android系统的App开发常识&#xff0c;包括以下几个方面&#xff1a;App开发与其他软件开发有什么不一样&#xff0c;App工程是怎样的组织结构又是怎样配置的&#xff0c;App开发的前后端分离设计是如何运作实现的&#xff0c;App的活动页面是如何创建又是如何跳转…

TensorFlow2实战-系列教程3:猫狗识别1

&#x1f9e1;&#x1f49b;&#x1f49a;TensorFlow2实战-系列教程 总目录 有任何问题欢迎在下面留言 本篇文章的代码运行界面均在Jupyter Notebook中进行 本篇文章配套的代码资源已经上传 1、项目介绍 基本流程&#xff1a; 数据预处理&#xff1a;图像数据处理&#xff0c…

Web3:B站chainlink课程Lesson5遇到的小坑汇总

ethers代码 我用的ethers.js 6 &#xff0c;和视频里一样用的是5的不用看代码部分 ethers.providers.JsonRpcProvider("server") //无了 ethers.JsonRpcProvider("server") //现在的wallet.getTransactionCount() //无了 wallet.getNonce() //现在的Big…

已解决:安卓,怎么优雅接入科大讯飞语音评测功能?

写在前面&#xff1a; 网上关于讯飞接入的博客都很少&#xff0c;按说讯飞都是业界翘楚&#xff0c;不知为何&#xff0c;很少搜索到精品&#xff0c;一搜就是一个要求开会员的博客&#xff0c;我也是醉了。讯飞提供的文档也是不清晰&#xff0c;我是摸着石头过河&#xff0c;…