谈一谈BEV和Transformer在自动驾驶中的应用

谈一谈BEV和Transformer在自动驾驶中的应用

BEV和Transformer都这么火,这次就聊一聊。

image
结尾有资料连接

一 BEV有什么用

首先,鸟瞰图并不能带来新的功能,对规控也没有什么额外的好处。

从鸟瞰图这个名词就可以看出来,本来摄像头等感知到的物体都是3D空间里的的,投影到2D空间,只是信息的损失,也很简单(乘一个矩阵)。甚至是变换到ST图上所需的,中间过程的必备一步。

怎么能说哪个用了鸟瞰图,哪个没用呢。

所以,BEV可以理解为,指一个端到端的感知架构

所谓端到端,就是没有后处理,不需要作摄像头拼接和obj融合;单个摄像头内如对于道线的识别也不需要(像之前分割的方法那样)做后处理。

举一个反例,记忆泊车的感知算法,有一种做法是在AVM的图上进行SLAM,即使这是货真价实的在鸟瞰图上的算法,也没人天天宣传把这个叫BEV。

问题回到了感知本身。怎么做感知性能好。

不用作后处理当然是好事,如果没有其他缺点。只是,如果一个小球落下来,用牛顿力学一秒钟就能算准,是否需要做1万次实验,然后拟合一个网络来预测运动呢。

先说BEV优点:

  • 在摄像头fov的重叠区域的物体,自动match和加权,省去了后处理的人工时;

  • 跨越多个摄像头的物体,也就是fov边缘物体,可以先拼接后接入网络detection;如果不这么做,也可以再拼接一次再detection,但这样不太优雅;

  • 数采同步由Lidar,且标注用Lidar做时,BEV的GT是现成的。而很多Mono3D网络的GT需要的2D框却没有现成的。

再说缺点:

  • 重叠区域,双目多视角几何的距离等指标算的更准;

  • 感知范围小(距离小一半),位置分表率低(投影之后分辨率为m级);

  • 不透明的处理 相机内外参 和 IMU 等输入,类似上面牛顿力学的例子,交给网络去预测确定的公式;

  • 暂无成熟的网络可用。

第一个优点,是使用BEV的核心诉求。

所以,一般BEV的模型还带上了如下feature:

  • 时间滤波;

  • 道线与地图的定位融合;

这些都是很好的探索,挖掘AI的应用潜力。

二 BEV怎么做

BEV要做的核心事情就是一件:把2D相机视角下的feature投影到2D鸟瞰图上。

但是,这个投影需要知道深度信息。当相机视角下,还没做到detection回归距离时,是只有平面的特征图的。‘

用AI,当然是假装知道了深度,投影变换用一个矩阵表示,然后靠数据去学习这个矩阵。可以理解为,把回归距离这一步在这做一遍。单帧图像当然可以做,靠近大远小,车和人的尺寸都是固定的,这个规律不难学到。

但是,细节上,想浪费时间的人且看以下:(我非常不喜欢看这些论文,但是最近看了不少):

image

(CVPR), 2019, https://doi.org/10.1109/cvpr.2019.00864

第一篇,先做深度估计,再做detection,能准就怪了。当你抬头看云彩,觉得一多云像草尼马后,你才会体会到距离,再之前,你是迷茫的。

image

FCOS3D:ICCVW, 2021

第二篇,深度估计和detection分离并行,同上,求大家灌水敬业一点。

image

Lift, Splat, Shoot: ECCV 2020

第三篇,非常粗爆,直接把cnn得到的features定义为深度分布和context(语义信息)。其中深度分度是一个41维的向量,且每个相机的每个像素点对应一个深度向量和语义向量。所以这是一个惊人大的需要去拟合的tensor。文章写的比较敷衍,连网络定义和图都没有,看样子也嫌浪费时间。

image

Simple-BEV. 2022.

第四篇,终于正常点,一个BEV点最多对应两个相机点,也就是200*200的矩阵中,每个点对应两个待拟合的小矩阵。比上一篇需要拟合的数少了1000倍。

image

DETR3D 2021

第五篇,用上了transformer,有网红潜力了。右下角那个decoder的query是按obj的数量来的,obj的数量在0-100之间波动,当数量少时,变成网络瓶颈,对训练效果以及推理的连续性肯定有影响。

image

BEVFormer ECCV 2022

第六篇,充分吸取过往经验,名字碰瓷tesla,BEVFormer,所以真红了。不过中间那个明明是decoder,为什么作者要叫encoder。

这篇和第四篇区别:1个BEV点要学习4个矩阵(4个偏置和权重),且网络深度上循环六次,比第四篇多10倍,可能第四篇太少了。

这篇和第五篇区别:那个蓝色的BEV queries大小固定,和BEV输出大小一致。比第五篇多1000-10000倍。

为什么要用Transfomer

先简单说下:

CNN 优点:
1适合并行计算

2适合视觉

3参数少(比MLP)

CNN 缺点:

1 没有全局联系 只能靠最后的全连接层(MLP) 但MLP不能太深

2 不适合做(时间)序列,不像RNN,所以滤波什么的不擅长。

RNN:我能做滤波啊,但RNN不适合并行(主要是训练),考虑到卡那么贵,还是算的快的能生存,所以被transformer淘汰了

Transformer优点:

1 适合并行计算(和CNN差不多)

2 适合做(时间)序列,所以BEV有了这个能力

3 对于大模型容易训练 (因为参数冗余多,不容易陷入局部最优),CNN也比较容易训练(自动驾驶适用大小的模型)。

4 可以建立长距离的联系 (CNN不行,MLP可以但是太臃肿)

Transformer缺点:

1 不适合视觉。所以backbone还是CNN

2 没了。

But,上面文章中的Transformer是假的。至于为啥,下次再说。

我一直认为,模型是啥,本身就不重要:

  • 这几年GoogLeNet为代表的复杂模型已经被淘汰了,

  • CNN在工业界已全是最简单的残差模型,

  • GPT的胜出也证明模型越简单越好,

  • AutoML以及NAS(网络架构搜索)毫无进展

所以,只要有进化条件,任何构型的生物都能在智能上超越人类。

三 注意力机制 Transformer的核心

大家都知道Transformer诞生的那篇google的论文叫什么什么is all your need。

注意力就是不同位置之间关联有多紧密的权重。

两个向量点积,模的最大值产生于向量夹角为0。也就是说,如果两个word意义相近,embedding向量也就相近,那自然注意力就大。这是最简单的一种情况,不用考虑位置向量。

image

红框里的计算,就是在去求这个关联的权重,得到一个方阵。毫无疑问,这就是trasformer的核心之处。

image

多说一句,为什么不直接学右边这个矩阵,而是要学左边这两个矩阵呢?

在NLP里,句子的最大长度在100-1000这个量级,而词向量的维度一般在10000-50000这个量级。
分别按100和10000举例,学左边,要学2000000(=2*100*10000)个参数;右边只要学10000(=100*100)个参数。相差200倍。

这里涉及到了AI原理性的问题,参数越少,训练越容易陷入局部最优,而参数多了,到处都是鞍点(维度高了,所有维度的二阶导都同号的概率低),很容易滑出去。

我们来看这些BEV论文怎么做的:

image

这里的注意力A是直接学出来的,并没有经过左边的乘法,而且它不是一个方阵,竟是一个标量。和Transformer愿意扩充200倍参数,是完全相反的。

看这个公式,确实只是一个b为0的单层MLP,Nkey的node,输出q维,输入x维。

我们可以看到,右边是BEV坐标(q),左边是相机坐标§,这个公式就是把相机坐标映射到了BEV坐标。我一直没搞明白为什么要分自顶向下和反过来,不就是把等式左右两边换一下。

四 多头 决定Transformer能力的重要维度

关联有多种含义,比如一个人的头和手是关联的,代表了同一个人;一个人的头和另一个人的头是关联的,代表了都是头。

所以,这就是Multi-Head,多头注意力,一个位置在不同意义上和多个其他位置关联。

此外,Multi-Head还能再多出很多倍参数。NLP里,transformer的头数一般是100。

image

上面是一个8头的示意,先把每个头的输出拼接起来,再降维(找到最突出的方向)。

我们来看这些BEV论文怎么做的:

image

文中的Nhead是8。

但是,这是求和,其实还是加权,只不过把A的加权维度从8提升到了64.

所以,是单头。

五 位置编码 Transformer的必备要素

Transformer本身不能分辨输入的位置,对它来说,两个词调换位置是无感地(只要后面地向量位置都跟着换),所以处理序列问题(位置很重要)必须要加位置编码。包括Vit。

我们来看这些BEV论文怎么做的:

位置编码是一个学到的矩阵。

看来,这不是位置编码,只是叫这个名字。它们根本不关心输入的顺序。编码都是要精心设计的,要能有区分度,而且至少不能有重复的吧。

那为什么会这样呢?

image

会不会是因为,CNN压根就不需要位置编码呢。

六 其他

还有很多不像的地方,比如每个encoder都有的那个不参与反向算梯度的上一时刻的输出。

我猜可能不这样,梯度就传不下去,毕竟如前所说太瘦了。

我们回顾一下上次说的transformer的优点:

1 适合并行计算。因为既没有多头,也没有矩阵乘法,标量计算的维度也不大,所以变成了并行计算瓶颈。Transformer的特点没有了。

2 适合做(时间)序列,没有位置编码。

3 对于大模型容易训练 参数少。

4 可以建立长距离的联系 连“距离”这个概念都没有。而且都是在周围局部位置的加权。

附赠自动驾驶学习资料和量产经验:链接

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/780770.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里云Salesforce CRM功能差异列表 - Winter‘24

阉割版的阿里云Salesforce由于技术和监管等因素与国际版的Salesforce差距很大! 一、Winter‘ 24版差异概况: 1.1. 主要版本: 阿里云上的 Salesforce 提供两个版本,用于生产用途的 CN 版本(CN Edition)和用…

day4 linux上部署第一个nest项目(java转ts全栈/3R教室)

背景:上一篇吧nest-vben-admin项目,再开发环境上跑通了,并且build出来了dist文件,接下来再部署到linux试试吧 dist文件夹是干嘛的? 一个pnpn install 直接生成了两个dist文件夹,前端admin项目一个&#xf…

Jenkins磁盘空间批量清理脚本

一、简介 Jenkins如果没有设置保留构建历史数,磁盘会随着使用次数增加而越来越满,于是需要批量清理一下。 二、清理脚本 找到Script Console 输入脚本,并点击执行,需要注意期望删除的构建历史编号(可以查看下面的效果…

14. Springboot集成RabbitMQ

目录 1、前言 2、什么是RabbitMQ 3、安装RabbitMQ 4、Springboot集成RabbitMQ 4.1、添加依赖 4.2、添加配置 4.3、添加controller,作为生产者 4.4、设置生产者消息确认CallBack 4.5、添加Consumer,作为消费者 4.6、启动程序,访问 1…

关键字:this总结

this关键字的使用1. 目前可能出现的问题?及解决方案?我们在声明一个属性对应的setXxx方法时,通过形参给对应的属性赋值。如果形参名和属性名同名了,那么该如何在方法内区分这两个变量呢?解决方案:使用this。…

YOLOv9改进策略 :block优化 | 无需TokenMixer也能达成SOTA性能的极简ViT架构 | CVPR2023 RIFormer

💡💡💡本文改进内容: token mixer被验证能够大幅度提升性能,但典型的token mixer为自注意力机制,推理耗时长,计算代价大,而RIFormers是无需TokenMixer也能达成SOTA性能的极简ViT架构…

java寻找递增子序列(力扣Leetcode491)

寻找递增子序列 力扣原题链接 问题描述 给定一个整数数组 nums,找出并返回所有该数组中不同的递增子序列,递增子序列中至少有两个元素。你可以按任意顺序返回答案。数组中可能含有重复元素,如出现两个整数相等,也可以视作递增序…

Raspberry Pi Pico 可以充当 GPU 吗?

来自 element14 的克莱姆的任务是探索将 Raspberry Pi Pico 转化为 GPU 的可能性,以便在游戏中渲染超级流畅的图形。是的,你没有看错!他不是在尝试使用我们的怪物级新 Raspberry Pi 5,甚至不是 Pi 4,他是在尝试使用我们…

数据结构:归并排序

归并排序 时间复杂度O(N*logN) 如果两个序列有序,通过归并,可以让两个序列合并后也有序,变成一个有序的新数组 对于一个数组,如果他的左右区间都有序,就可以进行归并了 归并的方法 将数组的左右两个有序区间比较,每次都取出一个最小的,然后放入临时数组(不能在原数组上修改…

PermissionError: [WinError 5] 拒绝访问。: ‘..\\data‘ 怎么解决

问题 在b站跟着沐神学深度学习,刚开始就遇到问题了,代码如下: import osos.makedirs(os.path.join(..,data),exist_okTrue) data_fileos.path.join(..,data,house_tiny.csv) with open(data_file,w) as f:f.write(NumRooms,Alley,Price\n)f…

空间数据结构(四叉树,八叉树,BVH树,BSP树,K-d树)

下文参考:https://www.cnblogs.com/KillerAery/p/10878367.html 游戏编程知识课程 - 四分树(quadtree)_哔哩哔哩_bilibili 利用空间数据结构可以加速计算,是重要的优化思想。空间数据结构常用于场景管理,渲染,物理,…

【过度拟合?秒了!】

目录 引言 一、简化模型复杂度 1 .1 特征选择 1.2 降低多项式阶数 1.3 减少神经元数量或层数 二、使用正则化技术 2.1 L1正则化(Lasso) 工作原理 应用场景 2.2 L2正则化(Ridge) 2.3 Elastic Net正则化 2.4 代码事例 …

国内如何购买midjourney?midjourney购买教程?midjourney注册方式?

1. Midjourney介绍 Midjourney 是一款备受欢迎的人工智能生成图像工具,它可以通过输入文字描述,自动生成精美的图像。与许多其他图像生成工具不同,Midjourney 不需要安装任何软件,也不受个人电脑性能的限制,因为它运行…

【测试篇】测试眼里的 BUG

文章目录 如何描述一个bug如何定义 bug 的级别BUG 的生命周期跟开发起争执怎么办(高频面试题) 如何描述一个bug 一个合格的bug描述应该包含以下几个部分: 发现问题的版本问题出现的环境错误重现的步骤预期行为的描述错误行为的描述其他&…

USB-PD

这是目录 写在前面1、概览2、信息2.1 消息结构2.1.1 消息头 3、soft or hard reset1、soft reset2、hard reset 3、TYPE-C相关握手3.1、CC线的状态3.1.1、默认电源值3.2 TYPE-C设备握手协商过程确定握手类型DRP和DRP设备握手 写在前面 1、记录自己的学习PD协议层的文章 1、概…

消息队列经典应用场景

笔者心中,消息队列,缓存,分库分表是高并发解决方案三剑客。 在职业生涯中,笔者曾经使用过 ActiveMQ 、RabbitMQ 、Kafka 、RocketMQ 这些知名的消息队列 。 这篇文章,笔者结合自己的真实经历,和大家分享消息队列的七种经典应用场景。 1 异步&解耦 笔者曾经负责某电…

00、SpringBatch 4.x.x版本:简单入门

00、SpringBatch批处理 一、介绍1、什么是批处理?2、官网3、优势4、组织架构5、程序运行架构图 二、入门案例-H2版(内存)1、新建项目2、引入依赖3、新建HelloJob.java 三、入门案例-MySQL版1、引入依赖2、修改 application.yml3、验证 四、案例解析1、EnableBatchPr…

国产桌面操作系统统一身份认证及2FA双因子认证安全升级方案

某金融运营服务公司,主要负责业务处理、客户服务、业务监控、报表统计等金融运营服务,为集团下设二级单位,坐落于一线城市,对政策风向有很高的敏锐度。 该公司已为公司业务人员、客户服务、监督员等配备了数百台国产桌面操作系统…

Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单实战案例 之七 简单图像浮雕效果

Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单实战案例 之七 简单图像浮雕效果 目录 Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单实战案例 之七 简单图像浮雕效果 一、简单介绍 二、简单图像浮雕效果实现原理 三、简单图像浮雕效果案例实现简单步骤 四、注…

网络七层模型之会话层:理解网络通信的架构(五)

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…