SparseDrive---论文阅读

纯视觉下的稀疏场景表示

算法动机&开创性思路

算法动机:

  1. 依赖于计算成本高昂的鸟瞰图(BEV)特征表示。
  2. 预测和规划的设计过于直接,没有充分利用周围代理和自我车辆之间的高阶和双向交互。
  3. 场景信息是在agent周围提取,没有考虑到自我车辆对周围代理的影响,忽略了自我车辆在运动预测和规划中的作用。
  4. 运动预测和规划都被视为多模态问题,但现有方法只预测确定性的轨迹,没有考虑到内在的不确定性。

开创性思路:为了解决以上问题,


        1.通过稀疏场景表示和重新设计的预测与规划任务,提高了自动驾驶系统的性能和效率,特别是在规划安全性方面。
        2.SparseDrive包含对称的稀疏感知模块和并行运动规划器,通过有效的设计,实现了在所有任务中的性能提升,同时保持了更高的训练和推理效率。
        3.修改了运动预测和规划之间的巨大相似性,串级模块,提出了一种分层规划选择策略

主体结构

输入:6图感知,输出:自车规划模块以及其他Agent规划模块

+---------------------+
|      SparseDrive    |
+---------------------+
|  use_grid_mask      |
|  use_deformable_func|
+---------------------+
|  img_backbone (ResNet)|
|  img_neck (FPN)     |
|  depth_branch       |
+---------------------+
|       head          |
+---------------------+
|  det_head (Sparse4DHead)|
|  map_head (Sparse4DHead)|
|  motion_plan_head (MotionPlanningHead)|
+---------------------+

包括特征提取(ImageEncoder),对称稀疏感知(SymmetricSparsePerception),平行运动规划器(ParallelMotionPlanner)

对称稀疏感知,主要包括稀疏检测,稀疏在线建图,稀疏跟踪模块

图像编码:

给定多视图图像,图像编码器(包括主干网络和颈部)首先将图像编码为多尺度特征图,其中S是尺度数,N是camera图数

对称稀疏感知模块:

如下图,特征图被聚合成2组实例,来学习驾驶场景稀疏表示,俩组实例分别代表周围智能体Initialized Detection Instances 是数据集里的anchor,(x,y,z,lnw,lnh,lnl,sin yaw,cos yaw,vx,vy,vz)和地图元素Initialized Map Instances (x0,y0,x1,y1...xNp-1,yNp-1)
Feature Maps是6张图特征

平行运动规划器:

自车Ego轨迹预测和其他Agent的轨迹预测应该合并成一个任务,具有相互影响
Ego Insitance初始化:和其他模Agent不一样,在相机视角下,是处于盲区的,Ego的特征是采用前视视角下图像特征图,并且在ResNet在输出多尺度特征取得最小特征图后平均池化去作为Ego特征初始化,Ego Anchor对于x,y,yaw是每一帧定义好,但是速度,加速度会让主车根据运动属性使得模型学习shortcut,不利于学习主车自主交互,所以用T-1时刻状态进行预测,作为辅助任务进行Loss监督

新的范式:
 

  1. 稀疏场景表示(Sparse Scene Representation)

    • SparseDrive采用了稀疏表示来学习驾驶场景的完整表示,这种表示通过对称的稀疏感知模块实现,该模块统一了检测、跟踪和在线映射任务。
  2. 对称稀疏感知模块(Symmetric Sparse Perception Module)

    • 该模块通过结构对称性,将检测、跟踪和在线映射集成到一个模型架构中,学习场景的稀疏表示。
  3. 并行运动规划器(Parallel Motion Planner)

    • SparseDrive的并行运动规划器同时进行运动预测和规划,考虑了自我车辆和周围代理之间的高阶和双向交互。
  4. 层次化规划选择策略(Hierarchical Planning Selection Strategy)

    • 该策略包括一个碰撞感知重分模块(Collision-Aware Rescore Module),用于从多模态轨迹提议中选择一个合理且安全的轨迹作为最终规划输出。
  5. 端到端学习(End-to-End Learning)

    • SparseDrive采用多阶段训练方法,首先分别训练稀疏感知模块,然后在第二阶段联合训练稀疏感知模块和并行运动规划器,实现端到端优化。
  6. 效率优化

    • 论文中提出的SparseDrive在保持高性能的同时,还实现了更高的训练和推理效率。

通过这些设计,SparseDrive能够在所有任务中实现比之前最先进方法更高的性能,同时在训练和推理效率上也有显著提升。具体来说,SparseDrive在nuScenes基准测试中超越了先前的最先进方法,尤其是在安全性关键指标碰撞率方面,同时保持了更高的训练和推理效率

损失函数

Loss : L = Ldet + Lmap + Lmotion + Lplan + Ldepth

Stage1:从头开始训练对称稀疏感知模块,以学习稀疏场景表示

Stage2:稀疏感知模块和并行运动规划期一起训练

性能对比

3D detection results,Multi-object tracking results ,Online mapping results

Prediction Results,Planning results

效率对比,平行运动规划器中的各模块消融实验

总结:

A: 这篇论文提出了SparseDrive,一种新颖的端到端自动驾驶范式,旨在通过稀疏场景表示和优化的任务设计来提高自动驾驶系统的性能和效率。以下是论文的主要内容总结:

  1. 问题识别:传统的自动驾驶系统采用模块化设计,导致信息丢失和误差累积。现有的端到端方法在性能和效率上,特别是在规划安全性方面,仍有不足。

  2. SparseDrive范式:提出了SparseDrive,一种新的端到端自动驾驶范式,它利用稀疏表示来统一处理检测、跟踪、在线映射、运动预测和规划任务。

  3. 关键组件

    • 对称稀疏感知模块:通过结构对称性,同时处理检测、跟踪和在线映射任务。
    • 并行运动规划器:同时进行运动预测和规划,考虑自我车辆与周围代理的交互。
  4. 层次化规划选择策略:提出了一种策略,通过碰撞感知重分模块来选择安全合理的轨迹。

  5. 端到端学习:采用分阶段训练方法,先分别训练感知模块,然后联合训练感知和规划模块,实现端到端优化。

  6. 实验验证:在nuScenes数据集上进行了广泛的实验,证明了SparseDrive在3D检测、多目标跟踪、在线映射、运动预测和规划任务中的性能均优于现有最先进方法。

  7. 效率提升:SparseDrive在保持高性能的同时,显著提高了训练和推理的效率。

  8. 消融研究:通过消融实验,展示了SparseDrive设计选择的有效性,包括运动规划器的设计、碰撞感知重分模块和多模态规划的重要性。

  9. 未来工作:论文指出了端到端模型在性能、数据集规模、安全性评估等方面的局限性,并提出了未来探索的方向。

  10. 代码开源:论文承诺将SparseDrive的代码开源,以促进未来研究。

SparseDrive通过其创新的设计和方法,在自动驾驶领域提供了一种有效的解决方案,推动了端到端自动驾驶技术的发展

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/79232.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

旅游特种兵迪士尼大作战:DeepSeek高精准路径优化

DeepSeek大模型高性能核心技术与多模态融合开发 - 商品搜索 - 京东 随着假期的脚步日渐临近,环球影城等备受瞩目的主题游乐场,已然成为大人与孩子们心中不可或缺的节日狂欢圣地。然而,随之而来的庞大客流,却总让无数游客在欢乐的…

android rtsp 拉流h264 h265,解码nv12转码nv21耗时卡顿问题及ffmpeg优化

一、 背景介绍及问题概述 项目需求需要在rk3568开发板上面,通过rtsp协议拉流的形式获取摄像头预览,然后进行人脸识别 姿态识别等后续其它操作。由于rtsp协议一般使用h.264 h265视频编码格式(也叫 AVC 和 HEVC)是不能直接用于后续处…

运维面试题(十四)

6.将日志从一台服务器保存到另一台服务器中的方法 1.使用 rsync 同步日志文件 2.使用 scp 手动或脚本化传输 3.配置日志服务(如 syslog 或 rsyslog )远程传输  4.编写脚本定时上传:结合 cron 定时任务和传输工具,编…

永磁同步电机控制中,滑模观测器是基于反电动势观测转子速度和角度的?扩展卡尔曼滤波观测器是基于什么观测的?扩展卡尔曼滤波观测器也是基于反电动势吗?

滑模观测器在PMSM中的应用: 滑模观测器是一种非线性观测器,利用切换函数设计,使得状态估计误差迅速趋近于零,实现快速响应和对外部干扰的鲁棒性。 在永磁同步电机(PMSM)无传感器控制中,滑模观测…

【前端】Vue一本通 ESLint JSX

近几天更新完毕,不定期持续更新,建议关注收藏点赞。 目录 工具推荐vscode插件vue-devtoolsESLint JSX语法扩展简介设计模式快速入门 vue/cli脚手架使用vue指令 工具推荐 工欲善其事,必先利其器。 vscode插件 Vetur:vue代码高亮…

【adb】bat批处理+adb 自动亮屏,自动解锁屏幕,启动王者荣耀

准备adb 下载 需要确认是否安装了adb.exe文件,可以在: 任务管理器 -->详细信息–>找一下后台运行的adb 安装过anroid模拟器,也存在adb,例如:雷电安装目录 D:\leidian\LDPlayer9 单独下载adb 官方下载地址:[官方网址] 下载目录文件: 测试adb USB连接手机 首先在设置界…

微信小程序转为App实践篇 FinClip

参考下面链接先 开始实践 微信小程序转为App并上架应用市场_微信小程序生成app-CSDN博客 首先在FinClip 官网上下载应用 小程序开发工具下载_小程序sdk下载资源-FinClip资源下载|泰坪小程序开放平台 下载到本地安装 打开导入自己的小程序项目;导入时会解析自己的…

arco design框架中的树形表格使用中的缓存问题

目录 1.问题 2.解决方案 1.问题 arco design框架中的树形表格使用中的缓存问题,使用了树形表格的load-more懒加载 点击展开按钮后,点击关闭,再次点击展开按钮时,没有调用查询接口,而是使用了缓存的数据。 2.解决方…

100个GEO基因表达芯片或转录组数据处理023.GSE24807

100个GEO基因表达芯片或转录组数据处理 写在前边 虽然现在是高通量测序的时代,但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据,还是会有大量的需求去处理芯片数据,并且建模或验证自己所研究基因的表达情况,芯片…

SAP ECCS标准报表在报表中不存在特征CG细分期间 消息号 GK715报错分析

ECCS报表执行报错: 在报表中不存在特征CG细分期间 消息号 GK715 诊断 未在报表中指定特征CG细分期间。但是,同时需要特征CG细分期间和其它特征。例如: 期间’需要用于扩展合并组。 系统响应 处理终止 步骤 调整报表定义。 报这个错。 业务背景…

spring boot 文件下载

1.添加文件下载工具依赖 Commons IO is a library of utilities to assist with developing IO functionality. <dependency><groupId>commons-io</groupId><artifactId>commons-io</artifactId><version>2.6</version> </depe…

FastAPI 中定义接口函数参数,包含请求体参数、查询参数、依赖注入参数的组合

FastAPI 中定义接口函数参数&#xff0c;包含请求体参数、查询参数、依赖注入参数的组合。 ✅ 示例结构 async def chat(request: Request,data: ChatData,conversation_id: Optional[str] Query(None),current_user: User Depends(get_current_user), ):这表示你定义了一个…

实用类题目

1. 密码强度检测 题目描述&#xff1a;生活中&#xff0c;为保证账户安全&#xff0c;密码需要有一定强度。编写一个方法&#xff0c;接收一个字符串作为密码&#xff0c;判断其是否符合以下强度要求&#xff1a;长度至少为 8 位&#xff0c;包含至少一个大写字母、一个小写字…

MATLAB学习笔记(二) 控制工程会用到的

MATLAB中 控制工程会用到的 基础传递函数表达传递函数 零极点式 状态空间表达式 相互转化画响应图线根轨迹Nyquist图和bode图现控部分求约旦判能控能观极点配置和状态观测 基础 传递函数表达 % 拉普拉斯变换 syms t s a f exp(a*t) %e的a次方 l laplace(f) …

基于YOLOv9的课堂行为检测系统

基于YOLOv9的课堂行为检测系统 项目概述 本项目是一个基于YOLOv9深度学习模型的课堂行为检测系统&#xff0c;旨在通过计算机视觉技术自动识别和监测课堂中学生的各种行为状态&#xff0c;帮助教师更好地了解课堂教学效果。 项目结构 课堂行为检测/ ├── data/ │ ├──…

C 语言中的 volatile 关键字

1、概念 volatile 是 C/C 语言中的一个类型修饰符&#xff0c;用于告知编译器&#xff1a;该变量的值可能会在程序控制流之外被意外修改&#xff08;如硬件寄存器、多线程共享变量或信号处理函数等&#xff09;&#xff0c;因此编译器不应对其进行激进的优化&#xff08;如缓存…

java 洛谷题单【算法2-1】前缀和、差分与离散化

P8218 【深进1.例1】求区间和 解题思路 前缀和数组&#xff1a; prefixSum[i] 表示数组 a 的前 (i) 项的和。通过 prefixSum[r] - prefixSum[l - 1] 可以快速计算区间 ([l, r]) 的和。 时间复杂度&#xff1a; 构建前缀和数组的时间复杂度是 (O(n))。每次查询的时间复杂度是 …

绿盟二面面试题

5000篇网安资料库https://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247486065&idx2&snb30ade8200e842743339d428f414475e&chksmc0e4732df793fa3bf39a6eab17cc0ed0fca5f0e4c979ce64bd112762def9ee7cf0112a7e76af&scene21#wechat_redirect 1. 原理深度&…

线程安全学习

1 什么是线程 线程是cpu调度的最小单位&#xff0c;在Linux 下 实现线程的方式为轻量级进程&#xff0c;复用进程的结构体&#xff0c;使用clone函数创建 2 线程安全 所谓线程安全&#xff0c;更确切的应该描述为内存安全 #include <stdio.h> #include <pthread.h…

Linux红帽:RHCSA认证知识讲解(十 三)在serverb上破解root密码

Linux红帽&#xff1a;RHCSA认证知识讲解&#xff08;十 三&#xff09;在serverb上破解root密码 前言操作步骤 前言 在红帽 Linux 系统的管理工作中&#xff0c;系统管理员可能会遇到需要重置 root 密码的情况。本文将详细介绍如何通过救援模式进入系统并重新设置 root 密码。…