Waymo视角革新!MoST:编码视觉世界,刷新轨迹预测SOTA!

论文标题:

MoST: Multi-modality Scene Tokenization for Motion Prediction

论文作者:

Norman Mu, Jingwei Ji, Zhenpei Yang, Nate Harada, Haotian Tang, Kan Chen, Charles R. Qi, Runzhou Ge, Kratarth Goel, Zoey Yang, Scott Ettinger, Rami Al-Rfou, Dragomir Anguelov, Yin Zhou

导读:

现有的运动预测模型通常依赖于符号化的感知输出(如3D边界框),来生成智能体(如车辆、行人)的轨迹。然而,这种方法可能会因感知错误而变得脆弱,并且可能忽略了场景上下文中的关键信息。MoST方法通过将视觉世界划分为一组紧凑的场景元素,然后利用预训练的图像基础模型和LiDAR神经网络以开放词汇的方式编码所有场景元素,从而解决了这个问题。©️【深蓝AI】编译

1. 问题提出

在复杂环境中,自动驾驶系统需要准确模拟周围智能体的行为,来确保安全高效运行。当前的运动预测模型通常依赖于象征性的感知数据,如3D边界框,来描述智能体状态,而非直接处理原始传感器数据。这种简化输入的方法有助于构建计算效率更高的模型,并便于构建多种模拟场景进行测试。然而,为了提升模型的预测准确性和稳定性,则需要引入更高精度的传感器特征。

例如,相比于边界框,行人姿态和视线等信息能为运动预测提供更丰富的信息。某些场景元素(如车道线)和环境背景(如路面状况和危险区域)难以用简单的边界框表示。手工构建这些复杂概念的表示需要大量的工程工作。

深度学习模型通常在扩大计算资源和数据量时,通过直接利用观察到的特征来替代人工设计的特征,从而提高性能。然而,直接从高维传感器输入(如高分辨率的LiDAR和相机数据)学习预测复杂模式,如智能体行为,是一个极具挑战性的任务,需要处理大量点和像素的时空关系,而且端到端模型的中间表示难以验证。

2. 方案提出

为了解决上述问题,作者提出了一种新方法,它结合了传统的符号表示和学习到的场景标记。作者首先将场景分解为地面、检测到的智能体和未识别物体,然后利用大规模预训练的2D图像模型和3D点云模型来编码这些元素,提取出包含语义、几何和环境信息的标记。这些多模态信息被压缩成数百个标记,与智能体状态、道路图和交通信号灯信息一起输入到类似Wayformer的网络中。

作者通过在扩展后的Waymo Open Motion数据集(包含相机数据)上进行实验,评估了这种方法。模型在soft mAP和minADE上分别提升了6.6%和10.3%。即使在感知输出不准确和道路图信息不完整的情况下,我们的模型仍能保持出色的稳定性和准确性。我们发现,使用最新的图像模型取得了最佳结果,而其他预训练图像模型也显示了显著的性能提升。

在这里插入图片描述
▲图1|本文所提出的运动预测范式©️【深蓝AI】编译

3. 方法详析

我们创新性地提出了MoST,即多模态场景标记化技术,该技术旨在高效地融合多模态传感器数据以提升运动预测的性能。我们通过将连续帧的场景分解为一系列具有丰富语义和几何信息的场景元素,利用强大的预训练图像模型和3D点云处理网络对每个元素进行编码。

在这里插入图片描述
▲图2|多模态场景token化流程图©️【深蓝AI】编译

■3.1 图像编码与点像素关联

首先从每个摄像头提取图像特征图,然后利用传感器校准信息将这些特征与3D激光雷达点对应。每个时间步骤有K个摄像头捕获的图像,以及一个包含多个点的3D激光雷达点云。通过预训练的2D图像编码器,得到每个图像的特征图。

在这里插入图片描述
▲图3|场景分解可视化©️【深蓝AI】编译

■3.2 场景分解

将场景分解为地面、智能体和开放集合物体三种元素。地面元素通过分割模型或算法确定,智能体元素对应于检测到的智能体,开放集合物体包含未分类的其他物体。我们对每种元素进行计数,并将它们分组:

● 地面元素:划分为10米x10米的不相交区域。

● 智能体元素:基于已知的感知管道。

● 开放集合物体元素:通过连通分量分析分组。

每个激光雷达点分配一个唯一的token id,属于同一元素的点共享id。通过点像素关联,我们可以在图像特征图上定位这些元素。

作者用图像、粗几何和细几何特征组合编码场景元素。场景元素框B用于表示粗略几何。智能体元素的粗几何信息源于感知系统,包括位置、尺寸和方向;开放集合物体的边界框是点集的最小包围盒,用中心、尺寸和方向描述;地面元素用固定大小的格子表示,位置是格子中心。这些框与图像特征和细粒度特征一起编码。

在这里插入图片描述
▲图4|场景元素特征提取©️【深蓝AI】编译

■3.3 场景元素特征提取

我们使用神经网络提取场景元素特征。首先,多帧信息被高效压缩,然后输入到特征提取模块,为每个场景元素生成单一特征向量。特征提取模块与Transformer模型相连,形成端到端训练。

◆高效的多帧数据表示: 通过采用跟踪、聚合和下采样策略来减少数据量。开放集合元素通过卡尔曼滤波器跨帧关联,地面元素合并后分块,激光雷达点进行下采样。

◆网络架构: 网络接收跨T帧的图像嵌入、边界框和激光雷达点信息。通过空间-时间融合模块,网络将这些信息整合为每个场景元素的特征向量。这个向量可以输入到运动预测模型的场景编码模块中。

在这里插入图片描述
▲图5|定性结果对比©️【深蓝AI】编译

4. 实验结果

与现有的多模态方法相比,MoST在预测准确性和效率上都有显著提升。具体来说,MoST在多个评价指标(如平均精度、平均距离误差等)上超越了基线模型,证明了其在处理复杂多模态场景时的有效性。此外,MoST的内存效率和计算速度也得到了验证,表明它在实际应用中是可行的。

在这里插入图片描述
▲表1|WOMD相机编码的详细信息©️【深蓝AI】编译

在这里插入图片描述
▲表2|在WOMD验证集上的性能比较。列出了不同方法的最小平均绝对误差(minADE)、最小均方误差(minFDE)、漏检率、mAP和soft-mAP等指标,展示了MoST方法相对于其他方法的性能提升©️【深蓝AI】编译

在这里插入图片描述
▲表3|不同图像特征的消融研究。比较了使用不同预训练图像编码器(如DINO-v2、CLIP、VQ-GAN和SAM ViT-H)对运动预测性能的影响©️【深蓝AI】编译

在这里插入图片描述
▲表4|场景元素影响的消融研究。展示了不同场景元素(开放集代理、地面和多帧)对模型性能的贡献©️【深蓝AI】编译

在这里插入图片描述
▲表5|不同输入模态的消融研究。比较了仅使用LiDAR、仅使用相机图像特征和两者结合的效果©️【深蓝AI】编译

在这里插入图片描述
▲表6|场景token化策略的比较。比较了使用图像网格token和场景聚类token与不使用传感器数据的Wayformer基线的性能©️【深蓝AI】编译

在这里插入图片描述
▲表7|在困难场景中的评估。展示了MoST方法在挖掘的困难场景中相对于Wayformer基线的性能©️【深蓝AI】编译

在这里插入图片描述
▲表8|模拟感知和道路图失败的评估。展示了在不同比例的感知和道路图失败情况下,MoST方法的性能稳定性©️【深蓝AI】编译

5. 结论

本文提出了一种新的多模态场景分块化轨迹预测方法,有效地整合了图像和3D点云数据。通过跟踪、聚合和下采样策略,MoST能够减少数据表示的复杂性,同时保持高预测精度。实验结果证明了MoST在运动预测任务上的优越性,为多模态传感器融合提供了新的思路。未来的研究方向包括进一步优化数据表示和网络架构,以适应更复杂的环境和更高的实时性要求。

编译:Deep蓝同学

审核:Los

移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/23609.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

锁存器(Latch)的产生与特点

Latch 是什么 Latch 其实就是锁存器,是一种在异步电路系统中,对输入信号电平敏感的单元,用来存储信息。锁存器在数据未锁存时,输出端的信号随输入信号变化,就像信号通过一个缓冲器,一旦锁存信号有效&#…

深入解析Java中volatile关键字

前言 我们都听说过volatile关键字,也许大家都知道它在Java多线程编程编程中可以减少很多的线程安全问题,但是会用或者用好volatile关键字的开发者可能少之又少,包括我自己。通常在遇到同步问题时,首先想到的一定是加锁&#xff0…

移动web性能测试工具有哪些呢?

摘要:本文将介绍一系列移动Web性能测试工具,以帮助开发人员评估和优化移动网站和应用程序的性能。我们将从基本概念开始,逐步深入,详细介绍每种工具的特点、用途和使用方法。 1. 概述 1.1 移动Web性能测试的重要性 1.2 测试工具…

微信小程序-wx.showToast超长文字展示不全

wx.showToast超长文字展示不全 问题解决方法1 问题 根据官方文档,iconnone,最多显示两行文字。所以如果提示信息较多,超过两行,就需要用其他方式解决。 解决方法1 使用vant组件里面的tost 根据官方例子使用: 1、在…

【Python报错】已解决ModuleNotFoundError: No module named ‘packaging’

成功解决“ModuleNotFoundError: No module named ‘packaging’”错误的全面指南 在Python编程中,遇到ModuleNotFoundError: No module named packaging这样的错误,通常意味着你的Python环境中缺少名为packaging的模块,或者该模块没有被正确…

YOLOV5 图像分割:利用yolov5进行图像分割

1、介绍 本章将介绍yolov5的分割部分,其他的yolov5分类、检测项目参考之前的博文 分类:YOLOV5 分类:利用yolov5进行图像分类_yolov5 图像分类-CSDN博客 检测:YOLOV5 初体验:简单猫和老鼠数据集模型训练-CSDN博客 yolov5的分割和常规的分割项目有所区别,这里分割的结果…

网络编程(UPD和TCP)

//发送数据 //UDP协议发送数据 package com.example.mysocketnet.a02UDPdemo;import java.io.IOException; import java.net.*;public class SendMessageDemo {public static void main(String[] args) throws IOException {//发送数据//1.创建DatagramSocket对象(快递公司)//…

【Linux】线程安全的艺术:解锁互斥量在并发编程中的应用

文章目录 前言:1. 进程线程间的互斥相关背景概念1.1. 操作共享变量会有问题的售票系统代码: 2. 互斥量的接口2.1. 解决方案2.1.1. 使用全局的锁:2.1.2. 使用局部的锁:2.1.3. 封装为RAII风格的加锁和解锁:2.1.4. C 11 中…

Liunx音频

一. echo -e "\a" echo 通过向控制台喇叭设备发送字符来发声: echo -e "\a"(这里的 -e 选项允许解释反斜杠转义的字符,而 \a 是一个响铃(bell)字符) 二. beep 下载对应的包 yum -y install beep 发声命令 be…

YashanDB携手宏杉科技助力国产软件生态发展

近日,深圳计算科学研究院崖山数据库系统YashanDB与宏杉科技系列存储、系列服务器与数据库一体机等多款产品顺利完成兼容性互认证。经严格测试,双方产品完全兼容,稳定运行,共同提供高效、稳定、安全的国产软硬件一体化解决方案&…

《精通ChatGPT:从入门到大师的Prompt指南》大纲目录

第一部分:入门指南 第1章:认识ChatGPT 1.1 ChatGPT是什么 1.2 ChatGPT的应用领域 1.3 为什么需要了解Prompt 第2章:Prompt的基本概念 2.1 什么是Prompt 2.2 好Prompt的特征 2.3 常见的Prompt类型 第二部分:Prompt设计技巧 第…

解决 iOS 端小程序「saveVideoToPhotosAlbum:fail invalid video」问题

场景复现: const url https://mobvoi-digitalhuman-video-public.weta365.com/1788148372310446080.mp4uni.downloadFile({url,success: (res) > {uni.saveVideoToPhotosAlbum({filePath: res.tempFilePath,success: (res) > {console.log("res > &…

数学题目系列(一)|丑数|各位和|埃氏筛|欧拉筛

一.丑数 链接:丑数 分析: 丑数只有2,3,5这三个质因数,num 2a 3b 5c也就是一个丑数是由若干个2,3,5组成,那么丑数除以这若干个数字最后一定变为1 代码 class Solution {publi…

NocoDB开源的智能表格详解-腾讯文档本地替代品

文章目录 一、介绍二、docker-compose部署三、登录NocoDB四、NocoDB手册1. 创建项目2. 收集统计表2.1 添加字段2.2 编辑字段2.3 字段类型2.4 发布表格 3.创建表单3.1 创建表单3.2 分享表单3.3 填写检测单 4.创建看板5.创建画廊 一、介绍 可作为腾讯文档的本地电子表格替代品&a…

C# BindingSource 未完

数据绑定导航事件数据验证自定义示例示例总结 在 C#中, BindingSource 是一个非常有用的控件,它提供了数据绑定的基础设施。 BindingSource 允许开发者将数据源(如数据库、集合、对象等)与用户界面控件(如文本框、下…

5G+北斗智能手持终端在哪些行业中发挥作用

在当今科技融合发展的浪潮中,5G北斗智能手持终端正逐步成为驱动各行各业智能化升级的关键力量。这一融合创新技术不仅重塑了传统的通信与定位方式,而且在多个核心领域展现了其变革性的应用价值。 5G北斗智能手持终端因其独特的技术组合,在多个…

File类操作文件方法详解及其简单应用

一、File 类介绍 Java 中的 File 类是 java.io 包的一部分,它提供了操作文件和目录的能力。File 类可以用来表示文件系统中的文件或目录。 二、路径 在讲File用法之前咱们先介绍一下路径是什么? 在计算机中,路径(Path&#xff0…

kotlin 调用java的get方法Use of getter method instead of property access syntax

调用警告 Person.class public class Person {private String name;Person(String name) {this.name name.trim();}public String getName() {return name;}public void setName(String name) {this.name name;}public String getFullName() {return name " Wang&quo…

【MySQL】数据库入门基础

文章目录 一、数据库的概念1. 什么是数据库2. 主流数据库3. mysql和mysqld的区别 二、MySQL基本使用1. 安装MySQL服务器在 CentOS 上安装 MySQL 服务器在 Ubuntu 上安装 MySQL 服务器验证安装 2. 服务器管理启动服务器查看服务器连接服务器停止服务器重启服务器 3. 服务器&…

麒麟操作系统rpm ivh安装rpm包卡死问题分析

夜间变更开发反应,rpm -ivh 安装包命令夯死,无执行结果,也无报错 排查 : 1、top 查看无进程占用较高进程存在,整体运行平稳 2、df -h 查看磁盘并未占满 3、其他服务器复现该命令正常执行 4、ps -ef|grep rpm 查看安装命令仍在运行中 5、查看log日志,均正常并无不良日志…