中国科学院大学与美团发布首个交互式驾驶世界模型数据集DrivingDojo:推进交互式与知识丰富的驾驶世界模型

中国科学院大学与美团发布首个交互式驾驶世界模型数据集DrivingDojo:推进交互式与知识丰富的驾驶世界模型

Abstract

驾驶世界模型因其对复杂物理动态的建模能力而受到越来越多的关注。然而,由于现有驾驶数据集中的视频多样性有限,其卓越的建模能力尚未得到充分发挥。为此,我们引入了 DrivingDojo,这是首个专门为训练具有复杂驾驶动态的交互式世界模型量身定制的数据集。该数据集包含完整的驾驶操作、多样化的多主体交互,以及丰富的开放世界驾驶知识,为未来世界模型的发展奠定了基础。我们进一步定义了一个基于行动指令跟随 (AIF) 的基准测试,展示了所提出数据集在生成行动控制的未来预测中的优势。

代码获取:https://drivingdojo.github.io

 欢迎加入自动驾驶实战群

Introduction

世界模型因其能够对现实世界复杂的物理动态进行建模而备受关注,它们还具有作为通用模拟器的潜力,能够根据不同的行动指令预测未来状态。通过视频生成技术的进步,模型如 Sora 在生成高质量视频方面取得了显著成功,从而开辟了将视频生成视为现实世界动态建模问题的新途径。特别是生成式世界模型作为现实世界模拟器显示出巨大的潜力,并在自动驾驶领域引发了广泛的研究。

然而,现有的驾驶世界模型在满足自动驾驶基于模型规划的需求方面尚显不足,尤其是在涉及多样化的驾驶操作和复杂的多主体交互的情况下。这些模型在非交互式直线路径驾驶场景中表现良好,但在跟随更具挑战性的行动指令(如变道)方面表现有限。构建下一代驾驶世界模型的一个主要障碍在于数据集。当前常用于世界模型文献中的自动驾驶数据集,如 nuScenes、Waymo 和 ONCE,主要是为感知任务设计的,导致其驾驶模式和多主体交互的数据较为有限,难以充分捕捉现实世界驾驶环境的复杂动态。

在本文中,我们提出了 DrivingDojo,这是一个大规模的驾驶视频数据集,旨在模拟现实世界的视觉交互。该数据集具备驾驶操作完整性、多主体交互性,以及丰富的开放世界驾驶知识。DrivingDojo 数据集包含丰富的纵向操作(如加速、紧急刹车和停车启动)和横向操作(如掉头、超车和变道)。此外,我们还特别设计数据集,包含大量包含多主体交互的轨迹(如插入、切断和正面汇入)。最后,DrivingDojo 包含稀有事件的视频,如穿越动物、掉落的瓶子和路面碎片。

为了衡量驾驶场景建模的进展,我们提出了一个新的行动指令跟随 (AIF) 基准,用以评估世界模型执行合理未来滚动预测的能力。AIF 基准通过计算生成视频中动作与给定指令的误差来评估长期运动可控性。我们还在 DrivingDojo 数据集上评估了世界模型的基线方法。

3. The DrivingDojo Dataset

我们的目标是提供一个大型且多样化的动作指令驾驶视频数据集——DrivingDojo,以支持驾驶世界模型的发展。为实现这一目标,我们从通过车队数据收集的视频池中提取了高度信息化的剪辑,这些数据跨越了数年,涵盖了超过500辆运营车辆,分布于中国多个主要城市。DrivingDojo 特点包括多样化的自车动作、与道路使用者的丰富交互,以及稀有的驾驶知识,这对于高质量的未来预测至关重要,如表2所示。

图片

我们从 DrivingDojo 的设计原则及其与现有数据集的独特性开始进行说明,详见3.1至3.3节。然后,我们在3.4节中描述了数据筛选程序和统计信息。

3.1 动作的完整性

将驾驶世界模型作为真实世界模拟器使用时,要求它能够准确地遵循动作指令。现有的自动驾驶数据集(如 ONCE 和 nuScenes)通常是为开发感知算法而设计的,因此缺乏多样的驾驶操作。

为使世界模型能够生成无限数量的高保真、可控动作的虚拟驾驶环境,我们创建了一个名为 DrivingDojo-Action 的子集,该子集特征为驾驶操作的平衡分布。该子集涵盖了多种纵向操作(如加速、减速、紧急刹车和起停驾驶)以及横向操作(如变道和保持车道)。如图3a所示,我们的 DrivingDojo-Action 子集相较于现有的自动驾驶数据集提供了更平衡和完整的自车动作集。

3.2 多主体交互

除了在静态路网环境中导航外,建模多主体交互(如并线和让行)的动态也是世界模型的重要任务。然而,当前的数据集要么没有考虑多主体交互(如 nuScenes 和 Waymo),要么是从大规模互联网视频中构建的,缺乏适当的筛选和平衡(如 OpenDV-2K)。

为解决这一问题,我们设计了 DrivingDojo-Interplay 子集,重点关注与动态主体的交互。正如图1b所示,我们特别筛选了这一子集,包含以下驾驶场景:插入/切出、相遇、堵塞、超车和被超车。这些场景涵盖了多种现实情况,如车辆插入车道、遇到对向来车以及需要紧急刹车等。通过包含这些多样化的场景,我们的数据集使得世界模型能够更好地理解和预测与动态主体的复杂交互,从而提高其在真实驾驶条件下的表现。

图片

3.3 丰富的开放世界知识

与感知和预测模型将高维传感器输入压缩为低维向量表示不同,世界模型在像素空间中操作,具有更强的建模能力。这种增加的能力使世界模型能够有效捕捉开放世界驾驶场景的复杂动态,如动物突然穿越道路或车辆货箱中的物品掉落。

然而,现有的数据集,无论是感知导向的 ONCE 还是规划导向的 nuPlan,都没有足够的数据来开发和评估世界模型对长尾知识的建模能力。因此,我们特别强调了包含丰富开放世界知识的视频片段,并构建了 DrivingDojo-Open 子集。如图1c所示,描述开放世界驾驶知识面临复杂性和多样性带来的挑战,但这些场景对于确保安全驾驶至关重要。

DrivingDojo-Open 子集包含 3.7k 视频片段,展示了驾驶场景中的开放世界知识。该子集从车队数据中筛选而来,涵盖了异常天气、路面上的异物、漂浮障碍物、掉落物品、车辆接管案例以及与交通灯和栏杆的互动。DrivingDojo-Open 为驾驶世界建模提供了不可或缺的补充,涵盖了超出结构化路网和常规道路使用者互动的驾驶知识。

3.4 数据筛选与统计

数据集统计:DrivingDojo 数据集包含约 18k 视频,分辨率为 1920×1080,帧率为 5 fps。视频片段来自包括北京、深圳、徐州等在内的中国主要城市。这些视频在多种天气条件和不同的光照条件下拍摄。所有视频都配有由高精度定位技术支持的 HD-Map 提供的同步相机姿态信息。DrivingDojo-Open 子集中的视频还配有描述稀有事件的文本说明。更多详情请见附录。

数据采集:我们使用美团的自动化配送车辆平台采集了多模态车队数据。我们数据集中的视频片段由前视摄像头录制,摄像头的水平视场为 120°,以捕捉全面的视觉信息。原始数据是从 2022 年 5 月到 2024 年 5 月期间在中国多个城市采集的,包含总共 90 万个视频和约 7,500 小时的驾驶影像,在录制之前已经进行了预筛选。

数据筛选:为确保数据的多样性以及自车动作和多主体交互的平衡分布,我们包含了不同标准的车队数据。DrivingDojo 的数据来源包括:(1) 车辆运行期间安全检查员的干预数据,(2) 自动紧急刹车数据,(3) 随机采样的 30 秒常规视频,(4) 选定的独特场景,如交通灯变化、栏杆升起、左转和右转、直行穿越、车辆相遇、变道和行人交互,(5) 手动排序的稀有数据,包含路面上的移动和静止异物、漂浮障碍物、掉落和滚动物体。筛选详情见附录。

个人身份信息 (PII) 去除:为了避免侵犯隐私并遵守相关法律,我们使用高精度车牌和人脸检测器检测并模糊了所有视频中每一帧的 PII。由内部注释团队和作者手动检查,确保所有视频的 PII 去除程序正确执行。

4 DrivingDojo for World Model

为了促进自动驾驶中世界模型的研究,我们定义了一项新任务——动作指令跟随 (AIF)。我们提供了基线方法(详见第4.2节)和评估指标(详见第4.3节),以便进一步探索。更多详细信息请参阅附录。

4.1 动作指令跟随

动作可控的视频预测是世界模型的核心能力之一。与仅仅专注于预测高质量的视频帧不同,动作指令跟随要求世界模型考虑初始视频帧和自车的动作指令,以预测相应的世界响应。给定初始图像和一系列动作

图片

,模型 预测未来状态

图片

,如公式(1)所示:

图片

其中,

图片

表示每帧的动作指令,在我们的实验中,动作轨迹

图片

 。代表世界模型,

图片

表示未来的视觉预测帧。

4.2 模型架构

我们提出了 DrivingDojo 基线模型,这是一个基于 Stable Video Diffusion (SVD)的视频生成模型。虽然 SVD 是一个用于图像到视频生成的潜在扩散模型,但我们扩展了其功能,使其能够在动作的条件下生成视频。

对于 AIF 任务,我们将每个动作序列的值编码为一个1024维的向量,使用一个多层感知器 (MLP) 完成编码。随后,将该动作特征与第一帧图像特征连接起来,并输入到 U-Net中进行处理。

4.3 评估指标

视觉质量:为了评估生成视频的质量,我们采用 FID 和 FVD 作为主要指标。
动作指令跟随:我们提出了 动作指令跟随 (AIF) 误差 

图片

和 

图片

来衡量生成视频与输入动作条件之间的一致性。给定生成的视频序列

图片

,我们使用结构光重建 (SfM) 的离线视觉实现工具(如 COLMAP)来估计生成视频中的车辆轨迹:{

图片

,其中 

图片

是未知尺度的估计轨迹。我们通过最小化第一 N 帧的估计轨迹与输入自车运动之间的误差来估计尺度因子。随后,我们将估计的动作与真实的动作指令

图片

进行比较,并报告横向 

图片

和纵向

图片

动作的平均绝对误差:

图片

5.Experiment

5.1 视觉预测结果

为了展示我们数据集中行为和动态的丰富性,我们比较了不同数据集上视频微调的质量。表 3 显示了我们从 OpenDV-2K 数据集中随机选择的 256 个视频片段作为测试集,并评估了 SVD 模型在各种数据集上的微调表现。结果表明,使用我们数据集训练的模型表现出了更好的视觉质量。

图片

5.2 动作指令跟随结果

多样化的驾驶行为:基于不同的动作序列,我们的模型能够生成多个可能的未来。如 图 5 所示,模型成功执行了各种驾驶动作,包括在交叉路口的直行、左转和右转动作,以及左右变道和保持直线行驶。

图片

动作指令跟随:尽管定性评估展示了我们模型强大的生成能力,我们还通过定量评估来测量模型在动作指令跟随中的准确性。我们希望评估模型生成的视频轨迹是否能准确遵循预期的路线。这是世界模型未来应用的基本保障。正如 表 4 所示,当以测试视频的原始动作序列(域内动作)为条件时,训练于 DrivingDojo 的基线世界模型生成的视频对动作指令具有较高的忠诚度,每帧的视频动作误差仅限于横向或纵向方向上的 10 厘米。第 3 行显示,当使用相同的初始图像并随机选择的动作指令输入模型时,平均动作误差略有增加。当模型在 OpenDV-2K 的初始图像上以零样本模式运行并输入随机动作指令时,其生成的视频仍然能够较好地与动作指令保持一致。需要注意的是,提出的动作指令跟随误差可以敏感地反映模型在域外输入下的表现影响。

图片

零样本评估:如 表 5 所示,我们比较了在不同数据集上训练的模型及其在新数据集上的零样本泛化性能。结果表明,使用我们数据集训练的模型在生成质量和动作跟随能力上表现更好。特别是我们注意到,自动驾驶数据集中更丰富的驾驶动作显著提升了模型在动作指令跟随任务中的表现。如 图 3a 所示,DrivingDojo 中的视频相比于 ONCE 或 nuScenes 包含更丰富的驾驶动作,这使得训练于 DrivingDojo 的模型在动作指令跟随(AIF)表现上明显优于那些在 ONCE 或 nuScenes 上训练的模型。我们观察到,在 ONCE 数据集上训练的模型,即使输入了左/右转或变道的动作指令,也总是生成车辆直线行驶的视频,这导致其在横向动作跟随(

图片

)表现上尤其差。我们推测,这是因为 ONCE 数据集中转弯或变道的驾驶动作很少,这导致了该数据集上训练的模型缺乏跟随横向动作的能力。而 nuScenes 数据集中更缺乏驾驶动作,导致其世界模型的 AIF 表现更差。

图片

图片

AIF 可视化:我们在 图 6 中展示了生成视频中估计轨迹的示例。每帧中,红点表示当前的相机位置估计,黑点表示过去帧中的相机位置。通过可视化对比,进一步展示了模型准确跟随动作指令的能力。

图片

5.3 真实世界模拟

图片

动作泛化:我们的模型在两个关键方面表现出了较强的泛化能力。如 图 7a 所示,首先,模型能够很好地泛化到域外(OOD)动作,如强行在行人道上行驶,展示了它在处理不合理动作时的适应性。其次,模型成功地将其能力扩展到其他数据集上,执行了 OpenDV-2K 数据集上的变道任务,以及 nuScenes 数据集上的倒车操作,而无需进一步微调。这突显了该模型作为真实世界模拟器的潜力,能够适应多样的驾驶场景。

动态代理:我们在 图 7b 中展示了模型模拟与动态代理交互的能力。结果表明,模型可以根据动作提供合理的响应。第一个场景中,行人选择避让,我们的车辆继续前进,导致了轨迹的变化。第二个场景中,快递员选择在狭窄的道路上停止等待。

开放世界动态:此外,图 7b 展示了模型在道路上遇到稀有场景时的模拟,包括与移动鸟类和停车场栏杆的交互。这进一步展示了该模型处理多样驾驶场景的稳健性和多功能性。

结论

本文的主要贡献如下:

(1) 本文设计了一个大规模驾驶视频数据集,促进自动驾驶世界模型的研究。与之前的数据集相比,我们的数据集具备完整的驾驶操作、多样化的多主体交互和丰富的开放世界驾驶知识。
(2) 本文设计了一个基于行动指令跟随的驾驶世界模型任务,并提供了相应的视频世界模型基线方法。
(3) 在驾驶视频生成和行动指令跟随的基准测试结果表明,DrivingDojo 为未来驾驶世界模型的发展提供了许多新机遇。

文章引用:DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model

最后别忘了,帮忙点“在看”。  

您的点赞,在看,是我创作的动力。

AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。

长按扫描下面二维码,加入知识星球。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/56505.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

简述RESTFul风格的API接口

目录 传统的风格API REST风格 谓词规范 URL命令规范 避免多级URL 幂等 CURD的接口设计 REST响应 响应成功返回的状态码 重定向 错误代码 客户端 服务器 RESTful的返回格式 返回格式 从上一篇文章我们已经初步知道了怎么在VS中创建一个webapi项目。这篇文章来探讨一…

外包干了2个月,技术明显退步

回望过去,我是一名普通的本科生,于2019年通过校招有幸加入了南京某知名软件公司。那时的我,满怀着对未来的憧憬和热情,投入到了功能测试的岗位中。日复一日,年复一年,转眼间,我已经在这个岗位上…

牵手App红娘来助力,打造线上交友“好管家”

线上交友以其便捷性、广泛性和互动性等特点,正逐渐成为单身男女寻找恋爱伴侣的重要渠道。相较于传统相亲模式,线上交友不仅打破了时间和空间的限制,更以其丰富的互动功能和个性化的匹配算法,为用户提供了前所未有的交友体验。在这…

Python数据分析-航空公司客户满意度分析

一、研究背景 随着航空业的快速发展,航空公司之间的竞争愈发激烈。航空公司不再仅仅依靠价格、航班时间等基本要素来吸引客户,而更多地关注如何提升客户体验与满意度。乘客的飞行体验和满意度不仅影响了他们的忠诚度,也对航空公司在市场中的…

IJKPlayer源码分析-整体结构

根据我们的之前的老方法,采用结构化的方式来对IJKPlayer源码做个分析,首先,我们从整体的角度先把IJKPlayer的整体架构和流程讲下,让大家先有个整体的印象。 本地JNI入口 在Android环境下,JVM层载入一个本地so库流程大致…

【C++11】包装器:深入解析与实现技巧

C 包装器:深入解析与实现技巧 个人主页 C专栏 目录 引言包装器的定义与用途C 包装器的常见应用场景实现包装器的技巧使用 RAII 实现资源管理案例分析:智能指针模板包装器的应用包装器与设计模式性能优化更多应用案例总结 引言 C 是一门灵活且强大的语…

vue后台管理系统从0到1搭建(4)各组件的搭建

文章目录 vue后台管理系统从0到1搭建(4)各组件的搭建Main.vue 组件的初构 vue后台管理系统从0到1搭建(4)各组件的搭建 Main.vue 组件的初构 根据我们的效果来看,分析一下,我们把左边的区域分为一个组件&am…

Learn OpenGL In Qt之纹理

竹杖芒鞋轻胜马,谁怕?一蓑烟雨任平生~ 公众号: C学习与探索 | 个人主页: rainInSunny | 个人专栏: Learn OpenGL In Qt 文章目录 纹理纹理坐标纹理环绕方式纹理采样多级渐远纹理 纹理加载和创建加载纹理创建纹理 应用纹理 纹理 纹理坐标…

【AWS AMI跨境备份】跨境使用 S3 备份和还原 AMI 镜像

文章目录 一、实验场景二、实验目标三、实验架构图四、涉及到AWS服务五、演示操作5.1 创建EC2实例5.2 创建映像5.3 备份AMI至Global S35.4 复制AMI从Global S3至 CN S35.5 还原AMI5.6 测试AMI 六、参考链接 一、实验场景 将 AWS Global区域的EC2实例备份至 AWS CN区域。 备份…

苍穹外卖学习笔记(二十五)

文章目录 Spring Task介绍应用场景: cron表达式例如: 入门案例 订单状态定时处理处理超时订单处理一直配送中的订单OrderMapper WebSocket介绍HTTP协议和WebSocket协议对比应用场景:入门案例1. 使用websocket.html作为WebSocket客户端2. 导入…

前端打印功能(vue +springboot)

后端 后端依赖生成pdf的方法pdf转图片使用(用的打印模版是带参数的 ,参数是aaa)总结 前端页面 效果 后端 依赖 依赖 一个是用模版生成对应的pdf,一个是用来将pdf转成图片需要的 <!--打印的--><dependency><groupId>net.sf.jasperreports</groupId>&l…

LCD补充

LCD补充 目录 LCD补充 tip:随着我们学的越来越多&#xff0c;代码长度越来越长&#xff0c;编译越来越慢&#xff0c;有没有超过内存是我们比较关心的一件事&#xff0c;通过以下方法可以实时看到写的代码的大小 回顾LCD LCD补充功能 -- 1、有关在LCD上显示动图&#xff…

前端使用Canvas实现网页电子签名(撤销、下载)

前言&#xff1a;一般在一些后台的流程资料以及审核的场景中会需要电子签名&#xff0c;介绍一种用canvas实现的电子签名&#xff0c;此案例用的是原生js 效果展示&#xff1a; 一、html和css&#xff1a; <div class"divCla2"><canvas id"myCanvas&q…

数据结构-排序算法

基于交换的排序算法 快速排序&#xff1a; 最优情况 最优情况下&#xff0c;每次找到的参考轴把数据分成均匀的两半&#xff0c;最后应该是一个平衡二叉树状态&#xff1b;二叉树的层数&#xff08;logn&#xff09;即为递归需要进行的次数&#xff0c;并且每轮递归结束时&…

Java语言-抽象类

目录 1.抽象类概念 2.抽象类语法 3.抽象类特性 4.抽象类作用 1.抽象类概念 在面向对象的概念中&#xff0c;所有的对象都是通过类来描绘的&#xff0c;但是反过来&#xff0c;并不是所有的类都是用来描绘对象的&#xff0c; 如果 一个类中没有包含足够的信息来描绘一个具体…

115.WEB渗透测试-信息收集-ARL(6)

免责声明&#xff1a;内容仅供学习参考&#xff0c;请合法利用知识&#xff0c;禁止进行违法犯罪活动&#xff01; 内容参考于&#xff1a; 易锦网校会员专享课 上一个内容&#xff1a;114.WEB渗透测试-信息收集-ARL&#xff08;5&#xff09; httpd就是apache环境&#xff0…

跨平台音摄像头|屏幕推送选OBS还是SmartPublisher?

好多开发者希望搞明白OBS和 SmartPublisher的区别和使用场景差别&#xff0c;本文就二者差别做个对比&#xff1a; OBS OBS&#xff08;Open Broadcaster Software&#xff09;是一款免费且开源的跨平台流媒体和视频录制软件。以下是关于它的详细介绍&#xff1a; 功能特点&a…

音乐播放器项目专栏介绍​

1.简介 本专栏使用Qt QWidget作为显示界面&#xff0c;你将会学习到以下内容&#xff1a; 1.大量ui美化的实例。 2.各种复杂ui布局。 3.常见显示效果实现。 4.大量QSS实例。 5.Qt音频播放&#xff0c;音乐歌词文件加载&#xff0c;展示。 6.播放器界面换肤。 相信学习了本专栏…

Oracle Expdp按条件导出-指定表数据

1.场景描述 业务需求&#xff1a;导出A机构、2024的数据&#xff0c;以dmp格式&#xff0c;保留导出日志。首先&#xff0c;需要分析库中需要导出的表清单、表的机构字段约束、表的时间约束&#xff1b;然后再导出。 2.方案分析 本次采用Oracle的expdp数据泵方式导出&#xf…

基于Docker的FRP内网穿透部署

服务器搭建&#xff08;FRPS&#xff09; 创建配置文件 # 创建存放目录 sudo mkdir /etc/frp # 创建frps.ini文件 nano /etc/frp/frps.ini frps.ini内容如下&#xff1a; [common] # 监听端口 bind_port 7000 # 面板端口 dashboard_port 7500 # 登录面板账号设置 dashboa…