25年2月来自华中理工和百度的论文“”The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey“。
驾驶世界模型 (DWM) 专注于预测驾驶过程中的场景演变,已成为实现自动驾驶一个有前途的范例。这些方法使自动驾驶系统能够更好地感知、理解和与动态驾驶环境交互。本综述全面概述 DWM 的最新进展。根据预测场景的模态对现有方法进行分类,并总结它们对自动驾驶的具体贡献。此外,还回顾 DWM 研究范围内针对不同任务的高影响力数据集和各种指标。最后,讨论当前研究的潜在局限性并提出未来的方向。
世界模型旨在根据过去的观察和行动预测未来的观察 [Ha & Schmidhuber,2018]。在自动驾驶中,现实世界驾驶场景的广阔视野和高度动态性带来独特的挑战 [Gao et al.,2024a]。尽管如此,驾驶世界模型 (DWM) 通过促进准确的场景演变预测,在应对复杂环境中发挥着至关重要的作用。最近,DWM 因其在确保安全可靠的自动驾驶方面发挥的重要作用而受到越来越多的关注。
如图所示,DWM 通常涉及预测场景演变,即根据历史观察生成未来场景。在此基础上,大多数方法可以进一步控制场景演变以符合给定条件或输出由观察和预测产生的响应。由于自动驾驶需要处理多种数据类型,DWM 已导致预测不同模态场景的变型。一些方法利用 2D 图像中的语义信息 [Hu et al., 2023; Wang et al., 2024b],而另一些方法则学习 3D 点云中的空间几何和精确动态 [Zhang et al., 2024b; Yang et al., 2024c] 或占用情况 [Zheng et al., 2024a; Wang et al., 2024a]。此外,本文系统地归类为无场景范式的一些方法,优先考虑潜状态 [Li et al., 2024b; Li et al., 2024a] 或多智体行为 [Zhang et al., 2023; Hamdan and Gu ̈ney, 2024],而不是属于详细场景的范式。
实现自动驾驶的道路上将面临诸多挑战,例如高昂的数据采集成本、动态环境的复杂性以及罕见情况的管理等。DWM 可以通过预测未来状态来改进规划 [Yang et al., 2024b; Wang et al., 2024d]、使用多样化的合成数据来丰富训练数据集 [Zyrianov et al., 2024; Yang et al., 2024d],以及通过可扩展的预训练来增强下游任务 [Gao et al., 2024a; Min et al., 2024],从而为这些问题提供切实可行的解决方案。这些发展凸显 DWM 在该领域的多功能性和有效性。
驾驶世界模型 (DWM) 的预测场景涵盖多种模态,包括图像、点云和占用率,从而带来独特的优势和挑战。最近的进展越来越侧重于利用互补的多传感器数据来发挥各个模态的优势,同时减轻其固有的局限性。此外,无场景范式探索潜空间内的预测或专注于对复杂的多智体交互进行建模。下表概述最近的方法:
2D 场景演化
驾驶世界模型 (DWM) 利用先进的生成技术(例如自回归Transformer和扩散)来预测逼真的 2D 场景演化,同时确保物理合理性。
GAIA-1 [Hu et al., 2023] 率先将场景演化预测制定为下一个token预测任务,并利用扩散解码器系统地捕获驾驶场景中的时空动态和高级结构。相比之下,DriveDreamer [Wang et al., 2024b] 推进用于多模态控制的条件扩散框架,并将 DWM 范式扩展到合成数据生成。在这些基础方法的基础上,后续的 DWM 研究主要集中于提高场景演化预测的保真度、一致性和可控性。
生成场景的保真度,对于确保真实世界驾驶场景的物理模拟至关重要。Vista [Gao et al., 2024a] 采用稳定的视频扩散并引入损失函数来捕捉动态行为,同时保持结构完整性,从而实现高分辨率和高保真度的场景生成。此外,它通过合并多个参考帧来确保合理的动态。
DWM 预测的场景演变,应准确反映 3D 世界,确保每个目标都具有合理的 3D 位置和空间关系,同时整个场景表现出空间连续性。通过分解联合建模来预测以相邻视图为条件的中间视图,Drive-WM [Wang et al., 2024d] 显著提高视图之间的一致性。此外,DrivePhysica [Yang et al., 2024d] 引入了 3D 边框坐标条件,以增强对空间关系的理解,增强空间一致性并提高对遮挡结构的理解。另一方面,WoVoGen [Lu et al., 2024] 预测明确的世界体来指导多视角视频生成,确保世界内和传感器间的一致性。同样,NeMo [Huang et al., 2024] 和 GEM [Hassan et al., 2024] 将 3D 预测任务纳入其框架,而 BEVWorld [Zhang et al., 2024c] 通过集成多传感器数据输入扩展这些努力。
时间一致性在使 DWM 能够有效捕捉场景的演变动态方面起着关键作用。确保预测序列中帧之间的连贯过渡对于反映现实场景演变至关重要。最近的进展通过架构创新解决了这一挑战。例如,InfinityDrive [Guo et al., 2024] 引入一个多分辨率时空建模框架,可在训练期间逐步扩展时间感受野。通过集成旨在保留长距离时间依赖性的记忆机制,这种方法得到了进一步增强。与此同时,DrivingWorld [Hu et al., 2024] 通过提出一套技术来解决自回归方法中的时间连贯性问题,包括时间-觉察 token化、下一状态预测、随机 token 丢弃和平衡注意策略。这些创新共同显著提高在动态场景理解中建模时间一致性的能力。
合理的 DWM 会在生成未来场景时适应特定要求。如上表所示。 控制条件大致分为两类:1)低级条件,例如动作(自车辆信息)、轨迹(坐标或位移)和布局(目标位置),为自车辆运动和目标定位设定精确的规范。2)高级条件,例如文本(命令或描述)和目的地(车辆到达地点),不仅需要实现指定的目标,还需要创建合乎逻辑的中间步骤。一些研究有效地整合低级或高级控制条件来生成未来场景,产生合理的输出响应,如驾驶动作、未来轨迹和文本。其中,GEM [Hassan et al., 2024] 在平衡两种条件类型方面表现出色,制作的驾驶视频严格遵循指定的轨迹,同时实现向期望位置的自然移动。相反,DriveDreamer-2 [Zhao et al., 2024b] 利用大语言模型从高级文本输入中得出各种低级条件,从而显著增强生成图像的多样性,并提供用户友好的生成过程。注:控制条件和输出响应也广泛应用于 3D和无场景范式。
总之,DWM 采用生成技术来合成具有时空一致性和物理合理性的逼真 2D 驾驶场景。这些框架有效地提高照片级真实感、可控性和稳定性,从而能够可靠地预测场景演变。
3D 场景演化
3D 数据表示本质上保留结构一致性、详细的几何信息和精确的空间关系,使预测 3D 场景演化成为驾驶世界模型 (DWM) 的重要任务。在实践中,通常使用两种主要类型的 3D 数据,即占用和点云。
占用场景演化。占用提供几何一致的体建模和结构化空间编码,这使得占用特别适合建模场景演化并被广泛采用于各种方法中。
OccWorld [Zheng et al., 2024a] 使用时空Transformer从历史观察中生成未来场景和自我姿势 token,并通过空间混合实现全局一致的场景预测。随后,OccLLaMA [Wei et al., 2024] 集成多模态大语言模型作为核心架构,而 RenderWorld [Yan et al., 2024] 分别对空气网格和非空气网格进行token化,以进行细粒度的 3D 场景建模。基于扩散的方法进一步提高可控性和生成质量。OccSora [Wang et al., 2024a] 可以在给定任意轨迹的情况下预测 4D 占用场景演变。DOME [Gu et al., 2024] 采用类似 VAE 的连续token化器来保存复杂的空间信息。注意到占用率的高计算要求,最近的方法试图提高效率。DFIT-OccWorld [Zhang et al., 2024a] 仅预测动态体素流,同时通过姿势变换计算静态体素。类似地,GaussianWorld [Zuo et al., 2024] 明确地在高斯空间中模拟场景演变,关注变化场景而不是重建整个场景。
由于无法直接从传感器获得占用率,因此从图像中重建占用率至关重要。DWM 将此 3D 预测任务扩展到 4D,即时空预测。一种直接的方法是集成 Img2Occ 模块,这可能会导致错误的累积。然而,最近的进展旨在直接从 2D 输入推断 3D 世界的时空演变,从而实现语义、3D 结构和时间动态的协同学习。DriveWorld [Min et al., 2024] 传播静态空间上下文,同时预测场景中的动态时间变化。通过从多视角视频中学习时空表征,它实现了精确的占用预测。此外,Drive-OccWorld [Yang et al., 2024b] 将规划器与 DWM 相结合,利用运动-觉察 BEV 序列作为中介,直接从多视角图像中预测占用和流量。这种整合为规划器提供丰富的先验知识,从而提高规划过程的安全性和准确性。
除了从图像中重建占用外,一些方法还从点云中获取占用伪标签,从而实现自监督训练。例如,UnO [Agro et al., 2024] 通过从未来的激光雷达扫描中采样正例和负例来生成连续占用场,从而实现对点云的自监督学习。类似地,UniWorld [Min et al., 2023] 和 NeMo [Huang et al., 2024] 通过体素化点云来生成占用伪标签。UniWorld 融合多帧点云作为伪标签并学习时空动态,而 NeMo 进一步集成图像预测和运动流模块以增强体表征,提高规划性能。
点云场景演化。点云通常由激光雷达传感器捕获,可提供 3D 环境的精确几何表示。然而,它们的稀疏和非结构化性质对生成任务构成重大挑战,使有效利用它们进行场景建模和预测变得复杂。Copilot4D [Zhang et al., 2024b] 采用 VQ-VAE token化器来解决复杂的观察问题,并通过利用改进的离散扩散采用并行推理加速方法。此外,LidarDM [Zyrianov et al., 2024] 通过结合静态场景和移动目标来生成布局-觉察的点云视频。
视觉点云预测不是直接输入点云,而是试图仅使用历史视觉图像来预测未来的点云演变。ViDAR [Yang et al., 2024c] 提出将视觉点云预测作为一项可扩展的预训练任务,并探索语义、3D 结构和时间动态的整合。最近,HERMES [Zhou et al., 2025] 应运而生,将视觉点云预测与语言任务相结合,以增强生成和场景理解。尽管 ViDAR 使用了更长的历史范围和先进的潜渲染模块,但它的表现仍明显优于 ViDAR。
多传感器数据融合,已成为自动驾驶系统发展的关键趋势,因为它能够将二维数据的高分辨率细节与三维数据的精确空间几何集成在一起。MUVO [Bog-doll et al., 2023] 将多模态数据组合成与传感器无关的几何表示,从而通过图像、占用率和点云实现准确的场景建模和演化预测。同样,BEVWorld [Zhang et al., 2024c] 将图像和点云合并为统一的 BEV 表征,并通过扩散预测未来的表示,随后使用基于渲染的方法重建多传感器数据,从而实现自监督学习。相比之下,HoloDrive [Wu et al., 2024] 采用两个独立的模型并将它们对齐以联合生成多摄像头数据和 激光雷达数据,确保二维和三维空间之间的一致性。
总体而言,DWM 将生成技术扩展到 3D 场景演化,利用占用和结构化表示来确保空间一致性,同时集成生成技术进行动态预测。它们通过多传感器融合增强对场景的理解,从而能够更准确、更稳健地预测复杂的场景演化。
无场景范式
除了常用的图像、点云和占用预测外,一些方法还探索没有详细场景的预测。例如,实时自动驾驶系统优先考虑潜世界状态转换,而行为模拟框架则强调以智体为中心的运动动力学。本文系统地将这些归类为无场景范式。
潜状态。与原始感官数据相比,潜状态提供一种有效的表示,可以无缝地集成到决策中并增强在不同驾驶环境中的泛化能力。基于强化学习的规划器 [Li et al., 2024a; Zeng et al., 2024; Popov et al., 2024; Wang et al., 2025] 经常利用潜 DWM,它提供准确而密集的奖励、高效的并行训练和可解释的输出。监督学习也受益于预测潜状态。例如,LatentDriver [Xiao et al., 2024] 将预测的潜状态和可能的动作建模为混合分布,捕捉决策的随机性,而 LAW [Li et al., 2024b] 利用自监督的潜特征来增强端到端驱动并提高效率。
多智体行为。多智体行为预测侧重于预测场景中所有智体的运动。TrafficBots [Zhang et al., 2023] 探索机器人智体的行为真实性。根据其相应的目的地,每个智体都会学习独特的个性并从 BEV 角度预测动作。同样,CarFormer [Hamdan and Gu ̈ney,2024] 将每个目标建模为自监督的 slot 表征,其中隐含驾驶所需的信息。相比之下,AdaptiveDriver [Vasudevan et al.,2024] 预测周围智体的独特行为模式,随后展开相应的 DWM 来模拟他们的行为。
无场景范式超越 2D 和 3D 表征。潜状态可提高效率和泛化能力,而基于多智体行为的模型,可捕获交互以降低风险。这些方法共同提高自动驾驶系统的多功能性。
驾驶世界模型 (DWM) 是一种自监督的数据驱动方法,经过训练可以预测未来场景的演变,其中一些方法只需要极少的注释。对生成任务的广泛研究使 DWM 能够充当模拟器并生成数据。此外,DWM 可以通过直接参与决策过程和训练流程来增强自动驾驶系统的功能。
模拟
自自动驾驶研究的早期阶段以来,模拟一直是训练和评估驾驶模型的关键工具,并取得重大成功 [Dosovitskiy,2017]。然而,传统的模拟器面临着一些挑战,包括有限的多样性以及模拟域与现实世界之间的差距。DWM 凭借其数据驱动的生成模拟功能,有可能解决这些挑战。如图 (a) 所示,DWM 可以根据各种输入形式模拟驾驶过程,忠实地遵循所提供的指令。这些条件包括但不限于动作和字幕,使模拟器更加用户友好,同时赋予其更大的自主权来生成精细的结构和多样化的场景细节。
DWM 在保真度、一致性和可控性方面取得显着进步,这对于可靠的现实世界模拟至关重要。 Vista [Gao et al., 2024a] 提供高保真度和高度可控的视频模拟,从而实现动作评估。在相关开发中,GEM [Hassan et al., 2024] 进一步提高模拟质量,并能够精确控制目标动态、轨迹和人体姿势。同样,一些研究试图模拟 3D 空间中的驾驶场景演变 [Zyrianov et al., 2024; Wang et al., 2024a; Gu et al., 2024],并显示出令人鼓舞的结果。除了视觉真实感之外,最近的研究还强调动作保真度评估,新提出的评估框架 ACT-Bench [Arai et al., 2024] 就是一个例证,它引入一个强大的基线框架,展示与动作指令的紧密一致性。作为补充,TrafficBots [Zhang et al., 2023] 研究机器人状态的行为真实性,进一步丰富模拟领域。
基于强化学习的方法,尤其受益于基于 DWM 模拟的灵活性。通过在潜状态空间中展开,Think2Drive [Li et al., 2024a] 无需与笨重的物理模拟器交互即可实现高效的并行训练。随后,Imagine-2-Drive [Garg and Krishna, 2024] 利用高保真 DWM 来模拟和评估多步轨迹,显著提高规划性能。
DWM 将高保真生成能力与可靠的可控性相结合,不仅可以弥合模拟域与现实世界域之间的差距,同时增强模拟场景的多样性,还可以实现并行交互。这些进步极大地推动自动驾驶模拟的发展。
数据生成
与优先考虑忠实再现条件的模拟相比,数据生成强调数据的多样性和保真度,旨在实现更广泛、更全面的场景覆盖,同时缩小与现实世界数据的差距。上图 (b) 表明,DWM 可以使用相同的注释生成多样化的驾驶视频,从而显著提高数据注释的多样性。
DWM 已被证明可有效地利用合成数据扩充数据集 [Wang et al., 2024b; Zhao et al., 2024b; Zyrianov et al., 2024; Yang et al., 2024d]。例如,DrivePhysica 可以合成无限的高保真和多样化的驾驶视频,而 LidarDM 可以生成高质量的激光雷达数据。值得注意的是,HoloDrive [Wu et al., 2024] 展示合成对齐多模态数据的潜力。此类合成数据可促进下游任务(例如 3D 检测),从而展示出 DWM 的可控性和高生成质量。虽然这些方法通常依赖于真实世界的注释来合成数据,但最近的进展 [Zhao et al., 2024a; Ni et al., 2024] 还合成具有新轨迹的驾驶视频,从而缓解真实世界数据集中的分布不平衡问题。
鉴于目前高质量自动驾驶数据集规模的限制,DWM 揭示利用合成技术获取大量高质量驾驶数据的潜力,从而支持自动驾驶研究的进步。
预期驾驶
预期驾驶强调通过准确预测未来状态来增强车辆的规划能力。通过预测周围智体的行为和环境动态,自我主动探索不同动作的结果,从而提高复杂驾驶场景中的安全性和适应性。
如上图 © 所示,典型的预期驾驶方法涉及利用 DWM 预测多种潜动作的结果。然后评估这些预测以优化最终行动。例如,Drive-WM [Wang et al., 2024d] 将 DWM 预测与奖励函数相结合以选择最佳轨迹,而 Drive-OccWorld 将 BEV 嵌入引入规划器以进行进一步细化。同时,ADriver-I [Jia et al., 2023] 结合多模态大语言模型和视频扩散模型,用于联合预测视觉-动作(描述自-车信息的图像和文本)对,显示出长期规划的潜力。一些方法进一步将预测和规划整合到一个统一的模型中,在提供更大灵活性的同时实现显著的性能 [Wei et al., 2024; Chen et al., 2024; Hu et al., 2024]。
鉴于准确的预测可以提高驾驶性能,另一方面,限制预测以与未来的观察保持一致也被证明是有效的 [Li et al., 2024b; Popov et al., 2024]。此外,AdaWM [Wang et al., 2025] 使用预测状态和未来状态之间的差异来指导微调,提高对陌生环境的适应性。
预期驾驶的成功表明,DWM 不仅可以通过模拟和数据生成间接增强自动驾驶,还可以积极参与决策和优化过程,实现预测和规划的综合效果。
4D 预训练
预训练已在多种方法中得到实证验证。然而,传统的预训练方法往往忽略 4D 动态,而这对于自动驾驶至关重要。DWM 的目标是预测场景演变,这本身就非常适合自监督学习和大规模预训练。如上图 (d) 所示,DWM 利用大量未标记的多模态数据进行 4D 预训练,从而增强各种下游驾驶任务的性能。
大多数现有任务都强调以视觉为中心的预训练,旨在通过从多视图图像数据中学习 4D 场景演变来捕捉空间和动态感知。为了利用大规模未标记的图像点云对,UniWorld [Min et al., 2023] 从点云中生成占用伪标签以进行 4D 预训练。为了消除对伪标签的依赖,ViDAR [Yang et al., 2024c] 引入一种基于视觉点云预测的新方法。通过提出潜渲染算子,学习 BEV 表征的判别性 3D 几何,得以保留,从而确保与下游任务的无缝集成。此外,NeMo [Huang et al., 2024] 结合 RGB 重建和占用预测来学习 4D 体表征,以共同维护 3D 几何和语义信息。为了捕捉时空动态,DriveWorld [Min et al., 2024] 分别处理时间动态和静态场景。此外,还采用任务提示来适应各种下游任务。
最近的方法还探索以点云为中心的预训练。 UnO [Agro et al., 2024] 通过预测连续的 4D 占用场(从未来点云生成的新型伪标签)来学习几何结构、动态和语义。相比之下,AD-L-JEPA [Zhu et al., 2025] 通过重建掩码嵌入来执行预训练,从而实现更简单的实现和增强的学习表征。最后,BEVWorld [Zhang et al., 2024c] 探索对多传感器数据的预训练,将图像和点云编码为统一的 BEV 表征。
总的来说,DWM 通常通过自监督学习进行 4D 预训练,捕捉时空动态,减少对注释的依赖,并在广泛的任务中实现性能改进,从而为自动驾驶的进步铺平道路。
鉴于缺乏驾驶世界模型 (DWM) 的标准化基准,必须全面了解现有资源和评估方法,以推动该领域的进步。
自动驾驶的发展在很大程度上依赖于涵盖多样化和全面场景的高质量数据集。在下表中,回顾自动驾驶研究中影响最大的数据集,强调它们的规模和多样性。值得注意的是,DrivingDojo [Wang et al., 2024c] 是专为训练具有复杂驾驶动态的驾驶世界模型而设计的。
在自动驾驶的背景下,驾驶世界模型 (DWM) 主要使用基于视频生成的方法进行训练,并应用于各种与驾驶相关的任务。这些任务的多样性使得单一指标难以全面评估所有研究中的模型性能。因此,该领域的研究人员根据所处理的特定任务和领域选择专门的指标。下表概述广泛使用的指标及其对应含义。
这些指标对各种 DWM 进行深入评估,指导进一步的研究。然而,某些方面,例如一致性和可控性,仍未得到充分探索。为了解决这些限制,一些研究提出新的指标。例如,为了评估可控性,一种广泛采用的方法是将训练有素的检测器在生成数据上的输出与相应条件进行比较 [Zhao et al., 2024a; Ni et al., 2024] 或使用同一检测器对真值数据的预测 [Wang et al., 2024d; Hassan et al., 2024; Yang et al., 2024d]。此外,引入关键点匹配 (KPM) [Wang et al., 2024d; Lu et al., 2024] 和平均点-到-平面能量 [Zyrianov et al., 2024] 分别评估多摄像机视频和 LiDAR 视频的一致性。