自动驾驶的世界模型:综述

自动驾驶的世界模型:综述

image

附赠自动驾驶学习资料和量产经验:链接

24年3月澳门大学和夏威夷大学的论文“World Models for Autonomous Driving: An Initial Survey”。

在快速发展的自动驾驶领域,准确预测未来事件并评估其影响的能力对安全性和效率至关重要,对决策过程至关重要。世界模型已经成为一种变革性的方法,使自动驾驶系统能够合成和解释大量的传感器数据,从而预测潜在的未来场景并弥补信息差距。本文对自动驾驶世界模型的现状和未来进展进行了初步回顾,涵盖了它们的理论基础、实际应用以及旨在克服现有局限性的正在进行的研究工作。


世界模型的架构旨在模仿人脑的连贯思维和决策过程,集成了几个关键组件:

  1. 感知模块:这个基本元素充当系统的感官输入,类似于人类的感官。它采用先进的传感器和编码器模块,如变分自动编码器(VAE)[16,17,18]、掩码自动编码器(MAE)[19,20]和离散自动编码器(DAE)[21,14],将环境输入(图像、视频、文本、控制命令)处理和压缩为更易于管理的格式。该模块的有效性对于准确感知复杂动态环境至关重要,有助于详细了解模型的后续预测和决策。

  2. 记忆模块:记忆模块的作用类似于人类河马(hippo)区,它对记录和管理过去、现在和预测的世界状态及其相关成本或回报至关重要[1]。它通过重放最近的经历来支持短期和长期记忆功能,这一过程通过将过去的见解融入未来的决策来增强学习和适应[22]。该模块综合和保留关键信息的能力对于深入了解一段时间内的环境动态至关重要。

  3. 控制/动作模块:该组件直接负责通过动作与环境进行交互。它评估当前状态和世界模型提供的预测,确定旨在实现特定目标的最佳动作顺序,例如最小化成本或最大化回报。该模块的复杂性在于它能够集成感官数据、记忆和预测见解,从而做出明智的战略决策,应对现实世界场景的复杂性。

  4. 世界模型模块:在体系结构的核心,世界模型模块执行两个主要功能:估计当前世界状态的任何缺失信息和预测环境的未来状态。这种双重能力使系统能够生成其周围环境的全面预测模型,考虑不确定性和动态变化。通过模拟潜在的未来场景,该模块使系统能够主动准备和调整其策略,反映人类认知中的预测性和适应性思维过程。

这些组成部分共同形成了一个强大的框架,使世界模型能够模拟类似于人类的认知过程和决策。通过集成这些模块,世界模型实现了对其环境的全面和预测性理解,这对于开发能够以前所未有的复杂度在现实世界中导航和交互的自主系统至关重要。

如图是智体的世界模型框架:

image

递归状态空间模型(RSSM)

RSSM[24]是Dreamer世界模型系列中的一个关键模型,旨在促进纯粹在潜在空间内的前向预测。这种创新的结构使模型能够通过潜在状态空间进行预测,其中过渡模型中的随机路径和确定性路径在成功规划中发挥着关键作用。

如图展示了三个时间步长的潜动力学模型示意图。该模型最初观察两个时间步长,然后预测第三个时间步长。在这里,随机变量(圆形)和确定性变量(方形)在模型的体系结构中相互作用——实线表示生成过程,而虚线表示推理路径。图(a)中的初始确定性推理方法揭示了由于其固定性质,其在捕捉各种潜在未来方面的局限性。相反,考虑到其固有的不可预测性,图(b)中的完全随机方法在跨时间步长的信息保持方面提出了挑战。

RSSM的创新之处在于它将状态战略性地分解为图(c)中的随机和确定性分量,有效地利用了确定性元素的预测稳定性和随机元素的自适应潜力。这种混合结构确保了强大的学习和预测能力,适应了现实世界动态的不可预测性,同时保持了信息的连续性。通过将RNN的优势与**状态空间模型(SSM)**的灵活性相结合,RSSM为世界模型建立了一个全面的框架,增强了它们预测未来状态的能力,同时兼顾了精度和适应性。

image

联合嵌入预测架构(JEPA)

JEPA[1]通过关注表示空间而不是直接、详细的预测,标志着预测建模的范式转变。如图所示,抽象输入( ) 和target目标( ) 采用双编码器转换为表示( 和 ), 并利用一个潜变量( )预测,JEPA在效率和准确性方面实现了显著的飞跃。该模型擅长滤除噪声和不相关信息,专注于预测任务的本质。潜变量( ) 管理不确定性的战略性使用进一步细化了模型的重点,使其能够更精确地预测抽象结果。通过优先考虑相关特征并包含预测任务的固有不确定性,JEPA不仅简化了预测过程,还确保了结果的相关性和可靠性,为复杂环境中的预测建模树立了新标准。

image


如表所示,世界模型在不同的环境中展示了无与伦比的性能,尤其是在游戏中,它们的功能得到了显著展示。在雅达利100k排行榜的竞争格局中,世界模型占据主导地位,前五名中有四名由这些创新架构占据[15,31,14,32,33]。其中,EfficientZero通过显著提高基于图像的强化学习中的采样效率而脱颖而出,利用MuZero的基本原理,在短短两小时的训练内实现人类可比的游戏熟练度[34]。在《我的世界》游戏中,DreamerV3标志着一个里程碑,成为自主开采钻石的首个模型,这一壮举在没有利用人工生成的数据或预定义的学习课程的情况下完成。这一成就归功于其对Symlog预测的新颖使用,通过使用静态symlog转换,促进了模型在不同环境尺度上的适应性[26,35]。相反,HarmonyDream在世界模型学习中引入了一种动态的损失尺度化方法,通过规模、维度和训练动态的复杂平衡来优化多任务学习效率[33]。DreamerV3的symlog转换与HarmonyDream的动态损失调整进行协同集成,有可能进一步提升世界模型的性能和多功能性。

image

image

image

image

image

基于图像的联合嵌入预测架构(I-JEPA)[29]说明了一种在不依赖手工数据增强的情况下学习高度语义图像表示的方法。I-JEPA使用抽象表示预测丢失的目标信息,有效地消除了不必要的像素级细节。这使模型能够学习更多的语义特征,通过对世界抽象表示的自监督学习,实现对不完整图像的更准确分析和完成。除了图像之外,该架构还通过基于音频的联合嵌入预测架构(A-JEPA)[28]展示了高可扩展性,在多个音频和语音分类任务上设置了新的最先进的性能,优于依赖外部监督预训练的模型。

在机器人操作中,如Fetch[36]、DeepMind Control Suite[37]和Meta-World[38],Latent Explorer Achiever(LEXA)[27]通过想象力同时训练探索者和实现者,在40项机器人操作和运动任务中优于以前的无监督方法。此外,在这些任务中,L3P[39]设计了一种新算法来学习分散在目标空间中的潜地标,在三种机器人操作环境中实现了学习速度和测试时间泛化的优势。谷歌团队创新性地将世界模型的概念应用于机器人导航任务,利用它们来获取周围环境的信息,并使AI智体能够预测其行为在特定环境中的后果。Pathdreamer[40]在机器人导航中的实现利用世界模型增强了环境意识和预测规划,通过创新地使用3D点云进行环境表示,显著提高了导航成功率。此外,SafeDreamer[41]将基于拉格朗日的方法集成到Dreamer框架中,用于安全强化学习,证明了高性能、低成本安全应用的可行性。

世界模型的快速训练能力,以DayDreamer的真实世界机器人学习效率为例,与传统方法形成鲜明对比,突出了这些模型在加速学习过程和提高性能方面的变革潜力[42,43]。

虚拟场景和视频生成成为关键应用,SORA和Genie在这一领域取得了领先进展。SORA能够根据不同的提示,制作连贯、高清晰度的视频,这是朝着模拟复杂世界动态迈出的重要一步。尽管SORA在物理交互模拟方面面临挑战,但其一致的3D空间表示突出了其作为基础世界模型的潜力[44]。Genie的交互式环境生成虽然在视频质量上不如SORA先进,但引入了用户驱动的世界操纵的新维度,得以一窥世界模型在创建沉浸式可控虚拟现实方面的未来应用[45]。

这项全面的研究强调了世界模型的非凡多功能性和前沿性,说明了在推动游戏、机器人、虚拟环境生成等领域创新方面的基础作用。这些模型的能力与动态适应和多领域泛化的融合预示着人工智能的新时代,在这个时代,世界模型不仅可以作为特定任务的工具,还可以作为更广泛的探索、学习和发现的平台。


下面介绍自动驾驶的世界模型工作。

作为世界模型应用的一个新兴前沿,自动驾驶领域为利用这些先进的计算框架带来了独特的挑战和机遇。尽管人们对自动驾驶的兴趣与日俱增,但将世界模型融入自动驾驶主要围绕着场景生成、规划和控制机制展开,这些领域已经成熟,可以进行探索和创新。

如图是自动驾驶流水线的世界模型框架:

image

自动驾驶场景生成

自动驾驶中的数据获取遇到了巨大的障碍,包括与数据收集和注释相关的高昂成本、法律约束和安全考虑。通过自我监督学习范式,世界模型能够从大量未标记的数据中提取有价值的见解,以具有成本效益的方式提高模型性能,从而提供了一个有前景的解决方案。世界模型在驾驶场景生成中的应用尤其值得注意,因为它有助于创建各种逼真的驾驶环境。这一能力大大丰富了训练数据集,使自动驾驶系统具有在罕见和复杂的驾驶场景中导航的鲁棒性。

GAIA-1[54]代表了一种自主生成人工智能模型,能够使用视频、文本和动作输入创建逼真的驾驶视频。Wayve创业公司让GAIA-1接受来自英国城市的大量真实世界驾驶数据进行训练,学习并理解了驾驶场景中的一些真实世界规则和关键概念,包括不同类型的车辆、行人、建筑和基础设施。它可以基于几秒钟的视频输入来预测和生成后续的驾驶场景。值得注意的是,生成的未来驾驶场景与提示视频没有密切联系,而是基于GAIA-1对世界规则的理解。以自回归transformer网络为核心,GAIA-1预测以输入图像、文本和动作tokens为条件的未来图像tokens,然后将这些预测解码回像素空间。GAIA-1可以预测多种潜在的未来,并根据提示(例如,不断变化的天气、场景、交通参与者、车辆动作)生成不同的视频或特定驾驶场景,甚至包括其训练集之外的动作和场景(例如,强行进入人行道)。这证明了它理解和推断训练集中所没有驾驶概念的能力。在现实世界中,由于这种驾驶行为的风险性,很难获得数据。驾驶场景生成允许模拟测试,丰富数据组成,增强复杂场景中的系统能力,并更好地评估现有驾驶模型。此外,GAIA-1生成连贯的动作,并有效地捕捉3D几何结构的视角影响,展示了其对上下文信息和物理规则的理解。

DriveDreamer[52]也致力于驾驶场景生成,与GAIA-1不同之处在于它是在nuScenes数据集[68]上训练的。它的模型输入包括高清地图和3D边框等元素,可以更精确地控制驾驶场景的生成和更深入的理解,从而提高视频生成质量。此外,DriveDreamer可以生成未来的驾驶行为和相应的预测场景,帮助决策。

ADriver-I使用当前视频帧和历史视觉动作对作为多模态大语言模型(MLLM)[69,70]和视频潜扩散模型(VDM)[71]的输入。MLLM以自回归方式输出控制信号,其用作VDM预测后续视频输出的提示。通过连续的预测周期,ADriver-I在预测世界中实现了无限驾驶。

从大语言模型的成功中汲取灵感,WorldDreamer[64]将世界建模视为一种无监督的视觉序列建模挑战。它利用STPT将注意集中在时空窗口内的局部patches上。这种注意促进了视觉信号的动态学习,并加速了训练过程的收敛。尽管World Dreamer是一款通用的视频生成模型,但它在生成自动驾驶视频方面表现出了非凡的性能。

除了视觉信息,驾驶场景还包括过多的关键物理数据。MUVO[61]利用世界模型框架预测和生成驾驶场景,集成激光雷达点云和视觉输入,预测未来驾驶场景的视频、点云和3D占用网格。这种全面的方法大大提高了预测和产生结果的质量。特别地,结果3D占用网格可以直接应用于下游任务。更进一步,OccWorld[63]和Think2Drive[67]直接利用3D占用信息作为系统输入,预测周围环境的演变并规划自动驾驶汽车的动作。

规划和控制

如图是世界自动驾驶车型的时序概览:

image

除了情景生成,世界模型还有助于在驾驶环境中进行学习、评估潜在的未来以及完善规划和控制策略。例如,基于模型的模仿学习(MILE)[47]采用基于模型的模仿学习方法,从离线数据集中联合学习CARLA中的动力学模型和驾驶行为。MILE采用“广义推理算法”对未来驾驶环境进行理性和可视化的想象和预测,利用想象来补偿缺失的感知信息。这种能力能够规划未来的行动,允许自动驾驶汽车在没有高清地图的情况下运行。在CARLA模拟器中未经经验验证的测试场景中,MILE显著优于最先进的车型,将驾驶分数从46提高到61(相比之下,专家数据分数为88)。MILE的特点是长期和高度多样化的未来预测。MILE使用解码器对预测的未来状态进行解码,展示了在各种场景下的稳定驾驶。

SEM2[48]在RSSM的基础上,引入了语义掩码世界模型,以提高端到端自动驾驶的采样效率和鲁棒性。世界模型的潜状态包含了太多与任务无关的信息,对采样效率和系统鲁棒性产生了不利影响。此外,由于训练数据不平衡,世界模型难以处理意外情况。为了解决这些问题,引入了签字滤波器(signature filter)来提取关键任务特征,并使用过滤后的特征重建语义掩码。对于数据不平衡,使用采样器来平衡数据分布。在CARLA中训练和测试后,SEM2的性能比DreamerV2有了显著提高。

考虑到大多数自动驾驶汽车通常都有多个摄像头,多视图建模也是世界模型的一个关键方面。Drive WM[55]是第一个多视图世界模型,旨在增强端到端自动驾驶规划的安全性。Drive WM通过多视图和时间建模,联合生成多个视图的帧,然后从相邻视图预测中间视图,显著提高了多个视图之间的一致性。此外,Drive WM引入了一个简单的统一条件界面,灵活应用图像、动作、文本和其他条件,简化了条件生成过程。在具有六个视图的nuScenes数据集[68]上进行了训练和验证,Drive WM对预测的候选轨迹进行采样并使用基于图像的奖励函数来选择最佳轨迹。在nuScenes数据集上,使用FID和FVD作为标准,Drive WM超过了所有其他方法,表明预测未来有助于自动驾驶的规划。此外,与GAIA-1一致,Drive WM在不可驾驶区域导航的能力展示了世界模型在处理领域外案例方面的理解和潜力。此外,从Alberto Elfes[72]的开创性工作中获得灵感,UniWorld[57]引入了一种创新方法,利用多帧点云融合作为生成4D占用标签的基本事实。该方法考虑了来自多摄像机系统的图像中存在的时间-空间相关性。通过利用未标记的图像激光雷达对,UniWorld对世界模型进行预训练,显著增强了对环境动力学的理解。当在nuScenes数据集上进行测试时,与依赖单目预训练的方法相比,UniWorld在运动预测和语义场景完成等任务的IoU方面有了显著改进。

TrafficBots[56]也是一种端到端的自动驾驶模型,它更加强调预测场景中单个智体的行为。TrafficBots以每个智体的目的地为条件,采用条件变分自动编码器(CVAE)[73]来学习每个智体的不同个性,从而从BEV的角度促进动作预测。与其他方法相比,TrafficBots提供了更快的操作速度,并且以扩展以容纳更多的智体。尽管TrafficBots的性能可能还无法与最先进的开环策略相媲美,但它展示了闭环策略在行动预测方面的潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/789472.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++ 2024-4-2 作业

1.模板类实现顺序栈 #include <iostream> #define MAX 8 using namespace std; template<typename T> class stack {T data[MAX];int top; public:stack():top(-1){}bool empty_stack();bool full_stack();void push_stack(T data);void pop_stack();void show();…

OpenMLDB vs Redis 内存占用量测试报告

1. 背景 OpenMLDB 是一款开源的高性能全内存 SQL 数据库&#xff0c;在时序数据存储、实时特征计算等方面都有很多创新和优化。Redis 是业界最流行的内存存储数据库&#xff0c;广泛应用于缓存等高性能在线场景。虽然二者应用场景不尽相同&#xff0c;但作为都是使用内存作为存…

docker容器之etcd安装

一、etcd介绍 1、etcd是什么 etcd是CoreOS团队于2013年6月发起的开源项目&#xff0c;它的目标是构建一个高可用的分布式键值(key-value)数据库。 2、etcd特点 简单的接口&#xff0c;通过标准的HTTP API进行调用&#xff0c;也可以使用官方提供的 etcdctl 操作存储的数据。…

使用Vue实现CSS过渡和动画

01-初识动画和过渡 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, initial-scale1.0" /><title>使用vue实现css过渡和动画&l…

MMU关闭时Cache的缓存策略是怎样的

快速链接: 【精选】ARMv8/ARMv9架构入门到精通-[目录] &#x1f448;&#x1f448;&#x1f448; 在学习MMU章节时&#xff0c;我们发现在页表的entry中&#xff0c;BIT[4:2]指向了MAIR寄存器&#xff0c;该寄存器描述了内存属性&#xff0c;其实就是cache的缓存策略属性&#…

高性价比的挂耳式耳机哪个好用?五大高口碑品牌深度测评严选!

入耳式耳机虽然普及度极高&#xff0c;但其缺点也不容忽视。首先&#xff0c;长时间佩戴可能导致耳朵不适&#xff0c;甚至影响听力健康。其次&#xff0c;入耳式耳机往往因为隔音效果过好&#xff0c;导致用户与周围环境脱节&#xff0c;失去了一定的生活便利性。相比之下&…

《书生·浦语大模型全链路开源开放体系》学习笔记

书生浦语大模型全链路开源开放体系-学习笔记 大模型成为发展通用人工智能的重要途径专用模型通用大模型 书生大模型开源历程InternLM2回归语言建模的本质主要亮点性能全方位提升强大的内生计算能力 从模型到应用典型流程全链条开源开放体系数据数据集获取预训练微调XTuner 评测…

Runes 生态一周要览 ▣ 2024.3.25-3.31|Runes 协议更新 BTC 减半在即

Runes 生态大事摘要 1、Casey 发布了 Runes 协议文档 RUNES HAVE DOCS&#xff0c;Github 代码库更新到 ord 0.17.0 版本&#xff0c;Casey 表示符文是一个“严肃”的代币协议。 2、Casey 公布了第一个硬编码的创世符文「UNCOMMONGOODS」 3、4月7日香港沙龙&#xff5c;聚焦「…

c++的学习之路:9、STL简介与string(1)

一、STL 1、什么是STL STL(standard template libaray-标准模板库)&#xff1a;是C标准库的重要组成部分&#xff0c;不仅是一个可复用的组件库&#xff0c;而且是一个包罗数据结构与算法的软件框架。 也就是说STL就是一个模板&#xff0c;这个模板就是整合了很多库让我们方…

Git常用语句

设置用户名 git config --global user.name "用户名" git config --global user.email "邮箱"查看git用户信息 cat ~/.gitconfig初始化本地库 git initclone指定分支的代码 git clone -b my_branch gitgitlabxxxxxxxxxxxxxxxxxxxxxx.gitpush三件套 gi…

Redis热点Key问题分析与解决

目录 一、问题现象描述 二、什么是热点Key 三、热点Key的危害 3.1 Redis节点负载过高 3.2 Redis集群负载不均 3.3 Redis集群性能下降 3.4 数据不一致 3.5 缓存击穿 四、热点Key产生的原因分析 4.1 热点数据 4.2 业务高峰期 4.3 代码逻辑问题 五、如何检测热点Key …

红队笔记11:pWnOS1.0打靶流程解法2-ssh免密登录-rsa私钥破解-shellshock提权(vulnhub)

目录 开头 1.webmin文件泄露漏洞利用-/etc/passwd/ 2.ssh免密登录-私钥伪随机数碰撞&#xff1a; ssh免密登录原理&#xff1a; prng伪随机数生成ssh rsa 私钥公钥密码库 openssl和openssh的关系&#xff1a; ssh登录报错-解决思路-vv 3.提权-内核提权-shellshock提权 内…

心灵鸡汤人生感悟,简短而有深意的句子

1、你的真心很珍贵&#xff0c;别再不值得的人身上卑微 &#xff0c;爱应该是让你笑的开怀&#xff0c;而不是哭的崩溃。爱必须是温情的依赖&#xff0c;而不是冷漠的伤害。想要找你的人走遍了全世界也能找到你&#xff0c;等到了年华老去也会等着你。 2、大冬天的时候给你送吃…

MySQL安装卸载-Linux

目录 1.概述 2.安装 2.1.上传 2.2.解压 ​​​​​​​2.3.安装 ​​​​​​​2.4.启动服务 ​​​​​​​2.5.查询临时密码 ​​​​​​​2.6.修改临时密码 ​​​​​​​2.7.创建用户 ​​​​​​​2.8.分配权限 ​​​​​​​2.9.重新链接 3.卸载 3.1.停…

【LeetCode热题100】79. 单词搜索(回溯)

一.题目要求 给定一个 m x n 二维字符网格 board 和一个字符串单词 word 。如果 word 存在于网格中&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 单词必须按照字母顺序&#xff0c;通过相邻的单元格内的字母构成&#xff0c;其中“相邻”单元格是那些水平…

VsCode正确解决vue3+Eslint+prettier+Vetur的配置冲突

手把手教你VsCode正确解决vue3EslintprettierVetur的配置冲突 VsCode正确解决vue3EslintprettierVetur的配置冲突Eslint文档查看和修改规则&#xff1a;step1&#xff1a;首先快速浏览下规则简要setp2: ctrlF 搜索你要配置规则的英文名&#xff0c;例如attributesetp3: 修改配置…

2013年认证杯SPSSPRO杯数学建模C题(第二阶段)公路运输业对于国内生产总值的影响分析全过程文档及程序

2013年认证杯SPSSPRO杯数学建模 C题 公路运输业对于国内生产总值的影响分析 原题再现&#xff1a; 交通运输作为国民经济的载体&#xff0c;沟通生产和消费&#xff0c;在经济发展中扮演着极其重要的角色。纵观几百年来交通运输与经济发展的相互关系&#xff0c;生产水平越高…

LangSmith

文章目录 关于 LangSmith创建 API Key 基本代码使用查看控制台 关于 LangSmith 主页&#xff1a;https://www.langchain.com/langsmith文档&#xff1a;https://docs.smith.langchain.com/LangSmith Walkthrough &#xff1a; https://python.langchain.com/docs/langsmith/wa…

用于自动驾驶,无人驾驶领域的IMU六轴陀螺仪传感器:M-G370

用于自动驾驶,无人驾驶的IMU惯导模块六轴陀螺仪传感器:M-G370。自2020年&#xff0c;自动驾驶,无人驾驶已经迎来新突破&#xff0c;自动驾驶汽车作为道路交通体系的一员&#xff0c;要能做到的就是先判断周边是否有障碍物&#xff0c;自身的行驶是否会对其他交通参与成员产生危…

YOLOV5 改进:更换主干网络为Resnet

1、前言 之前实现了yolov5更换主干网络为MobileNet和vgg网络 本章将继续将yolov5代码进行更改,通过引用官方实现的resnet网络,替换原有的yolov5主干网络 替换的效果如下: 2、resnet 网络结构 测试的代码为官方的resnet34 通过summary 打印的resnet网络结构如下 =======…