RSS 2025|苏黎世提出「LLM-MPC混合架构」增强自动驾驶,推理速度提升10.5倍!

论文题目:Enhancing Autonomous Driving Systems with

On-Board Deployed Large Language Models

论文作者:Nicolas Baumann,Cheng Hu,Paviththiren Sivasothilingam,Haotong Qin,Lei Xie,Michele Magno,Luca Benini

论文地址:

[2504.11514] Enhancing Autonomous Driving Systems with On-Board Deployed Large Language Models

代码地址:https://github.com/ForzaETH/LLMxRobot

引言

随着技术持续进步,自动驾驶从概念逐步迈向现实,为未来出行勾勒出全新的图景。然而,这条发展之路并非一帆风顺,传统数据驱动的自动驾驶技术在面对现实世界中复杂多样的驾驶场景时,遭遇了严峻的挑战。基于机器学习的自动驾驶系统,尽管在大量常见场景的训练下能够展现出一定的智能性,但在处理极端情况时却显得力不从心。这是因为现实中的驾驶场景情况复杂,难以通过有限的数据集覆盖所有可能性。例如,遇到道路临时施工、动物突然闯入等情况,这些系统往往无法做出准确且合理的决策。

与此同时,大语言模型(LLMs)在自然语言处理领域取得了突破性进展,其强大的知识理解、推理和生成能力令人瞩目。这一技术的崛起,为自动驾驶领域带来了新的曙光。LLMs可以理解复杂的自然语言指令,基于广泛的知识储备进行推理,这与自动驾驶中对复杂场景的理解和决策需求有着高度的契合性。然而,将LLM直接应用于自动驾驶等安全关键系统,尤其是依赖云端模型的做法,带来了延迟、连接稳定性、数据隐私和安全等多重隐患。此外,LLM自身存在的“幻觉”问题也限制了其直接控制车辆行为的应用范围。

针对这些挑战,论文《Enhancing Autonomous Driving Systems with On-Board Deployed Large Language Models》提出了一种创新的混合架构,巧妙地将强大的大语言模型(LLMs)与经典的低层模型预测控制器(MPC)相结合,并强调在车辆本地(On-Board)部署LLM,旨在增强自动驾驶系统的决策能力、人机交互(HMI)体验和控制适应性。

主要方法

为解决自动驾驶系统中数据驱动方法处理极端情况的局限,论文提出将低级模型预测控制器(MPC)与本地部署的大语言模型(LLMs)相结合的混合架构,综合运用多种技术实现高效决策和人机交互。该系统由两个关键的、相互协作的模块构成——负责理解人类意图和评估车辆状态的DecisionxLLM,以及负责将高层指令转化为具体MPC参数调整的MPCxLLM。这种设计旨在融合LLM的认知智能与MPC的控制优势,实现更安全、更智能、更具适应性的自动驾驶体验。

图1 系统总体框架

DecisionxLLM 模块

该模块作为系统的"感知与决策中心", 负责理解人类的意图并评估车辆行为。它接收人类通过自然语言下达的驾驶指令或偏好, 并结合从车辆传感器获取的近期状态数据,包括路径坐标$s$、横向偏差$n$、纵向速度$v_s$、横向速度$v_d$等信息, 可表示为时序数据$[s, n, v_s, v_d, ...]$。LLM利用其强大的理解和推理能力,判断车辆当前的实际运行状态是否与人类的期望一致。为了增强LLM在特定机器人任务上的推理能力和对上下文的理解,该模块可以选择性地集成检索增强生成(RAG),通过检索相关的背景知识来丰富LLM的输入信息。最终,DecisionxLLM输出一个判断结果,并在必要时生成一句简洁的、描述期望行为变化的自然语言指令,传递给下一环节。

MPCxLLM 模块

此模块是连接高层语义理解与底层控制执行的关键桥梁。它接收来自DecisionxLLM的自然语言调整指令。模块内的LLM被设计为能够理解这些指令,并且知晓底层MPC控制器的数学形式及其可调参数。基于这种理解(同样可由MPC相关的RAG知识库增强),LLM的任务是将抽象的驾驶行为要求转化为对MPC具体参数的修改建议。这些可调整的参数主要包括MPC优化问题中$\min J(x, u, q)$的成本函数权重$q$(横向偏差权重$q_n$、速度误差权重$q_v$、航向误差权重$q_\alpha$、控制输入变化权重$q_R$),以及车辆运行必须遵守的状态约束集$\mathcal{X}$和输入约束集$\mathcal{U}$。LLM输出一组新的参数值$q, \mathcal{X}, \mathcal{U}$这些值随后被动态配置给底层MPC控制器。这一机制实现了通过自然语言对车辆控制特性进行灵活调整,同时将LLM的推理延迟与MPC的实时控制循环分离开。
 

MPC模块

系统的基础控制由一个模型预测控制器(MPC)承担,论文中具体实现了一个基于车辆运动学模型 (Kinematic Model) 的MPC。该模型描述了车辆状态如何随时间和控制输入变化,关键状态变量的动态方程如:

其中$s$是沿参考轨迹的弧长,$n$是横向偏差,$\Delta \phi$是相对于参考路径的航向角误差,$v$是车辆速度,$\delta$是前轮转角,$\kappa_r(s)$是参考轨迹在$s$处的曲率,$L$是车辆轴距。MPC的状态向量$x$包含这些状态变量以及用于平滑控制的输入量,即$x = [s, n, \Delta \phi, \delta, v]^T$。控制输入$u$主要由转向角变化量$\Delta \delta$和纵向加速度$a$组成,即$u = [\Delta \delta, a]^T$

MPC 的核心是在每个控制周期内求解一个优化问题,目标是最小化一个预测时域$N$内累积的成本函数$J(x, u, q)$。该成本函数通常是对期望行为(如跟踪参考路径和速度)的偏离以及控制输入的惩罚,形式如下:
$\min_{u_0, \dots, u_{N-1}} J(x, u, q) = \sum_{i=0}^{N-1} \Big[q_n \cdot n_{k+i|k}^2 + q_v \cdot (v_{k+i|k} - v_{ref})^2 \\ + q_{\Delta \phi} \cdot \Delta \phi_{k+i|k}^2 + \| \Delta u_{k+i|k} \|_2^2 \Big]$

此优化过程必须满足系统动力学约束,状态约束和输入约束。正是 MPCxLLM 模块根据高层指令进行调整的对象,以此在保证安全的前提下,灵活地改变车辆的驾驶行为(如更平稳、更激进、保持特定速度或距离等)。
 

车载部署优化技术

为了让通常计算量庞大的LLM能够在资源受限的车载硬件上高效运行,该方法综合运用了多种优化策略。RAG通过在推理时注入相关上下文信息,提高了小模型在特定任务上的表现,减少了对超大模型的依赖。LoRA作为一种参数高效微调技术,允许研究人员使用相对较少的数据和计算资源来适配预训练LLM,使其更好地理解机器人状态和MPC参数。最后,模型量化技术通过降低模型参数的精度,显著减小了模型的内存占用和计算需求,大幅提升了LLM在嵌入式平台上的推理速度(吞吐量),使其满足自动驾驶场景的实时性需求。这些技术的结合使得在端侧部署功能强大的LLM成为可能。

实验结果

论文通过一系列定量和定性实验,全面验证了所提出的车载大语言模型(LLM)增强型自动驾驶框架的有效性。在推理决策能力方面,对DecisionxLLM模块的评估如下图所示,结合检索增强生成(RAG)和LoRA微调技术能够显著提升本地部署LLM(如Qwen2.5-7b)判断车辆状态是否符合人类自然语言指令的准确性,相较于基础模型最高获得了10.45%的绝对精度提升。实验还表明,RAG普遍提高了各模型的决策性能,而对于实际部署至关重要的模型量化对准确率的影响甚微,证明了优化后模型在保持性能的同时具有高效性。

图2 DecisionxLLM模块评估对比

图3 DecisionxLLM模块对话效果

在控制适应性方面,研究者在仿真环境中评估了MPCxLLM模块通过调整底层MPC参数来响应不同驾驶指令的能力。结果如下图所示,与采用固定参数的基线MPC相比,经过RAG和LoRA优化的LLM能够根据指令(如“保持车道中心”、“更平稳地驾驶”或“倒车”)显著改变车辆的闭环行为特性,在多个衡量控制效果的指标(如路径跟踪、速度跟踪、加速度平滑度等RMSE)上取得了平均高达52.2%的改善(以Qwen2.5为例),充分展示了该框架利用自然语言进行灵活控制调整的潜力。

图4 MPCxLLM模块评估对比

图5 MPCxLLM模块对话效果

如下图所示,在1:10比例的物理机器人平台上进行实验,成功展示了系统在真实世界中的运作情况,例如,机器人能够根据指令“离墙远一点”来调整其横向位置,或是在模拟发生碰撞后,自主决策执行倒车操作以脱困,并随后恢复正常循迹行驶,证明了该方法在实际硬件上的可行性和鲁棒性。

图6 1:10比例的物理小车结构

图7 无人车在真实世界的运作情况

总结

为解决自动驾驶系统在边缘场景处理上的局限性以及云端大模型应用的延迟与隐私问题,该研究提出了一种创新的混合架构,将大语言模型(LLM)部署在车辆本地,并与经典的模型预测控制器(MPC)相结合。该架构通过DecisionxLLM模块理解人类自然语言指令并评估车辆状态,再利用MPCxLLM模块将高层意图转化为对底层MPC成本函数与约束参数的调整,从而在确保MPC提供安全保障的前提下,实现了灵活的人机交互与自适应控制。为了保证LLM在资源受限的车载硬件上高效运行,研究采用了RAG、LoRA微调和量化等关键优化技术。实验结果表明,该方法显著提升了系统的决策准确性(最高10.45%)、控制适应性(最高52.2%),并且通过量化等手段实现了在嵌入式平台上高达10.5倍的推理速度提升,验证了该框架在增强自动驾驶智能性、交互性的同时,具备了实际部署的可行性和高效性。这种将高级别人工智能在本地安全集成的探索,预示着未来自动驾驶汽车将更加“善解人意”,能够通过自然对话满足用户的个性化偏好,使人机交互更加直观、舒适,有助于提升公众对自动驾驶技术的接受度并加速其普及应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/77652.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

list的学习

list的介绍 list文档的介绍 list是可以在常数范围内在任意位置进行插入和删除的序列式容器,并且该容器可以前后双向迭代。list的底层是双向链表结构,双向链表中每个元素存储在互不相关的独立节点中,在节点中通过指针指向其前一个元素和后一…

生物信息学技能树(Bioinformatics)与学习路径

李升伟 整理 生物信息学是一门跨学科领域,涉及生物学、计算机科学以及统计学等多个方面。以下是关于生物信息学的学习路径及相关技能的详细介绍。 一、基础理论知识 1. 生物学基础知识 需要掌握分子生物学、遗传学、细胞生物学等相关概念。 对基因组结构、蛋白质…

AOSP Android14 Launcher3——远程窗口动画关键类SurfaceControl详解

在 Launcher3 执行涉及其他应用窗口(即“远程窗口”)的动画时,例如“点击桌面图标启动应用”或“从应用上滑回到桌面”的过渡动画,SurfaceControl 扮演着至关重要的角色。它是实现这些跨进程、高性能、精确定制动画的核心技术。 …

超详细实现单链表的基础增删改查——基于C语言实现

文章目录 1、链表的概念与分类1.1 链表的概念1.2 链表的分类 2、单链表的结构和定义2.1 单链表的结构2.2 单链表的定义 3、单链表的实现3.1 创建新节点3.2 头插和尾插的实现3.3 头删和尾删的实现3.4 链表的查找3.5 指定位置之前和之后插入数据3.6 删除指定位置的数据和删除指定…

17.整体代码讲解

从入门AI到手写Transformer-17.整体代码讲解 17.整体代码讲解代码 整理自视频 老袁不说话 。 17.整体代码讲解 代码 import collectionsimport math import torch from torch import nn import os import time import numpy as np from matplotlib import pyplot as plt fro…

前端性能优化:所有权转移

前端性能优化:所有权转移 在学习rust过程中,学到了所有权概念,于是便联想到了前端,前端是否有相关内容,于是进行了一些实验,并整理了这些内容。 所有权转移(Transfer of Ownership)…

Missashe考研日记-day23

Missashe考研日记-day23 0 写在前面 博主前几天有事回家去了,断更几天了不好意思,就当回家休息一下调整一下状态了,今天接着开始更新。虽然每天的博客写的内容不算多,但其实还是挺费时间的,比如这篇就花了我40多分钟…

Docker 中将文件映射到 Linux 宿主机

在 Docker 中,有多种方式可以将文件映射到 Linux 宿主机,以下是常见的几种方法: 使用-v参数• 基本语法:docker run -v [宿主机文件路径]:[容器内文件路径] 容器名称• 示例:docker run -it -v /home/user/myfile.txt:…

HarmonyOS-ArkUI-动画分类简介

本文的目的是,了解一下HarmonyOS动画体系中的分类。有个大致的了解即可。 动效与动画简介 动画,是客户端提升界面交互用户体验的一个重要的方式。可以使应用程序更加生动灵越,提高用户体验。 HarmonyOS对于界面的交互方面,围绕回归本源的设计理念,打造自然,流畅品质一提…

C++如何处理多线程环境下的异常?如何确保资源在异常情况下也能正确释放

多线程编程的基本概念与挑战 多线程编程的核心思想是将程序的执行划分为多个并行运行的线程,每个线程可以独立处理任务,从而充分利用多核处理器的性能优势。在C中,开发者可以通过std::thread创建线程,并使用同步原语如std::mutex、…

区间选点详解

步骤 operator< 的作用在 C 中&#xff0c; operator< 是一个运算符重载函数&#xff0c;它定义了如何比较两个对象的大小。在 std::sort 函数中&#xff0c;它会用到这个比较函数来决定排序的顺序。 在 sort 中&#xff0c;默认会使用 < 运算符来比较两个对象…

前端配置代理解决发送cookie问题

场景&#xff1a; 在开发任务管理系统时&#xff0c;我遇到了一个典型的身份认证问题&#xff1a;​​用户登录成功后&#xff0c;调获取当前用户信息接口却提示"用户未登录"​​。系统核心流程如下&#xff1a; ​​用户登录​​&#xff1a;调用 /login 接口&…

8.1 线性变换的思想

一、线性变换的概念 当一个矩阵 A A A 乘一个向量 v \boldsymbol v v 时&#xff0c;它将 v \boldsymbol v v “变换” 成另一个向量 A v A\boldsymbol v Av. 输入 v \boldsymbol v v&#xff0c;输出 T ( v ) A v T(\boldsymbol v)A\boldsymbol v T(v)Av. 变换 T T T…

【java实现+4种变体完整例子】排序算法中【冒泡排序】的详细解析,包含基础实现、常见变体的完整代码示例,以及各变体的对比表格

以下是冒泡排序的详细解析&#xff0c;包含基础实现、常见变体的完整代码示例&#xff0c;以及各变体的对比表格&#xff1a; 一、冒泡排序基础实现 原理 通过重复遍历数组&#xff0c;比较相邻元素并交换逆序对&#xff0c;逐步将最大值“冒泡”到数组末尾。 代码示例 pu…

系统架构设计(二):基于架构的软件设计方法ABSD

“基于架构的软件设计方法”&#xff08;Architecture-Based Software Design, ABSD&#xff09;是一种通过从软件架构层面出发指导详细设计的系统化方法。它旨在桥接架构设计与详细设计之间的鸿沟&#xff0c;确保系统的高层结构能够有效指导后续开发。 ABSD 的核心思想 ABS…

Office文件内容提取 | 获取Word文件内容 |Javascript提取PDF文字内容 |PPT文档文字内容提取

关于Office系列文件文字内容的提取 本文主要通过接口的方式获取Office文件和PDF、OFD文件的文字内容。适用于需要获取Word、OFD、PDF、PPT等文件内容的提取实现。例如在线文字统计以及论文文字内容的提取。 一、提取Word及WPS文档的文字内容。 支持以下文件格式&#xff1a; …

Cesium学习笔记——dem/tif地形的分块与加载

前言 在Cesium的学习中&#xff0c;学会读文档十分重要&#xff01;&#xff01;&#xff01;在这里附上Cesium中英文文档1.117。 在Cesium项目中&#xff0c;在平坦坦地球中加入三维地形不仅可以增强真实感与可视化效果&#xff0c;还可以​​提升用户体验与交互性&#xff0c…

Spring Boot 断点续传实战:大文件上传不再怕网络中断

精心整理了最新的面试资料和简历模板&#xff0c;有需要的可以自行获取 点击前往百度网盘获取 点击前往夸克网盘获取 一、痛点与挑战 在网络传输大文件&#xff08;如视频、数据集、设计稿&#xff09;时&#xff0c;常面临&#xff1a; 上传中途网络中断需重新开始服务器内…

数码管LED显示屏矩阵驱动技术详解

1. 矩阵驱动原理 矩阵驱动是LED显示屏常用的一种高效驱动方式&#xff0c;利用COM&#xff08;Common&#xff0c;公共端&#xff09;和SEG&#xff08;Segment&#xff0c;段选&#xff09;线的交叉点控制单个LED的亮灭。相比直接驱动&#xff0c;矩阵驱动可以显著减少所需I/…

【上位机——MFC】菜单类与工具栏

菜单类 CMenu&#xff0c;封装了关于菜单的各种操作成员函数&#xff0c;另外还封装了一个非常重要的成员变量m_hMenu(菜单句柄) 菜单使用 添加菜单资源加载菜单 工具栏相关类 CToolBarCtrl-》父类是CWnd&#xff0c;封装了关于工具栏控件的各种操作。 CToolBar-》父类是CC…