ChatBEV：一种理解 BEV 地图的可视化语言模型

25年3月来自上海交大、上海AI实验室、同济大学和MAGIC的论文“ChatBEV: A Visual Language Model that Understands BEV Maps”。

交通场景理解对于智能交通系统和自动驾驶至关重要，可确保车辆安全高效地运行。虽然 VLM 的最新进展已显示出整体场景理解的前景，但 VLM 在交通场景中的应用（尤其是使用 BEV 地图）仍未得到充分探索。现有方法通常受任务设计和数据量限制的影响，从而阻碍全面的场景理解。为了应对这些挑战，推出 ChatBEV-QA，这是一个BEV VQA 基准，包含超过 137,000 个问题，旨在涵盖广泛的场景理解任务，包括全局场景理解、车辆-车道交互和车辆-车辆交互。该基准使用数据收集流水线构建，为 BEV 地图生成可扩展且信息丰富的 VQA 数据。进一步微调专门的视觉语言模型 ChatBEV，使其能够解释不同的问题提示并从 BEV 地图中提取相关的上下文-觉察信息。此外，提出一种语言驱动的交通场景生成流程，其中 ChatBEV 有助于地图理解和文本对齐的导航指导，显著增强真实一致的交通场景的生成。

如图所示ChatBEV-QA和以此微调的ChatBEV模型：

请添加图片描述

自动化数据构建流程

本文提出一个三步自动化流程，用于从 nuPlan [7] 数据集生成 ChatBEV-QA 数据，如图 a 所示。首先，设计各种问题以涵盖全面理解任务。然后，提取必要的注释并生成信息丰富的 BEV 地图。最后，VQA 生成器根据问题、注释和 BEV 地图创建 VQA 数据。

请添加图片描述

步骤 1：问题设计。从三个方面获得全面理解，并据此进一步开发六种不同类型的问题：

全局理解：识别更广泛的环境背景对于预测车辆行为至关重要。不同的场景会产生不同的运动模式，例如，交叉路口的车辆更有可能转弯，而停车场的车辆则倾向于保持静止。为了捕捉这些上下文信息，引入两个关键问题：区域类型（用于对周围环境进行分类，例如交叉路口、停车场）和车道类型（用于指定车道类别，例如直行、左转），从而有助于更精确地预测车辆行为。

车-车道交互：近期研究经常忽略车-车道交互，而车-车道交互对于响应道路特征、交通规则和环境因素的自适应导航至关重要。为了增强该领域的推理能力，引入两个关键方面：位置（用于识别车辆占用的精确车道）和导航（根据左转或直行等特定引导确定最相关的车道）。这些考虑因素有助于实现更明智的轨迹预测和稳健的场景理解。

车-车交互：车-车交互对于空间关系建模至关重要，直接影响行为协调。为了评估这些相互作用，引入两个关键方面：存在性（确定特定方向上附近车辆的存在）和相对方向（评估最近和最远车辆的方向）。这些考虑因素增强了对交通动态的理解，并改进了预测模型。

这些问题提供了一个结构化的框架，用于理解场景中车辆行为和相互作用的各个维度。为了增加多样性，为每种问题类型设计多个模板。

步骤 2：数据收集和注释。nuPlan 的原始注释涵盖车辆位置、速度和车道细节等基本信息。增强数据集，并设计一个标注器，它具有广泛的基于规则函数，可以提取高级语义信息并适用于所设计的问题。通过一个迭代的人工参与审查过程，严格改进函数的设计，以确保其输出与人类判断紧密一致。对于场景中每个时间步的每辆车，利用包含以下字段的设计函数生成 JSON 格式的输出：1). 区域类型，指示车辆当前所处的区域类型；2). 车道类型，指定车辆当前所处车道的类型；3). 轨迹，描述接下来 50 个时间步长内与车辆轨迹对应的类别；4). 轨迹车道，捕获接下来 50 帧内与轨迹对应的所有车道 ID。5). 相关车辆，存储位于车辆周围四个方向上的其他车辆的 ID；6). 距离，计算当前车辆与场景中所有其他车辆之间的距离，如上图 a 的第二部分所示。

然后，根据 nuPlan 的原始地图和轨迹注释为每个场景中的每辆车生成 BEV 地图，坐标原点放在本车的位置。感兴趣的车辆以红色突出显示以引起注意，箭头指示其运动方向。生成的 BEV 地图清楚地标记车道边界和区域划分，为车辆与车道交互和整体理解提供必要的信息。

步骤 3：VQA 对生成。有了问题模板和注释，可以通过 VQA 生成器生成问答对。对于车道类型和区域类型的问题，生成器随机选择一个模板并使用相应的注释文本作为答案。对于位置和导航问题，通过提供多项选择题来简化问题。具体来说，提供两个边框：一个正确，一个来自非重叠车道的干扰项。位置问题的正确答案，是当前车道的地面真值边框，而对于导航问题，用真值轨迹类型作为问题提示，正确答案对应于与真值实轨迹相关的车道边框。对于存在性和相对方向性问题，生成器首先选择一个方向，然后根据空间关系标注得出答案。

原始 nuPlan 数据集呈现长尾分布，例如直车道上车辆数量较多，而转弯车道上车辆相对较少，这导致答案类别分布不平衡，可能会使模型性能偏向更常见的场景。为了缓解这个问题，采用一种随机欠采样技术，在数据集构建过程中选择性地从占多数的类别中移除一定比例的样本，从而促进更均衡的分布。

数据集统计数据和指标

由于整个 nuPlan 数据集非常庞大，从 nuPlan-mini 拆分中构建数据，从而提供更小、更易于管理的子集。总体而言，ChatBEV-QA 包含 25331 张 BEV 图像的 137818 个问答对，其中 21634 张 BEV 图像上有 116112 个问题用于训练，3697 张 BEV 图像上有 21706 个问题用于测试，平均每张图像约有 5.44 个问题。上图 b 和上图 c 分别显示训练集上每个问题的问题类型和答案分布，突出显示 ChatBEV-QA 的均衡组成。此外，设计的自动化数据创建流程允许无缝扩展到完整的 nuPlan 数据集，从而有助于获取更多数据用于未来的实验。这是一个专注于 BEV 地图的 VQA 数据集，旨在全面理解场景及其中各种元素之间的相互作用。由于设计的问题的答案属于特定集合，因此用 Top-1 准确率作为评估指标，这与以往 VQA 研究中常用的做法一致。还分别评估不同类型问题的表现，以便更详细地了解模型在场景理解各个方面的表现。

ChatBEV 系列模型

除了拟议的数据集外，本文还提供基线模型。由于 BEV 表示固有的紧凑性，其包含不同于自然图像的特定结构和与任务相关的语义信息，现有的 VLM 直接应用于此任务已被证明不够充分。为了解决这个问题，通过使用 LoRA 进行视觉指令调整，对几个高级 VLM [15, 24, 27, 27] 进行微调，并根据 BEV 地图理解的独特需求进行定制。根据不同的基础 VLM，经过微调的模型分别表示为 ChatBEV-LLaVA-1.5-7b、ChatBEV-LLaVA-1.5-13b、ChatBEV-BLIP 和 ChatBEV-InternLM-XComposer2，在捕捉 BEV 地图中的空间关系和上下文推理方面表现出不同程度的性能，其中 ChatBEV-LLaVA-1.5-13b 的性能优于其他模型。

本文提出一种基于扩散的架构，其中 ChatBEV 充当地图理解提取器，提供全面的场景理解，从而生成更精确、更符合上下文的输出。推理过程如图所示。

请添加图片描述

问题表述

按照 [53, 54] 将场景生成任务表述为一个模仿学习问题。从数学上讲，给定一个包含 N 辆车的场景，将所有车辆在 T 个时间步长内的状态定义为 S = [S_1, S_2, ···, S_N]，其中 S_i = [s¹_i, s¹_i,···, s^T_i]，s^t_i = (x^t_i, y_i^t, v_i^t, θ_i^t) 表示车辆 i 在第 t 个时间步长的当前状态（二维位置、速度和偏航角）。类似地，可以定义相应的动作A，这里A_i = [a⁰_i, a¹_i,···,a^T−1_i]，每个 a^t_i=(v ̇_i^t, θ ̇_i^t) 是车辆 i 在第 t 个时间步的动作（加速度和偏航角速度）。状态 s_i^t+1 可以通过单轮车动力学模型f计算得出，s_i^t+1 = f (s_i^t, a_i^t)。整体轨迹表示为 τ = [A, S]。用 C = (I, D, S^h, M) 表示决策相关上下文，其中I是局部语义图，D是文本描述，S^h = [S^−H, · · · , S^0] 表示车辆的 H 个先前状态，M 是额外的 BEV 图理解信息。目标是根据与决策相关的背景生成真实且文本一致的交通轨迹。

地图理解提取器

给定场景中车辆的初始状态和相应的文本描述，首先提取地图理解信息 M，并将其与原始输入集成，形成下一个模块的最终输入。

这里，考虑两种有助于后续场景生成的地图理解信息，包括全局理解信息 V 和场景推理信息 P。考虑到车辆对场景的整体理解（例如其当前所在的区域和车道）会影响其特定的运动模式，引入全局理解信息 V = [R, L]，它是区域类型 one-hot 向量 R 和车道类型 one-hot 向量 L 的串联。为了提供更精确且文本对齐的导航引导，引入导航推理信息，表示为 P。它表示车辆根据文本中描述的轨迹类型可能选择的最可能车道的中心线数据。这里 N_s 表示相关车道数，N_p 表示每条车道中心线的点数，d 表示每个点的维度。

在训练过程中，通过将车辆的初始位置转换为区域和车道类型的 one-hot 向量来获得全局理解。导航推理基于真值轨迹附近的道路。在推理过程中，根据文本描述生成一张 BEV 图像和一个问题。经过微调的 ChatBEV 会检索区域、车道类型以及合理车道的边框。通过收集该边框内的所有车道，最终完成导航推理。

条件扩散

条件编码器。条件编码器旨在有效地集成各种条件输入，并提供信息丰富的条件嵌入，从而促进后续的解码过程。在提取器之后，条件编码器为每个场景接受三种类型的输入：初始状态 S^h、文本描述 D 和地图理解信息 M = ([R, L], P)。对于每个输入，使用相应的前馈编码模块提取嵌入，然后沿时间维度广播，之后将它们连接起来形成最终的条件嵌入 E。

扩散解码器。给定条件输入，扩散解码器通过迭代细化噪声数据在每个时间步生成预测轨迹。这里采用 CTG++ [53] 作为扩散解码器模块。该过程首先将来自条件编码器的条件嵌入与来自前馈模块的预测未来轨迹嵌入沿时间维度连接起来。正弦位置编码应用于公司内时间动态。采用去噪步骤 k 的正弦位置编码来融入时间动态。编码后的轨迹，经过时间注意模块来捕捉智体关系，然后经过空间注意模块来捕捉几何关系。之后，地图注意层，将车道点转换为车道向量，从而通过多头注意机制实现地图-觉察。最后，将编码后的轨迹投影回输入维度，生成预测的动作轨迹，再经过动态函数计算得出结果。