自动驾驶SLAM又一开源巅峰之作！深挖时间一致性，精准构建超清地图

论文标题：

DTCLMapper: Dual Temporal Consistent Learning for Vectorized HD Map Construction

论文作者：

Siyu Li, Jiacheng Lin, Hao Shi, Jiaming Zhang, Song Wang, You Yao, Zhiyong Li, Kailun Yang

导读：

本文介绍了一种用于自动驾驶高精地图构建的新方法，该方法利用了鸟瞰视角（BEV）场景理解中的时间一致性学习，在保证建图质量的同时，避免了传统时间融合方法中的特征冗余问题。©️【深蓝AI】编译

1. 背景简介

高清地图（HD Map）是自动驾驶技术不可或缺的基石，它赋予系统对周围静态环境的精确认知，从而确保导航的准确性和安全性。目前，主要有两种类型的高清地图：语义地图和矢量地图。语义地图通常采用网格形式，在二维平面上展示道路信息，而矢量地图则利用几何点和线条来精确描述道路的轮廓。尽管两种地图各有其应用场景，但矢量地图在存储效率和精确度方面均展现出了明显的优势，这对于自动驾驶系统中的实时感知任务至关重要。

近年来的研究表明，实时的鸟瞰图（BEV）融合技术能够有效应对视觉信息的稀疏性问题。然而，现有的时间融合策略似乎并未显著提升矢量化高清地图的质量。融合后的BEV特征与地图实例的特征匹配度不高，导致矢量点难以精确地定位到其原始位置，进而影响了检测的准确性。经过深入分析，作者认为，这些方法主要依赖于简单的时间特征融合，而未能充分利用对象间的差异性和相似性。

在这里插入图片描述
▲图1｜当前时序融合与提出的一致性学习解决方案的区别©️【深蓝AI】编译

2. 方案提出

为了应对上述挑战，作者提出了DTCLMapper框架，该框架包含两个协同工作的一致性学习组件：实例一致学习（ICL）和地图一致学习（MCL）。这两个组件相互补充，共同推动框架的性能提升。ICL组件由矢量点预选模块（VPPSM）和聚合实例特征一致学习（AIFCL）组成。

VPPSM负责为实例中的一致性学习提供精确的实例特征，而AIFCL则致力于通过增强稀疏实例的一致性来提升整体性能。MCL组件则通过利用实例之间的一致性几何位置信息来增强模型的一致性和泛化能力。

框架采用了矢量化地图的栅格化方法来实现一致性，同时引入了地图占用损失作为评估机制。这种机制不仅确保了空间关系的保持，还有助于改进模型的一致性和泛化能力，从而在自动驾驶领域中实现更精准的感知和决策。

在这里插入图片描述
▲图2｜不同时序融合方法的结果©️【深蓝AI】编译

3. 方法详析

■3.1. 框架

DTCLMapper框架集成了图像骨干网络、多视图变换器、BEV解码器和多任务头：

●多视图图像由预训练的骨干网络编码，生成深度特征，这些特征通过视图变换器聚合成BEV嵌入；

●变换器模块采用BEVFormer和LSS等经典方法；

●BEV解码器利用Deformable DETR技术。解码器输入包括BEV嵌入、实例查询、初始参考点和点查询；

●任务头通过线性层和激活函数预测实例的标签和边框。

在这里插入图片描述
▲图3｜提出的DTCLMapper架构概览©️【深蓝AI】编译

■3.2. 实例一致性学习（ICL）

ICL模块由两部分组成：矢量点预选模块（VPPSM）和聚合实例特征一致性学习（AIFCL）。

●VPPSM致力于提供精确的实例特征，以增强实例的一致性学习；

●AIFCL则通过对比学习聚合的实例特征，提升稀疏实例的一致性表达。

其中，用于对比学习的正样本是指来自不同时间帧但属于同一实例的特征，而负样本则是来自不同实例或错误匹配的特征。这种方法有助于提高同一实例在不同时间帧上的特征一致性，从而增强模型在处理稀疏视觉信息时的鲁棒性和准确性。

◆矢量点预选择模块（VPPSM）

VPPSM模块的设计旨在提高每个实例矢量点的回归精度。该模块通过以下几个步骤实现：

●输入特征处理：从BEV嵌入特征中提取与实例相关的特征。这些特征代表了场景中每个实例的几何和语义信息。

●预选矢量点：对每个实例的初始矢量点进行筛选，选择最能代表实例形状和位置的矢量点。

●精细调整：使用已筛选的矢量点作为基础，通过进一步的特征处理和调整，优化每个矢量点的位置，以提高矢量点的回归精度。

VPPSM通过这一系列步骤，确保了矢量点的选择和调整过程更加精确，从而为后续的一致性学习提供了可靠的基础。

在这里插入图片描述
▲图4｜矢量点预选模块（VPPSM）示意图©️【深蓝AI】编译

◆聚合实例特征一致性学习（AIFCL）

AIFCL模块通过对比学习（Contrastive Learning）来增强实例的一致性。具体流程如下：

●特征聚合：将来自不同时间帧的同一实例特征聚合在一起，形成一个综合特征表示。

●对比学习：通过选择正样本和负样本进行对比学习。正样本是指来自不同时间帧的同一实例特征，而负样本则是不同实例或错误匹配的特征。

●一致性增强：通过对比学习的过程，增强同一实例在不同时间帧中的特征一致性，减少特征漂移，提高实例表示的稳定性。

AIFCL模块通过这种方式，确保实例特征在时间上的一致性，从而提高了矢量化高精地图构建的准确性和稳定性。

■3.3. 地图一致性学习（MCL）

MCL模块通过利用「实例间的一致性几何位置信息」来提升模型性能，借助于「矢量化地图的栅格化网格地图」来实施一致性约束。MCL采用地图占用损失作为评估工具，以确保空间关系的准确性，从而增强模型的一致性和泛化能力。

◆设计思路

MCL模块旨在通过全局几何和状态的一致性约束，进一步增强地图的整体一致性和泛化能力。其设计思路包括：

●全局几何一致性：利用实例间的几何关系，确保各实例在全局地图中的位置和形状保持一致。

●状态一致性：通过评估实例的占用状态，确保地图中实例的空间排列和占用关系准确反映实际情况。

◆实现方法

●网格地图栅格化：将矢量化地图转换为网格地图，以便于全局一致性的计算和评估。网格地图提供了一种便捷的表示方式，使得几何和状态的一致性检查更为直观，且更易于实现。

●地图占用损失：定义一种损失函数，评估实例在网格地图中的占用状态。该损失函数衡量实例间的空间关系，确保全局几何一致性。

●自监督学习：利用自监督学习方法，强化模型的全局一致性。自监督学习无需额外标注，通过对输入数据自身的结构和分布进行学习，提高模型的泛化能力。

MCL模块通过这些方法，确保地图中各实例的全局几何和状态一致性，从而提高矢量化高清地图的整体质量和泛化能力。

4. 实验结果

在公共数据集nuScenes和Argoverse上的广泛实验结果表明，作者提出的方法在高清地图构建方面取得了显著的提升，在平均精度（mAP）上分别达到了61.9%和65.1%的优异表现。

5. 总结

本文详细介绍了DTCLMapper框架，它由两个核心模块组成：实例一致性学习（ICL）和地图一致性学习（MCL）。ICL模块通过矢量点预选和聚合实例特征一致性学习，强化了实例特征在时间维度上的一致性。而MCL模块则通过全局的几何和状态一致性约束，确保了地图的整体一致性和泛化能力。这两个模块的协同作用显著提高了矢量化高精地图的构建精度和质量。

作者计划进一步优化和扩展DTCLMapper框架，以适应更复杂的驾驶环境和处理更大规模的数据集。此外，作者建议各位学者去探索更多的自监督学习方法和多任务学习策略，以增强模型的泛化能力和适应性。

编译｜Deep蓝同学

审核｜Los

移步公众号【深蓝AI】，第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态👇
深蓝AI·赋能智自动驾驶与人工智能