复杂地形越野机器人导航新突破！VERTIFORMER：数据高效多任务Transformer助力越野机器人移动导航

作者： Mohammad Nazeri $^{1}$ , Anuj Pokhrel $^{1}$ , Alexandyr Card $^{1}$ , Aniket Datar $^{1}$ , Garrett Warnell $^{2,3}$ , Xuesu Xiao $^{1}$
单位： $^{1}$ 乔治梅森大学计算机科学系， $^{2}$ 美国陆军研究实验室， $^{3}$ 德克萨斯大学奥斯汀分校计算机科学系
论文标题：VERTIFORMER: A Data-Efficient Multi-Task Transformer for Off-Road Robot Mobility
论文链接：https://arxiv.org/pdf/2502.00543
代码链接：https://github.com/mhnazeri/VertiFormer

主要贡献

提出了数据高效多任务Transformer模型VERTIFORMER，其通过统一的多模态潜在表示、可学习的掩码建模以及非自回归训练，能够在仅使用一小时训练数据的情况下，同时完成多种越野移动任务，例如正向和逆向运动学建模、行为克隆以及地形块重建等。
对不同的Transformer设计进行了全面评估，包括掩码建模（MM）、下一步预测（NTP）、仅编码器以及仅解码器等，以用于越野运动学表示。
在具有垂直挑战性的复杂越野地形上，进行了物理机器人实验，验证了模型在多种越野移动任务上的有效性。

研究背景

自主移动机器人在越野环境中面临着诸多挑战，如不规则地形造成的车辆翻滚风险、车轮打滑导致的牵引力下降以及对机器人底盘或驱动系统的潜在机械损坏等。精确理解车辆与地形之间的运动学交互是应对这些越野移动挑战的关键。
尽管数据驱动的方法在相对平坦的环境中显示出一定的潜力，但对于复杂越野环境中机器人底盘与垂直挑战性地形之间的复杂关系，需要更复杂的学习架构来充分捕捉和表示这些细微的运动学交互。
Transformer架构因其在自然语言处理（NLP）和计算机视觉（CV）中展现的强大能力，为理解复杂关系提供了新的机遇。然而，这些领域的Transformer训练范式并不完全适用于机器人移动，尤其是越野机器人移动，因为获取大规模机器人数据集存在困难，且现有的NLP和CV训练范式可能不适用于机器人移动数据的独特特征。

VERTIFORMER

VERTIFORMER 是一种数据高效的多任务 Transformer 模型，专门用于复杂越野地形上的机器人运动学表示和导航。
该模型通过统一的多模态潜在表示、可学习的掩码建模和非自回归训练，能够在仅使用一小时训练数据的情况下同时完成多种越野移动任务。

VERTIFORMER训练

统一多模态潜在表示

VERTIFORMER 包含 Transformer 编码器（VERTIENCODER）和 Transformer 解码器（VERTIDECODER）。
模型接收的动作 $a_{0:T}$ 、机器人姿态 $p_{0:T}$ 和地形块 $i_{0:T}$ 首先分别通过独立的线性映射投影到嵌入空间：
$\begin{align*} \hat{a}_t &= f_a(a_t) = W_a a_t + b_a, \quad a_t \in a_{0:T}, \\ \hat{p}_t &= f_p(p_t) = W_p p_t + b_p, \quad p_t \in p_{0:T}, \\ \hat{i}_t &= f_i(i_t) = W_i i_t + b_i, \quad i_t \in i_{0:T}, \end{align*}$
其中， $W_a, W_p, W_i$ 为权重矩阵， $b_a, b_p, b_i$ 为偏置向量。为了在 VERTIFORMER 内部实现有效的跨模态交互，需要将不同模态的嵌入投影到统一的潜在空间中，以减少统计特性上的潜在差异。因此，进一步应用线性变换 $f_s$ 将嵌入拼接起来：
$z_t = f_s(\hat{a}_t, \hat{p}_t, \hat{i}_t) = W_s (\hat{a}_t \cdot \hat{p}_t \cdot \hat{i}_t) + b_s, \quad t \in [0 : T],$
其中， $W_s$ 和 $b_s$ 分别为 $f_s$ 的权重矩阵和偏置向量。最终得到的统一标记 $z_{0:T}$ 作为输入传递给 VERTIENCODER。

可学习掩码建模

结合统一表示，VERTIFORMER 提出了一种随机可学习的掩码建模技术，以实现多任务学习。在训练过程中，模型首先在所有模态上进行预热，然后以相等的概率应用两种不同的数据掩码方法：

基于动作的未来姿态预测：
- 在 50% 的训练实例中，提供人类演示生成的未来 $\tau$ 步动作 $a_{T+1:T+\tau}$ 作为输入，同时将对应的未来姿态 $p_{T+1:T+\tau}$ 替换为可学习的掩码。
- 这使得模型能够基于提供的未来动作和先前的历史上下文预测未来的姿态，类似于越野移动中的正向运动学建模（FKD）任务。
基于姿态的未来动作预测：
- 在剩余的 50% 的实例中，提供未来姿态 $p_{T+1:T+\tau}$ 作为输入，而将对应的未来动作 $a_{T+1:T+\tau}$ 使用另一个可学习的掩码进行掩码。
- 这促使模型基于提供的未来姿态和历史上下文预测未来动作，类似于逆向运动学建模（IKD）任务。
这种交替掩码策略与统一表示相结合，促进了能够解码动作和姿态信息的联合表示的学习。可学习掩码可以被视为一种可学习的门控机制，在训练期间选择性地过滤信息流。
此外，通过扩展掩码策略同时掩码未来的动作 $a_{T+1:T+\tau}$ 和姿态 $p_{T+1:T+\tau}$ ，VERTIFORMER 能够以零样本的方式执行行为克隆（BC）。
在这种配置下，模型仅基于历史上下文预测动作和姿态，有效地模仿演示的行为，而无需从规划器那里获取关于未来动作和姿态的显式信息。

非自回归训练

基于相关研究的工作，VERTIFORMER 使用多个上下文标记来表示未来状态的分布。这些上下文标记用于通知 VERTIDECODER 预测未来的自我状态和环境的演变。
拥有多个上下文标记使得 VERTIFORMER 能够非自回归地预测未来。非自回归方法的动机在于自回归模型中固有的潜在计算瓶颈，因为自回归模型需要多次查询模型，并且容易受到早期步骤中误差传播的影响。
通过学习多上下文表示，非自回归方法旨在提高训练效率和推理速度，这对于实时机器人控制应用来说是一个关键考虑因素。
VERTIFORMER 的训练通过最小化模型预测与相应真实值之间的均方误差（MSE）来完成。模型评估是通过计算模型预测与真实值之间在未见数据集上的误差率来进行的。

VERTIFORMER推理

在正向运动学建模（FKD）推理过程中，VERTIENCODER 接收与训练时相同的输入历史。
VERTIDECODER 接收来自外部采样式规划器（例如 MPPI）的采样动作，同时掩码对应的姿态，迫使模型仅基于采样动作（和上下文标记）预测未来的姿态，以便规划器可以选择最优轨迹以最小化成本函数。
对于逆向运动学建模（IKD），全局规划器生成期望的未来姿态，通过掩码动作，促使模型预测实现这些全局规划姿态的未来动作。通过掩码动作和姿态，VERTIFORMER 可以执行零样本行为克隆（BC）。

使用一小时数据高效训练VERTIFORMER

实验设置

数据集：使用了一小时的人类遥控驾驶数据，这些数据在一个定制的越野测试平台上采集，包含复杂的地形特征（如岩石、巨石、木板、人工草坪等）。
评估指标：通过计算模型预测与真实值之间的误差率来评估性能，重点关注机器人姿态的三个分量（X、Y、Z）。

实验结果

位置编码：正弦位置编码在预测机器人姿态时表现优于可学习位置编码。

归一化层：在 Transformer 输出层之前应用 RMSNorm 层可以显著提高模型性能和训练稳定性。
统一多模态潜在表示：统一表示能够显著提高模型对时间依赖性和运动学转换的理解能力，与分离表示相比，学习损失显著下降。
预测范围：非自回归模型（VERTIFORMER）在长时预测中表现出更高的准确性和稳定性，避免了自回归模型中常见的误差累积问题。
地形块重建头：加入地形块重建头会降低模型性能，因为越野地形的复杂性使得重建任务非常困难，引入了噪声。
不同训练范式对比：非自回归的 VERTIFORMER 在正向运动学建模（FKD）、逆向运动学建模（IKD）和行为克隆（BC）任务中均优于其他模型，包括仅编码器（MM）、仅解码器（NTP）和端到端（End2End）模型。

实验结论

数据效率：VERTIFORMER 通过独特的训练方法和架构设计，在仅使用一小时数据的情况下，能够同时完成多种越野移动任务。
性能优势：非自回归设计和统一的多模态潜在表示显著提高了模型的准确性和稳定性，尤其是在长时预测和多任务学习方面。
泛化能力：模型在未见的测试环境中表现出良好的泛化能力，能够适应不同的地形和摩擦系数。

真实机器人平台实验

实验设置

机器人平台：使用了一个开源的四轮越野机器人（Verti-4-Wheeler, V4W），该机器人配备了 Microsoft Azure Kinect RGB-D 摄像头用于构建地形图，以及 NVIDIA Jetson Xavier 处理器用于实时计算。
测试环境：实验在一个 4m × 2.5m 的测试平台上进行，该平台包含多种复杂地形，如岩石、巨石、木板、人工草坪和可变形泡沫，模拟了具有不同摩擦系数和变形能力的垂直挑战性地形。
任务：实验验证了 VERTIFORMER 在三种任务上的性能：
- 正向运动学建模（FKD）：与 MPPI 规划器结合，预测机器人未来的姿态。
- 逆向运动学建模（IKD）：与全局规划器结合，生成实现目标姿态的动作。
- 行为克隆（BC）：仅基于历史数据预测未来动作，无需显式的目标姿态或动作。

实验结果

性能指标：通过成功率、平均穿越时间、平均侧倾角和俯仰角来评估模型性能。
实验结果：
- FKD 任务：VERTIFORMER 与 MPPI 规划器结合，成功率达到 100%，平均穿越时间为 9.42 秒，平均侧倾角为 0.169 弧度，平均俯仰角为 0.096 弧度。
- IKD 任务：VERTIFORMER 与全局规划器结合，成功率达到 80%，平均穿越时间为 17.16 秒，平均侧倾角为 0.136 弧度，平均俯仰角为 0.077 弧度。
- BC 任务：VERTIFORMER 在行为克隆任务中成功率达到 80%，平均穿越时间为 12.64 秒，平均侧倾角为 0.154 弧度，平均俯仰角为 0.099 弧度。

实验结论

模型优势：VERTIFORMER 在复杂越野地形上表现出色，能够有效处理多种任务，且在数据稀缺条件下具有良好的泛化能力。
性能对比：与现有的先进模型（如 TAL、VERTIENCODER、VERTIDECODER）相比，VERTIFORMER 在成功率、穿越时间和姿态稳定性方面均表现出色。
实际应用：实验结果表明，VERTIFORMER 可以在真实机器人平台上高效运行，为越野机器人导航和运动学建模提供了一种有效的解决方案。

结论与未来工作

VERTIFORMER作为一种数据高效多任务Transformer，能够仅使用有限的训练数据（一小时）来学习复杂的车辆-地形运动学交互，并在多种越野移动任务上取得了优异的性能，同时提高了模型的泛化能力和对未知环境的适应性。
未来的研究可以探索如何进一步提高模型在长时预测和复杂地形上的性能，例如改进掩码策略、优化模型架构或结合其他先进的训练技术。
此外，还可以将该模型应用于其他机器人领域，如视觉导航或操作任务，以验证其在不同场景下的适用性和有效性。