基于视觉的具身导航
背景
什么是(视觉的?)具身导航
输入机器人观测的当前图像 o t o_t ot和目标图像 o G o_G oG,输出当前时间步的控制动作 u t u_t ut,最终到达指定地点的算法流程。
通用的评价指标
- 性能指标,目标的到达率,越高越好
- 安全指标,人工干预(碰撞等)的出现率,越低越好
一些其它指标:
- 距离加权的成功率(SPL),将成功率除以“实际距离与最短距离之比”
(有篇综述论文专门提到)
具身导航模型的能力
(层次从低到高)
- 控制,给定当前图像和局部的下一个路径节点的图像,输出控制动作
- 局部规划,给定当前图像,估计通往(较近的)下一个路径节点的可行性
- 全局规划,给定当前图像和目标图像,规划出全局的路径
主要的技术路线
- 基于局部规划的导航,学习一个局部可通过性(traversability)度量,从而根据已有的图像建立一个拓扑图(在可相互到达的图像之间连边),在导航图上执行路径规划(Dijkstra,如果有启发式也可以用A*)算法,在路径点之间执行局部的控制策略
- 端到端的全局导航,将导航直接建模为一个决策过程,用RL的框架直接学习一个全局的控制策略
公开的机器人平台
【我不太了解这些机器人的控制方式的区别,这部分需要补充】
- 无人地面车辆(unmanned ground vehicle, UGV),包括Jackal、Warthog等
- 全地形车(all terrain vehicle, ATV)
- 机器狗,如Spot等
- 其它机器人平台,如TurtleBot、LoCoBot等
- 汽车
公开的数据集
数据集 | 机器人平台 | 规模 | 环境 | |
---|---|---|---|---|
1 | GoStanford | TurtleBot2 | 14h | 室内 |
2 | RECON | Jackal | 25h | 野外 |
3 | SCAND | Spot / Jackal | 9h | 人行道 |
4 | Seattle | Warthog | 1h | 野外 |
5 | TartanDrive | ATV | 5h | 野外 |
6 | NeBula | ATV | 10h | 野外 |
7 | HuRoN | TurtleBot2 | 75h | 室内 |
8 | BDD | Car | 10h | 公路 |
另外还有仿真环境:Habitat-Matterport 3D Semantics Dataset,包含了216个室内场景下的3,100个房间及对应物体的标注
研究点1:具有通用性和泛化性的具身导航模型
迁移学习 / 多任务学习 / 泛化性。训练能适用于多种机器人平台和多种环境的导航策略;
ViNG
ViNG: Learning Open-World Navigation with Visual Goals [ICRA 2021]
主要创新点:(不知道是不是开创这个框架的方法),另外使用了从不同的轨迹间构造负样本对的方法,提高了可通过性学习的效率。
局限:1)在新环境下需要微调(few-shot);2)不能用于其它机器人平台。
ExAug
ExAug: Robot-Conditioned Navigation Policies via Geometric Experience Augmentation. [ICRA 2023]
主要创新点:通过构建点云对环境进行3D建模,然后根据新机器人的尺寸和速度作为condition生成图像,在多视角的图像上训练策略。
局限:1)文中只改变了机器人的尺寸和速度,并没有改变底层的控制方式(比如差速驱动和油门刹车驱动的区别);2)没有体现对新环境的泛化能力。
GNM
GNM: A General Navigation Model to Drive Any Robot [ICRA 2023]
主要创新点:建立了统一的state空间、action空间和traversability;用前k帧的图像隐式建模机器人的context,泛化性更强,支持多种环境多种平台(zero-shot),也可以处理机器人部分失能的情形。
局限:1)模型不够大;2)需要事先建立拓扑图
ViNT
ViNT: A Foundation Model for Visual Navigation [Preprint]
主要创新点:1)大;2)将observation和goal提前进行融合,以建模二者的相关性;3)可以根据下游任务进行多模态的微调;4)具有全局规划能力(下面会讲)
研究点2:全局的规划能力
现有的局部规划方法即使是大模型也只能建模局部的,短距离的可通过性。在全新的环境中不一定有机会事先建立拓扑图,这时候局部规划无法发挥作用,需要更高层次的规划能力
ViKiNG
ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints [RSS 2022]
主要创新点:训练一个生成式模型生成一些虚拟的sub-goal(路径节点),用启发式评估sub-goal的质量,然后引入了A*算法,利用示意图、卫星地图、GPS等信息学习一个启发函数,提高寻路效率
ViNT中的全局规划
基本沿用了ViKiNG的规划框架,使用了diffusion model作为sub-goal的生成模型
PIRLNav
PIRLNav: Pretraining with Imitation and RL Finetuning for ObjectNav [CVPR 2023]
其实就是一个基于模仿学习(逆向强化学习)的端到端方法,针对导航任务本身用了一些比较tricky的方法所以分比较高。
局限:基本在全局的视角下开展研究,缺乏多模态的对齐(约25%的失败案例)和局部可通过性建模(约12%的失败案例),这些可以由上述的导航大模型所解决的
注:这个数据集有自然语言目标的版本,也有图像目标的版本
研究点3:与自然语言的对齐
LM-Nav
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action [CVPR 2023]
- 首先用ViNG建立导航图
- 用一个LLM将自然语言转换成landmark,实现了高层次的路径规划
- 用CLIP实现landmark文本与图像路径点的对齐
- 用ViNG执行低层次的导航