导航任务
概述:
Agent需要导航到环境中的指定位置,而该位置可以由特定的目标形式指定。
PointGoal Navigation:导航到环境中相对于初始位置特定的点;
Object Navigation:Agent需要在环境中找到特定的物体;
Room Navigation:物体需要导航到特定的房间;
此外还有Vision-and-Language Navigation(VLN)和Embodied Question Answering(EQA)。
评估指标
- Unseen environment:未见环境,在已知环境中训练并推广泛化到未知环境;
- Both success and efficiency are counted:成功率和效率都很重要,但需要在保证成功率的情况下再考虑效率;
导航任务:
机器人的输入:
包括深度相机和RGB图像以及GPS+Compass信息;
GPS+Compass告诉机器人当前所处的位置和方向,以及相对于初始位置和方向;
Agent可以采用的动作:
将Agent建模为0.1m的圆柱体;
可以采用的四个低层动作分别是:
- stop;
- move_forward:向前运动0.25m;
- turn_left:向左旋转10度;
- turn_right:向右旋转10度。
网络架构:
采用深度强化学习DRL进行训练:
设置的奖励函数如下其中 λ \lambda λ是懈怠惩罚,促使Agent更快到达目标位置。
训练过程如下:
- 使用当前策略得到一系列轨迹;
- 使用收集到的经验更新策略;
- 重复。
该过程是在Habitat Sim中完成的:Habitat-Sim可以作为环境与Agent进行交互,会反馈机器人的传感器状态,模拟的噪声等…
训练Agent是在Habitat Lab中完成的,主要是在habitat-baselines文件夹中。其中包含了CNN和RNN相关的代码,以及PPO算法代码。
Habitat中内置的算法:
参考链接:
官方视频链接
Habitat lab官网docs
Habitat sim官网docs