基于视觉的具身导航

基于视觉的具身导航

视觉具身导航

背景

什么是(视觉的?)具身导航

输入机器人观测的当前图像 o t o_t ot和目标图像 o G o_G oG,输出当前时间步的控制动作 u t u_t ut,最终到达指定地点的算法流程。

通用的评价指标

  • 性能指标,目标的到达率,越高越好
  • 安全指标,人工干预(碰撞等)的出现率,越低越好

一些其它指标:

  • 距离加权的成功率(SPL),将成功率除以“实际距离与最短距离之比”

(有篇综述论文专门提到)

具身导航模型的能力

(层次从低到高)

  • 控制,给定当前图像和局部的下一个路径节点的图像,输出控制动作
  • 局部规划,给定当前图像,估计通往(较近的)下一个路径节点的可行性
  • 全局规划,给定当前图像和目标图像,规划出全局的路径

主要的技术路线

  • 基于局部规划的导航,学习一个局部可通过性(traversability)度量,从而根据已有的图像建立一个拓扑图(在可相互到达的图像之间连边),在导航图上执行路径规划(Dijkstra,如果有启发式也可以用A*)算法,在路径点之间执行局部的控制策略
  • 端到端的全局导航,将导航直接建模为一个决策过程,用RL的框架直接学习一个全局的控制策略

公开的机器人平台

【我不太了解这些机器人的控制方式的区别,这部分需要补充】

  • 无人地面车辆(unmanned ground vehicle, UGV),包括Jackal、Warthog等
  • 全地形车(all terrain vehicle, ATV)
  • 机器狗,如Spot等
  • 其它机器人平台,如TurtleBot、LoCoBot等
  • 汽车

公开的数据集

数据集机器人平台规模环境
1GoStanfordTurtleBot214h室内
2RECONJackal25h野外
3SCANDSpot / Jackal9h人行道
4SeattleWarthog1h野外
5TartanDriveATV5h野外
6NeBulaATV10h野外
7HuRoNTurtleBot275h室内
8BDDCar10h公路

另外还有仿真环境:Habitat-Matterport 3D Semantics Dataset,包含了216个室内场景下的3,100个房间及对应物体的标注

研究点1:具有通用性和泛化性的具身导航模型

迁移学习 / 多任务学习 / 泛化性。训练能适用于多种机器人平台和多种环境的导航策略;

ViNG

ViNG: Learning Open-World Navigation with Visual Goals [ICRA 2021]

主要创新点:(不知道是不是开创这个框架的方法),另外使用了从不同的轨迹间构造负样本对的方法,提高了可通过性学习的效率。

局限:1)在新环境下需要微调(few-shot);2)不能用于其它机器人平台。

ExAug

ExAug: Robot-Conditioned Navigation Policies via Geometric Experience Augmentation. [ICRA 2023]

主要创新点:通过构建点云对环境进行3D建模,然后根据新机器人的尺寸和速度作为condition生成图像,在多视角的图像上训练策略。

局限:1)文中只改变了机器人的尺寸和速度,并没有改变底层的控制方式(比如差速驱动和油门刹车驱动的区别);2)没有体现对新环境的泛化能力。

GNM

GNM: A General Navigation Model to Drive Any Robot [ICRA 2023]

主要创新点:建立了统一的state空间、action空间和traversability;用前k帧的图像隐式建模机器人的context,泛化性更强,支持多种环境多种平台(zero-shot),也可以处理机器人部分失能的情形。

局限:1)模型不够大;2)需要事先建立拓扑图

ViNT

ViNT: A Foundation Model for Visual Navigation [Preprint]

主要创新点:1)大;2)将observation和goal提前进行融合,以建模二者的相关性;3)可以根据下游任务进行多模态的微调;4)具有全局规划能力(下面会讲)

研究点2:全局的规划能力

现有的局部规划方法即使是大模型也只能建模局部的,短距离的可通过性。在全新的环境中不一定有机会事先建立拓扑图,这时候局部规划无法发挥作用,需要更高层次的规划能力

ViKiNG

ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints [RSS 2022]

主要创新点:训练一个生成式模型生成一些虚拟的sub-goal(路径节点),用启发式评估sub-goal的质量,然后引入了A*算法,利用示意图、卫星地图、GPS等信息学习一个启发函数,提高寻路效率

ViNT中的全局规划

基本沿用了ViKiNG的规划框架,使用了diffusion model作为sub-goal的生成模型

PIRLNav

PIRLNav: Pretraining with Imitation and RL Finetuning for ObjectNav [CVPR 2023]

其实就是一个基于模仿学习(逆向强化学习)的端到端方法,针对导航任务本身用了一些比较tricky的方法所以分比较高。

局限:基本在全局的视角下开展研究,缺乏多模态的对齐(约25%的失败案例)和局部可通过性建模(约12%的失败案例),这些可以由上述的导航大模型所解决的

注:这个数据集有自然语言目标的版本,也有图像目标的版本

研究点3:与自然语言的对齐

LM-Nav

LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action [CVPR 2023]

  • 首先用ViNG建立导航图
  • 用一个LLM将自然语言转换成landmark,实现了高层次的路径规划
  • 用CLIP实现landmark文本与图像路径点的对齐
  • 用ViNG执行低层次的导航

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/869670.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Git常见命令和用法

Git 文件状态 Git 文件 2 种状态: 未跟踪:新文件,从未被 Git 管理过已跟踪:Git 已经知道和管理的文件 常用命令 命令作用注意git -v查看 git 版本git init初始化 git 仓库初始化之后有工作区、暂存区(本地库)、版本库git add 文件标识暂存某个文件文件标识以终…

人工智能建立在对象存储上的真正原因

tl;dr: 在这篇文章中,我们将探讨 AI 工作负载依赖高性能对象存储的四个技术原因。 1. 对非结构化数据没有限制 在当前的机器学习范式中,性能和能力与计算成比例,计算实际上是数据集大小和模型大小的代理(神经语言模型的缩放定律&a…

C#开发:下载node.js指定版本

一、打开官网 二、找到指定版本 三、选择程序包msi下载 四、验证下载是否成功 cmd输入: node -v npm -v

请跳至打印机属性的“Adobe PDF设置”页面,取消选择“仅停靠系统字体;不使用文档字体”

场景: 当使用adobe pdf打印时,出现如下提示“请跳至打印机属性的“Adobe PDF设置”页面,取消选择“仅停靠系统字体;不使用文档字体””,该如何解决。 描述 □“仅停靠系统字体;不使用文档字体” 复选本框…

基坑安全:自动化监测系统的革新力量

在日新月异的基坑工程领域,基坑安全自动化监测系统犹如一位守护者,以其独特的优势,为工程的安全与质量保驾护航。该系统集先进的测量仪器、计算机技术与现代传感技术于一体,对基坑的围护结构及周边环境进行全方位、高精度的实时监…

从零开始学量化~Ptrade使用教程(四)——股票普通买卖与回购业务

股票普通买卖 股票买入 通过选择委托方向实现股票的买入与卖出,可根据输入的价格自动查询可买数量。 用鼠标点击【买入】,如图所示: 输入股票代码并选中后,选择委托类型,若为限价类型,输入委托价格&#xf…

【漏洞复现】锐捷校园网自助服务系统 任意文件读取

声明:本文档或演示材料仅用于教育和教学目的。如果任何个人或组织利用本文档中的信息进行非法活动,将与本文档的作者或发布者无关。 一、漏洞描述 锐捷校园网自助服务系统是用于学校网络管理的一个平台,login_judge.jsf接口存在任意文件读取…

中职网络安全B模块渗透测试server2380

使用nmap扫描添加参数-sV Flag:2.4.38 添加参数-A不然扫不全 (这两题可以直接加-sV -A) Flag: 4.3.11-Ubuntu 根据nmap扫描发现系统为ubuntu系统,ubuntu操作系统在某些版本中默认包含一个名为"ubuntu"的用户帐户。这是为了方…

重生奇迹mu自带四重箭加穿透的弓

1.烈风射手 烈风射手是自带四重箭加穿透的弓之一。该职业的技能树中有一个叫做“四箭连发”的技能,可以让玩家在一次攻击中发射四支箭矢,每支箭矢都带有穿透效果。 2.影魅猎人 影魅猎人也是自带四重箭加穿透的弓之一。该职业的技能树中有一个叫做“穿…

案例分享:Qt modbusTcp调试工具(读写Byte、Int、DInt、Real、DReal)(当前v1.0.0)

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://blog.csdn.net/qq21497936/article/details/140313789 红胖子(红模仿)的博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV、OpenGL、ffmpeg、OSG、单片…

Backend - C# 操作PostgreSQL DB

目录 一、安装 Npgsql 插件 (一)作用 (二)操作 (三)注意 二、操作类 (一)操作类 1.NpgsqlConnection类 (1)作用 (2)引入 &a…

[高频SQL50题(基础版)]第五百八十四题,寻找用户推荐人

题目: 表: Customer ---------------------- | Column Name | Type | ---------------------- | id | int | | name | varchar | | referee_id | int | ---------------------- 在 SQL 中,id 是该表的主键列。 该表的每一…

儿童房灯具什么牌子好?几款儿童房灯具款式墙裂分享

随着科技的不断发展和生活方式的改变,儿童青少年近视率的增长趋势引起了人们的关注。近视不仅对孩子们的视力健康构成威胁,还可能对他们的学习和日常生活带来不便。因此,如何有效地预防和改善儿童青少年的视力问题成为了一个亟待解决的课题。…

2024学生党蓝牙耳机什么牌子好?品牌高性价比蓝牙耳机推荐

2024年,对于追求性价比和品质的学生党来说,选择一款合适的蓝牙耳机是提升学习和生活品质的重要一环。面对市场上琳琅满目的蓝牙耳机产品,2024学生党蓝牙耳机什么牌子好?如何找到既满足音质需求又具备高性价比的款式呢?…

高考后的IT专业启航:暑期预习指南与学习路线图

文章目录 每日一句正能量前言:启航IT世界,高考后的暑期学习之旅基础课程预习指南基础课程预习指南:构建你的IT知识大厦引言一、计算机科学导论二、编程语言入门三、操作系统基础四、数据结构与算法五、网络基础六、数据库原理结语 技术学习路…

02STM32软件安装新建工程

STM32软件安装&新建工程 1.软件安装:1.1Keil5 MDK安装1.2安装器件支持包离线安装支持包在线安装支持包 1.3软件注册:1.4安装驱动STLINK驱动JLink驱动在此文件夹下USB转串口 2.新建工程2.1STM32开发方式:1.寄存器2.标准库3.HAL库 固件库压…

Nginx访问日志按天拆分

使用 logrotate 来实现 如果系统没有安装logrotate 可以使用 sudo yum install logrotate -y 进行安装 配置 logrotate 接下来我们就来配置 nginx 切割的配置文件,我的 nginx 日志路径在/var/log/nginx 我们在 /etc/logrotate.d/ 目录下新建一个 nginx 的文件…

C++ Primer 总结索引 | 第十六章:模板与泛型编程

1、面向对象编程(OOP)和泛型编程 都能处理在编写程序时 不知道类型的情况。不同之处在于:OOP 能处理类型 在程序运行之前都未知的情况;而在泛型编程中,在编译时就能获知类型了 2、容器、迭代器 和 算法 都是泛型编程的…

【热梗案例】知识点阶段性综合汇总

文章目录 渲染对象、实现统计功能实现删除功能设置发布按钮实现发布按钮的提交功能 直接用CSS的模板&#xff0c;模板代码如下&#xff1a; <template><view class"title">近期热梗</view><view class"out"> <view class&qu…

全面解析BPMN、CMMN、DMN与XML

欢迎来到我的博客&#xff0c;代码的世界里&#xff0c;每一行都是一个故事 &#x1f38f;&#xff1a;你只管努力&#xff0c;剩下的交给时间 &#x1f3e0; &#xff1a;小破站 全面解析BPMN、CMMN、DMN与XML 前言BPMN&#xff08;业务流程模型与标记法&#xff09;定义与用途…