“机器人V2.0时代已来”-任务规划难题迎刃而解,世界因机器人改变而翻转!

01-VILA背景简介

2022年,Michael Ahn, Anthony Brohan等人提出“Do as i can, not as i say: Grounding language in robotic affordances”算法。本文指出虽然大型语言模型可以编码关于世界的丰富语义知识,而这些知识对旨在对用自然语言表达的高级、时间扩展指令采取行动的机器人非常有用,但是语言模型的一个显著弱点是缺乏上下文基础,这使得在给定的现实世界上下文中很难利用它们进行决策。例如,要求语言模型描述如何清洁泄漏可能会产生合理的叙述,但它可能不适用于需要在特定环境中执行此任务的特定代理,如机器人。作者建议通过预先训练的行为来提供这种基础,这些行为用于调节模型,以提出既可行又适合上下文的自然语言动作。机器人可以充当语言模型的“手和眼睛”,而语言模型提供有关任务的高级语义知识。

2023年,Wenlong Huang, Fei Xia等人提出“ Grounded decoding: Guiding text generation with grounded models for robot control”算法。大型语言模型(LLM)的最新进展表明,通过使用自回归模型进行预训练,可以学习和利用互联网规模的知识。不幸的是,将这种模型应用于具有具体代理的环境(如机器人)是具有挑战性的,因为它们缺乏物理世界的经验,无法解析非语言观察结果,并且不知道机器人可能需要的奖励或安全约束。另一方面,从交互数据中学习的基于语言的机器人策略可以提供必要的基础,使代理能够正确地位于现实世界中,但由于可用于训练它们的交互数据的广度有限,这种策略受到缺乏高级语义理解的限制。因此,如果我们想利用语言模型中的语义知识,同时仍将其置于具体环境中,就必须构建一个既可能根据语言模型,又可以根据环境的基础模型实现的动作序列。作者将其定义为一个类似于概率滤波的问题:解码一个在语言模型下具有高概率和在一组基础模型目标下具有高可能性的序列。

2023年Zhengyuan Yang等人提出“The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)”算法。本文分析了最新的模型GPT-4V来加深大家对LMM的理解。分析的重点是GPT-4V可以执行的有趣任务,包括测试样本,以探测GPT-4V功能的质量和通用性、其支持的输入和工作模式,以及提示模型的有效方法。在探索GPT-4V的方法中,作者策划和组织了一系列精心设计的定性样本,涵盖各种领域和任务。对这些样本的观察结果表明,GPT-4V在处理任意交织的多模式输入方面前所未有的能力及其能力的通用性使GPT-4V成为一个强大的多模式通才系统。此外,GPT-4V理解输入图像上绘制的视觉标记的独特能力可以产生新的人机交互方法,如视觉参考提示。
在这里插入图片描述

02-VILA算法简介

对于现实场景中的机械臂而言,学习并理解任务规划能力是一件比较复杂的任务。最近的进展表明,大型语言模型(LLM)拥有广泛的知识,可用于机器人任务,特别是在推理和规划任务中。然而,由于LLM缺乏世界基础和依赖外部可供性模型来感知环境信息而受到限制。作者认为,任务规划器应该是一个固有的、统一的多模式系统。
本文介绍了机器人视觉语言规划(ViLa),它是一种简单有效的远程机器人任务规划方法,它利用视觉语言模型(VLM)生成一系列可操作的步骤。ViLa将感知数据直接集成到其推理和规划过程中,从而能够深入理解视觉世界中的常识知识,包括空间布局和对象属性。它还支持灵活的多模式目标规范,并自然地包含视觉反馈。ViLa可以在现实世界和模拟环境中解决各种复杂的长期任务。真实模拟环境中进行大量评估结果表明,ViLa优于现有的基于LLM的规划者,突出了其在一系列开放世界操作任务中的有效性。

03-VILA算法流程

上图展示了VILA算法的整体流程,详细的步骤如下所述:

首先,将用户的指令和当前的视觉观察图像送入GPT-4V大模型中,作者利用VLM(GPT-4V)通过思维链推理来理解环境场景;
然后,利用GPT-4V生成一系列可操作的步骤,如图中的任务相关的目标与位置信息;
接着,这个计划的第一步由一个基本策略执行,在该策略的基础上生成接下来的任务规划策略,如图中的3~7所示;
最后,将已执行的步骤添加到完成的计划中,从而实现动态环境中的闭环规划方法,具体的操作步骤由机械臂来执行。
在这里插入图片描述

上图展示了VILA的执行说明(左)和SayCan的决策过程说明(右)。在“拿来空盘子”任务中,机器人必须首先针对蓝色盘子中的苹果和香蕉执行重新定位操作;然而,SayCan的第一步是直接拿起蓝色的盘子。在准备艺术课任务中,当剪刀应该放在桌子上时,SayCan错误地拿起剪刀并将其放在盒子里。

04-VILA算法应用场景
04.01-理解视觉世界中的常识

ViLa擅长了解空间布局或对象属性的复杂任务。这种常识性知识几乎渗透到机器人领域的每一项感兴趣的任务中,但以前基于LLM的规划者在这方面一直做不到。

04.02-理解各种视觉目标
ViLa支持灵活的多模式目标规范方法。它不仅能够利用语言指令,而且能够利用各种形式的目标图像,甚至能够融合语言和图像,来有效地定义目标。
04.03-理解视觉反馈

ViLa以直观自然的方式有效利用视觉反馈知识,在动态环境中实现稳健的闭环规划。

04.04-模拟仿真实验
在这里插入图片描述

上图展示了ViLa可以按照高级语言指令指定的某些所需配置重新排列表上的对象。

05-VILA算法性能评估

05.01-主观效果评估
在这里插入图片描述

上图展示了VILA在图像目标条件任务上的执行效果。在“排列寿司”任务中,VILA根据参考图像生成排列寿司的计划。在“挑选蔬菜”任务中,场景涉及一张桌子,桌子上有一个粉色盘子、一个黑色寿司盘子、一块披萨盘子和一个绿色小吃盘子。在这里,VILA从进球图像中的手指推断出蔬菜应该放在粉红色的盘子上。

在这里插入图片描述

上图展示了VILA在“查找装订器”任务上的执行效果。通过在每个步骤结合视觉反馈和重新规划,当VILA在顶部抽屉中没有找到缝合器时,它能够继续探索底部抽屉,从而成功地定位缝合器。

在这里插入图片描述

上图展示了VILA算法在基于RAVENS的模拟环境中的执行效果。作者设计了16个不同的任务,分为两类:方块和保龄球(左)和字母(右)。更详细的效果请看效果展示部分。

05.02-客观指标评估
在这里插入图片描述

上表展示了多个STA算法在需要丰富的常识性知识的评估任务上面的效果。tong通过观察与分析,我们可以发现:VILA在需要了解空间布局(上半部分)和对象属性(下半部分)的任务中表现出卓越的性能。

在这里插入图片描述

上图展示了VILA和基线算法的一些错误类型。通过利用基于视觉世界的常识性知识,VILA显著减少了理解错误的比例。

在这里插入图片描述

上表展示了开环VILA与闭环VILA在多个不同任务上面的执行效果。通过利用视觉反馈,闭环VILA的效果显著优于开环变体。

在这里插入图片描述

上表展示了多个STA算法在在见过和未见过的模拟环境中的平均成功率。

通过观察与分析,我们可以得出以下的初步结论:VILA在可见和不可见任务中始终优于其它基线方法。
06-VILA算法效果展示

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/223285.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MAC配置环境变量

1、配置 JAVA JDK 1.1、查看 JDK 安装目录 (1)可以在Android Studio中查看,复制该路径 (2)也可以在官网下载 Java JDK下载地址 mac中的安装地址是"资源库->Java->JavaVirtualMachines"中 1.2、…

SQLMAP的使用(rails 为例)

1.启动一个项目&#xff0c;例如rails学习的项目&#xff0c;修改config/database.yml&#xff0c; 假设来一个接口&#xfeff; class YourModel::YourController < ApplicationController def test_sqlisql "select * from your_table_name where id " par…

scratch认识图形 2023年12月中国电子学会 图形化编程 scratch编程等级考试二级真题和答案解析

目录 scratch认识图形 一、题目要求 1、准备工作 2、功能实现 二、案例分析

编程性能调优方案

微信公众号转载&#xff0c;关注微信公众号掌握更多技术动态 --------------------------------------------------------------- 一、字符串与集合性能优化 1.String 对象的实现 在 Java 语言中&#xff0c;Sun 公司的工程师们对 String 对象做了大量的优化&#xff0c;来节…

【机器学习】利用线性回归预测披萨价格

目录 前言 一、绘制散点图 二、数据准备 三、一元线性回归模型训练 四、一元线性回归模型评估 总结 &#x1f308;嗨&#xff01;我是Filotimo__&#x1f308;。很高兴与大家相识&#xff0c;希望我的博客能对你有所帮助。 &#x1f4a1;本文由Filotimo__✍️原创&#xff0c;首…

vue运行项目时network:unavailble的解决方法

先看问题&#xff1a; 解决方法&#xff1a; 1、找到环境变量 2、找到系统变量中的变量Path&#xff1a;点击编辑 3、打开后新建文本 C:\windows\System32\Wbem 复制粘贴即可 3、最后重启vscode运行即可&#xff1a; 错误原因&#xff1a; 因为WBEM是管理协议和网络标准技术…

‘BLEUUID‘ does not name a type错误怎么解决?

摘要&#xff1a;arduino环境下对esp32蓝牙编程时会遇到BLEUUID does not name a type错误&#xff0c;本文介绍解决方法。 硬件设备是安信可ESP32-S模组。 错误发生在代码最开始的地方&#xff0c;include了一个蓝牙设备头文件&#xff0c;然后定义了UUID&#xff0c;注意看&a…

HTTP 302错误:临时重定向

在Web开发中&#xff0c;HTTP状态码是用于表示Web服务器响应的各种状态。其中&#xff0c;HTTP 302错误表示临时重定向&#xff0c;这意味着请求的资源已被临时移动到其他位置&#xff0c;并且服务器已经提供了新的URL&#xff0c;以便客户端可以重新发送请求。 了解HTTP 302错…

言简意赅的 el-table 跨页多选

步骤一 在<el-table>中:row-key"getRowKeys"和selection-change"handleSelectionChange" 在<el-table-column>中type"selection"那列&#xff0c;添加:reserve-selection"true" <el-table:data"tableData"r…

联邦蒸馏中的分布式知识一致性 | TIST 2024

联邦蒸馏中的分布式知识一致性 | TIST 2024 联邦学习是一种隐私保护的分布式机器学习范式&#xff0c;服务器可以在不汇集客户端私有数据的前提下联合训练机器学习模型。通信约束和系统异构是联邦学习面临的两大严峻挑战。为同时解决上述两个问题&#xff0c;联邦蒸馏技术被提…

前端非常好用的免费网页工具推荐(值得收藏)

1、iloveimg 可在线进行图片编辑、压缩、转换等功能&#xff0c;操作方便&#xff0c;完全免费 2、草料二维码 可在线进行文本、网站、文件、图片、微信等二维码生成 3、比特虫 在线制作网站 ico 图标 4、facicongrabber 免费网页 favicon 提取 5、bazhan.wang 在线扒站工…

Docker知识点整理

Docker和虚拟机技术的区别&#xff1a; 传统的虚拟机&#xff0c;可以虚拟出一条硬件&#xff0c;运行一个完整的操作系统&#xff0c;在这个操作系统上安装和运行所需的软件 容器内的应用可以直接运行在宿主 主机的内核中&#xff0c;容器没有自己的内核&#xff0c;也不用虚…

java导出excel通用工具(POI,类注解形式)

通过给类定义注解(设置名称&#xff0c;设置kv转换值)&#xff0c;然后利用设置的名称和传入的数据进行导出。 只需要在项目添加两个工具类就可以实现excel导出功能。 1、单sheet 步骤&#xff1a;1、根据业务需求定义导出的类&#xff0c;并设置表头名称。 …

【媒体开发】利用FFMPEG进行推拉流

目录 1. 下载并启动媒体服务 2. 使用 FFMPEG 拉流并推送到指定服务地址 3. 客户端拉流 1. 下载并启动媒体服务 MediaMTX&#xff0c;也即之前的rtsp-simple-server&#xff0c;是一个即用型、零依赖的实时媒体服务器和媒体代理&#xff0c;允许发布、读取、代理和记录视频和…

Web安全-SQL注入常用函数(二)

★★实战前置声明★★ 文章中涉及的程序(方法)可能带有攻击性&#xff0c;仅供安全研究与学习之用&#xff0c;读者将其信息做其他用途&#xff0c;由用户承担全部法律及连带责任&#xff0c;文章作者不承担任何法律及连带责任。 1、MySQL数据库构成 初始化安装MySQL数据库后(…

智能优化算法应用:基于模拟退火算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用&#xff1a;基于模拟退火算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用&#xff1a;基于模拟退火算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.模拟退火算法4.实验参数设定5.算法结果6.…

Android---Kotlin 学习007

集合可以方便你处理一组数据&#xff0c;也可以作为值参传给函数&#xff0c;和我们学过的其它变量类型一样&#xff0c;List、Set 和 Map 类型的变量也分为两类&#xff0c;只读和可变。 List创建与元素获取 通过 listOf() 函数创建一个 List 集合。 val listString : List&…

ShardingSphere数据分片之读写分离

1、概述 读写分离是一种常见的数据库架构&#xff0c;它将数据库分为主从库&#xff0c;一个主库&#xff08;Master&#xff09;用于写数据&#xff0c;多个从库&#xff08;Slave&#xff09;进行轮询读取数据的过程。主从库之间通过某种通讯机制进行数据的同步。 所以&…

React Native android环境搭建,使用夜神模拟器进行开发(适用于0.73+版本)

前言 本文基于&#xff1a;“react-native” : “^0.73.0” 1.安装 Node Node.js&#xff0c;下载时选择 > 18 版本 2.下载并安装 JDK Java SE Development Kit (JDK)&#xff0c;下载时选择 17 版本 安装 验证是否安装成功 打开命令提示符输入 javac -version 回车 3.…

re:Invent 产品体验与感受分享:Amazon ElastiCache Serverless 缓存的即时扩展

授权说明&#xff1a;本篇文章授权活动官方亚马逊云科技文章转发、改写权&#xff0c;包括不限于在亚马逊云科技开发者社区、 知乎、自媒体平台、第三方开发者媒体等亚马逊云科技官方渠道&#xff09;。 文章目录 前言产品介绍产品使用步骤1.创建缓存服务2.安全组开放访问权限…