机器人前沿--PalmE:An Embodied Multimodal Language Model 具身多模态大(语言)模型

首先解释这篇工作名称Palm-E,发表时间为2023.03,其中的Palm是谷歌内部在2022.04开发的大语言模型,功能类似ChatGPT,只是由于各种原因没有那样火起来,E是Embodied的首字母,翻译过来就是具身多模态大语言模型大模型,我们一般习惯将其称为具身多模态大模型。

何为具身?这个词听起来非常陌生,简单说就是AI+agent(机器人是其中一种agent)的结合,强调的的agent通过与环境互动来获取智能,类似人类获得智能的范式,博主将在之后的博客里做专门篇幅讲解,欢迎大家继续关注,下面开始来详细拆解这篇论文。

Palm-E两大任务:视觉问答(VQA)和具身任务规划

Palm-E用统一的网络架构和训练方式进行多任务,主要包括视觉问答(VQA)和具身任务规划。

具身任务规划

该任务要求大模型能理解人类的语言和意图,还需要机器人观察和操作环境中的物体,以及规划一系列的子目标和动作。其输入是多模态的输入(如文本、图像、触觉信息以及机器人的3D空间状态等),输出可被机器人逐步执行的任务步骤,比如当我们让其去抽屉里拿薯片,Palm-e会输出如下子任务步骤,而后机器人利用其它模块(我们称之为Policy,本工作用了RT1和LAVA这两个Policy来执行这些步骤skill)来逐步执行之:
step1:导航到抽屉;
step2:打开抽屉;
step3:取出薯片;
step4:关闭抽屉;
step5:导航至主人处;
step6:将薯片交给主人;
在这里插入图片描述

VQA

该任务与agent无关,用户输入图片和想问的问题,大模型输出对问题的文字回复。
在这里插入图片描述

贡献

  1. 提出和演示一个通用的,可迁移学习的,智能决策的多模态大模型;
  2. 训练方面,引入先进的结构思想,使得可以对多模态输入数据进行符号表征,用于训练推理,如neural scene representations ,entity-labeling multimodal tokens.
  3. 除了具身推理(embodied reasoner), PaLM-E也是一个视觉语言方面的通才;
  4. 演示了增大模型的规模可以极大地提升多模态大模型性能,特别是减少灾难性遗忘(catastrophic forgetting)

Palm-E网络结构

在这里插入图片描述

整个网络的结构如上所示,多模态数据(图像,文本,物体状态等)经过特定的编码后直接输送到大语言模型,借助大语言模型的能力输出文字,这些文字可以是对问题的回复,也可以是对任务的规划。(看上去大家都应该学fei了)

训练与实验

文章大篇幅介绍了相关实验,实验数据集如下,主要包括网络VQA数据和机器人轨迹数据。
在这里插入图片描述

实验通过消融对比了不同大语言模型规模和训练方式对任务的影响。

VQA任务

VQA不是本工作的核心,但附带也能进行此类认为,因此也做了相关测评,该实验对比了不同规模模型和训练方式对该任务的影响,结果如下:
在这里插入图片描述

纯语言任务

该实验对比了不同规模模型对纯语言问答任务的影响。
在这里插入图片描述

机器人具身规划任务

这一部分是本工作的核心,验证了大语言模型规模和训练方式对该任务的影响,分别在TAMP(纯规划),Language table(机械臂桌面push任务)和机器人移动操作任务(室内移动操作任务)上进行对比。

TAMP(Task and Motion Planning)任务

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Language-Table

在该任务中,Palm-E规划任务,将高层次的人类语言转化成多个机器人可执行步骤,然后调用LAVA这个工作执行,整个工作流程如下所示:
在这里插入图片描述
一些实验结果如下所示:
在这里插入图片描述
在这里插入图片描述

移动操作任务

可供性评估(Affordance prediction)和失败检测

Affordance是指根据图片判断某个子任务skill可否被成功执行,失败检测是指根据观测,判断任务是否被成功完成,两者都是机器人闭环任务规划的一大重要环节,对比结果如下:
在这里插入图片描述

长水平规划(Long-horizon)

在这里插入图片描述

实验摘要和讨论

通用性与特定任务模型–迁移性(Generalist vs specialist models – transfer)

利用多任务数据训练,最终可对单个任务起促进作用。(但这个实验博主觉得不太严密,缺乏一个full only robot data实验)
在这里插入图片描述
在这里插入图片描述

数据有效性(Data efficiency)

机器人的数据很难获得,但通过大量网络数据的训练,Palm-E也可在少量机器人数据上训练出一个不错的用于任务规划的模型,体现了一定的迁移性,OSRT的结果展示了另一种数据有效性的示例–使用集合输入表征。

保存纯语言能力

论文介绍了两种方法:

  1. 训练过程中freeze住LLM模型,但这可能会使得在机器人任务中很失败;
  2. 使用足够大的LLM模型。

总结

我们提出通过将图像等多模态信息注入到具身语言模型中来构建具身多模态大语言模型。实验表明现成的最先进的视觉语言模型仅接受一般 VQA 和字幕任务的训练还不足以用于具身推理任务,也有近期的工作表明了其在可供性评估上的局限性,为了克服这些局限性,我们提出PaLM-E,一个单一模型,能够在模拟和现实世界中控制不同的机器人,同时
具备一般视觉语言任务能力。尤其是将新颖的神经场景表示 (即 OSRT)应用到Pla-E,使得即使没有大规模数据,该模型在机器人多任务中也特别有效。重要的是,我们也证明这种多模态训练带来多种迁移能力——将语言融入具身决策规划中,从而使机器人更高效地完成规划任务。尽管我们的结果表明冻结语言模型是可行的,使得通向通用具身多模式模型的道路同时完全保留语言能力,我们还提出了使用解冻模型的替代途径:增加语言模型的大小会显着减少灾难性遗忘。最大的模型,PaLM-E-562B,展示了强大的思维链能力和视觉图像任务能力。

个人思考

谷歌Palm-E的工作向我们展示了将大语言模型和多模态应用于机器人具身规划中,可以动态规划任务,同时展现了一定的迁移泛化性。但这个工作比较难以复现,模型易懂,但其中最大问题就在于它需要大量的数据,如同大多数其他AI工作一样,机器人具身大规模数据才是最大的瓶颈。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/46449.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

36、快手视频解析API接口,免费好用

1、前言 快手视频解析API接口,这个是RollToolsApi通用系列接口的其中一个,内部包含了1个小接口,解析快手链接,获取视频Mp4下载链接,即可下载视频到本地。 查看接口完整信息:https://www.mxnzp.com/doc/de…

Typora中插入LaTex数学公式的使用

文章目录 Typora中插入LaTex数学公式的使用公式的插入上下标括号和分隔符分数开方省略号矢量和均值积分极限累加、累乘及交集、并集希腊字母特殊字符字体大括号和行标字体 大括号和行标其他命令矩阵方程式序列条件表达式配置行高数组与表格嵌套表格或数组方程组连分式交换图表其…

宠物浮毛克星!最值得买的猫用空气净化器排名

作为用了3年宠物空气净化器的铲屎官来说,为什么铲屎官每到春秋换季就开始疯狂打喷嚏、突然开始全身过敏。其原因是猫毛一到换季就开始疯狂掉毛,相对于可见猫毛,漂浮在空气中的浮毛就是罪灰祸首。微小的浮毛在空气总容易被人体吸入体内&#x…

Qt+ESP32+SQLite 智能大棚

环境简介 硬件环境 ESP32、光照传感器、温湿度传感器、继电器、蜂鸣器 基本工作流程 上位机先运行,下位机启动后尝试连接上位机连接成功后定时上报传感器数据到上位机,上位机将信息进行处理展示判断下位机传感器数据,如果超过设置的阈值&a…

NumPy库学习之arange函数

NumPy库学习之arange函数 一、简介 NumPy是一个开源的科学计算库,用于Python语言。它提供了大量的数学函数来对数组进行操作。arange函数是NumPy库中用来生成一个指定范围的值的数组。 二、语法和参数 arange函数的基本语法如下: numpy.arange(star…

[misc]-流量包-wireshark-icmp

wireshark打开,大部分都是icmp,查看data部分 提取data长度: tshark.exe -r 1.pcapng -T fields -e data.len > length.txt 使用python解析这个文件,剔除异常值,每8个取一个值,得到flag ds [] with open(length.tx…

188家国产大模型:挑战与机遇,未来杀手级AI应用究竟该长什么样子?

未来的杀手级AI应用究竟该长什么样子?这篇文章里,作者梳理了国内外LLMs基础大模型的特征,并于最后发表了自己关于杀手级AI应用的看法和见解,一起来看一下。 摘要: 本文详细列表展示国外18家,国内188家大模…

使用AIOHTTP模块:提高网络请求效率

链接:https://pan.quark.cn/s/c6df12a6efcc​ 本文将介绍如何利用AIOHTTP模块提高网络请求效率,以及如何编写一个异步下载图片的程序,并展示如何通过AIOHTTP和AIO files的异步功能优化Python爬虫程序的读写操作。 00:00 - AIOHTTP模块&…

Ant 风格的路径模式和 MVC 风格的路径模式 是什么

Ant 风格的路径模式和 MVC 风格的路径模式是 Spring 框架中用于匹配 URL 路径的两种模式。它们各有不同的语法和用途,主要用于配置 Spring Security 和 Spring MVC 中的请求映射。 Ant 风格的路径模式 Ant 风格的路径模式使用 Ant 文件路径匹配语法来匹配 URL。常…

部署运维之一:发展历史

在当今数字化转型加速的时代,部署运维作为技术栈中至关重要的一环,不仅承载着确保应用平稳运行的重任,还深刻影响着企业的业务连续性、用户体验以及市场竞争力。随着云计算、大数据、人工智能等技术的飞速发展,应用系统的复杂性日…

深度学习-5-如何选择损失函数和激活函数以及层数

参考神经网络结构选择的智慧:层数、连接与神经元数量的奥秘 参考终于知道如何选择深度学习的损失函数和激活函数了! 参考神经网络动画讲解 - 权重W、偏置b和激活函数 1 神经网络结构的选择 不同的神经网络结构,如层数、连接方式以及神经元数量等,都会对模型的学习能力、泛…

ReentrantLock的源码实现和原理介绍

目录 一、概述 二、ReentrantLock的整体结构 三、ReentrantLock 和Synchronized相比 四、ReentrantLock 公平锁和非公平锁实现 4.1 ReentrantLock 源码解读 4.1.1 ReentrantLock 类源码解读 4.1.1.1 Lock接口 4.1.1.2 Sync抽象类 4.1.1.3 NonfairSync()和FairSync() 4…

React 18 + Babel 7 + Webpack 5 开发环境搭建

文章目录 一、基础开发环境搭建1. 新建项目目录2. 项目目录结构及内容3. 安装 React 18 Babel 7 Webpack 54. 配置 Babel 和 Webpack5. 调试/构建项目 二、扩展项目支持的能力(待补充)1. JS 扩展(待补充)2. CSS 扩展&#xff08…

EasyCVR视频技术:城市电力抢险的“千里眼”,助力抢险可视化

随着城市化进程的加速和电力需求的不断增长,电力系统的稳定运行对于城市的正常运转至关重要。然而,自然灾害、设备故障等因素常常导致电力中断,给城市居民的生活和企业的生产带来严重影响。在这种情况下,快速、高效的电力抢险工作…

产品介绍|九芯语音芯片的特点与应用市场

随着物联网与智能家居的普及,越来越多的电子产品有了语音播报的需求。九芯语音芯片集成了语音识别和语音合成技术,能够准确地捕捉并解析人类的语言,同时以清晰、自然的语调进行回应,为各类智能设备注入了强大的语言交互能力。 特点…

Knife4j的原理及应用详解(四)

本系列文章简介: 在当今快速发展的软件开发领域,API(Application Programming Interface,应用程序编程接口)作为不同软件应用之间通信的桥梁,其重要性日益凸显。随着微服务架构的兴起,API的数量…

2024智慧竞技游戏俱乐部线下面临倒闭?

在2024年的中国,智慧竞技游戏俱乐部如雨后春笋般在二三线城市中兴起,它们不仅是年轻人娱乐的场所,更是智慧与技巧的较量场。然而,随着疫情的冲击,这些俱乐部面临着前所未有的挑战。本文将通过一个小镇上的故事&#xf…

OSI 七层模型与五层模型

OSI(开放系统互连)七层模型和五层模型是描述计算机网络协议的两种不同层次划分方法。两者用于帮助理解和设计网络协议,但它们在层次划分上有所不同。

使用Elasticsearch Python SDK 查询Easysearch

随着数据分析需求的不断增长,能够高效地查询和分析大数据集变得越来越重要。Elasticsearch作为一种强大的分布式搜索和分析引擎,被广泛应用于各种场景。Easyearch 支持原生 Elasticsearch 的 DSL 查询语法,确保原业务代码无需调整即可无缝迁移…

优化校园设施维护,故障类型功能全解析

在智慧校园的日常运作中,报修管理系统的故障类型功能扮演着至关重要的角色。它不仅简化了设备维修的流程,还极大地提升了校园设施的维护效率。该功能的核心在于,它允许系统管理员创建、编辑和删除一系列故障类型,涵盖从网络连接问…