机器人前沿--PalmE:An Embodied Multimodal Language Model 具身多模态大(语言)模型

首先解释这篇工作名称Palm-E,发表时间为2023.03,其中的Palm是谷歌内部在2022.04开发的大语言模型,功能类似ChatGPT,只是由于各种原因没有那样火起来,E是Embodied的首字母,翻译过来就是具身多模态大语言模型大模型,我们一般习惯将其称为具身多模态大模型。

何为具身?这个词听起来非常陌生,简单说就是AI+agent(机器人是其中一种agent)的结合,强调的的agent通过与环境互动来获取智能,类似人类获得智能的范式,博主将在之后的博客里做专门篇幅讲解,欢迎大家继续关注,下面开始来详细拆解这篇论文。

Palm-E两大任务:视觉问答(VQA)和具身任务规划

Palm-E用统一的网络架构和训练方式进行多任务,主要包括视觉问答(VQA)和具身任务规划。

具身任务规划

该任务要求大模型能理解人类的语言和意图,还需要机器人观察和操作环境中的物体,以及规划一系列的子目标和动作。其输入是多模态的输入(如文本、图像、触觉信息以及机器人的3D空间状态等),输出可被机器人逐步执行的任务步骤,比如当我们让其去抽屉里拿薯片,Palm-e会输出如下子任务步骤,而后机器人利用其它模块(我们称之为Policy,本工作用了RT1和LAVA这两个Policy来执行这些步骤skill)来逐步执行之:
step1:导航到抽屉;
step2:打开抽屉;
step3:取出薯片;
step4:关闭抽屉;
step5:导航至主人处;
step6:将薯片交给主人;
在这里插入图片描述

VQA

该任务与agent无关,用户输入图片和想问的问题,大模型输出对问题的文字回复。
在这里插入图片描述

贡献

  1. 提出和演示一个通用的,可迁移学习的,智能决策的多模态大模型;
  2. 训练方面,引入先进的结构思想,使得可以对多模态输入数据进行符号表征,用于训练推理,如neural scene representations ,entity-labeling multimodal tokens.
  3. 除了具身推理(embodied reasoner), PaLM-E也是一个视觉语言方面的通才;
  4. 演示了增大模型的规模可以极大地提升多模态大模型性能,特别是减少灾难性遗忘(catastrophic forgetting)

Palm-E网络结构

在这里插入图片描述

整个网络的结构如上所示,多模态数据(图像,文本,物体状态等)经过特定的编码后直接输送到大语言模型,借助大语言模型的能力输出文字,这些文字可以是对问题的回复,也可以是对任务的规划。(看上去大家都应该学fei了)

训练与实验

文章大篇幅介绍了相关实验,实验数据集如下,主要包括网络VQA数据和机器人轨迹数据。
在这里插入图片描述

实验通过消融对比了不同大语言模型规模和训练方式对任务的影响。

VQA任务

VQA不是本工作的核心,但附带也能进行此类认为,因此也做了相关测评,该实验对比了不同规模模型和训练方式对该任务的影响,结果如下:
在这里插入图片描述

纯语言任务

该实验对比了不同规模模型对纯语言问答任务的影响。
在这里插入图片描述

机器人具身规划任务

这一部分是本工作的核心,验证了大语言模型规模和训练方式对该任务的影响,分别在TAMP(纯规划),Language table(机械臂桌面push任务)和机器人移动操作任务(室内移动操作任务)上进行对比。

TAMP(Task and Motion Planning)任务

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Language-Table

在该任务中,Palm-E规划任务,将高层次的人类语言转化成多个机器人可执行步骤,然后调用LAVA这个工作执行,整个工作流程如下所示:
在这里插入图片描述
一些实验结果如下所示:
在这里插入图片描述
在这里插入图片描述

移动操作任务

可供性评估(Affordance prediction)和失败检测

Affordance是指根据图片判断某个子任务skill可否被成功执行,失败检测是指根据观测,判断任务是否被成功完成,两者都是机器人闭环任务规划的一大重要环节,对比结果如下:
在这里插入图片描述

长水平规划(Long-horizon)

在这里插入图片描述

实验摘要和讨论

通用性与特定任务模型–迁移性(Generalist vs specialist models – transfer)

利用多任务数据训练,最终可对单个任务起促进作用。(但这个实验博主觉得不太严密,缺乏一个full only robot data实验)
在这里插入图片描述
在这里插入图片描述

数据有效性(Data efficiency)

机器人的数据很难获得,但通过大量网络数据的训练,Palm-E也可在少量机器人数据上训练出一个不错的用于任务规划的模型,体现了一定的迁移性,OSRT的结果展示了另一种数据有效性的示例–使用集合输入表征。

保存纯语言能力

论文介绍了两种方法:

  1. 训练过程中freeze住LLM模型,但这可能会使得在机器人任务中很失败;
  2. 使用足够大的LLM模型。

总结

我们提出通过将图像等多模态信息注入到具身语言模型中来构建具身多模态大语言模型。实验表明现成的最先进的视觉语言模型仅接受一般 VQA 和字幕任务的训练还不足以用于具身推理任务,也有近期的工作表明了其在可供性评估上的局限性,为了克服这些局限性,我们提出PaLM-E,一个单一模型,能够在模拟和现实世界中控制不同的机器人,同时
具备一般视觉语言任务能力。尤其是将新颖的神经场景表示 (即 OSRT)应用到Pla-E,使得即使没有大规模数据,该模型在机器人多任务中也特别有效。重要的是,我们也证明这种多模态训练带来多种迁移能力——将语言融入具身决策规划中,从而使机器人更高效地完成规划任务。尽管我们的结果表明冻结语言模型是可行的,使得通向通用具身多模式模型的道路同时完全保留语言能力,我们还提出了使用解冻模型的替代途径:增加语言模型的大小会显着减少灾难性遗忘。最大的模型,PaLM-E-562B,展示了强大的思维链能力和视觉图像任务能力。

个人思考

谷歌Palm-E的工作向我们展示了将大语言模型和多模态应用于机器人具身规划中,可以动态规划任务,同时展现了一定的迁移泛化性。但这个工作比较难以复现,模型易懂,但其中最大问题就在于它需要大量的数据,如同大多数其他AI工作一样,机器人具身大规模数据才是最大的瓶颈。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/46449.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

宠物浮毛克星!最值得买的猫用空气净化器排名

作为用了3年宠物空气净化器的铲屎官来说,为什么铲屎官每到春秋换季就开始疯狂打喷嚏、突然开始全身过敏。其原因是猫毛一到换季就开始疯狂掉毛,相对于可见猫毛,漂浮在空气中的浮毛就是罪灰祸首。微小的浮毛在空气总容易被人体吸入体内&#x…

Qt+ESP32+SQLite 智能大棚

环境简介 硬件环境 ESP32、光照传感器、温湿度传感器、继电器、蜂鸣器 基本工作流程 上位机先运行,下位机启动后尝试连接上位机连接成功后定时上报传感器数据到上位机,上位机将信息进行处理展示判断下位机传感器数据,如果超过设置的阈值&a…

[misc]-流量包-wireshark-icmp

wireshark打开,大部分都是icmp,查看data部分 提取data长度: tshark.exe -r 1.pcapng -T fields -e data.len > length.txt 使用python解析这个文件,剔除异常值,每8个取一个值,得到flag ds [] with open(length.tx…

188家国产大模型:挑战与机遇,未来杀手级AI应用究竟该长什么样子?

未来的杀手级AI应用究竟该长什么样子?这篇文章里,作者梳理了国内外LLMs基础大模型的特征,并于最后发表了自己关于杀手级AI应用的看法和见解,一起来看一下。 摘要: 本文详细列表展示国外18家,国内188家大模…

ReentrantLock的源码实现和原理介绍

目录 一、概述 二、ReentrantLock的整体结构 三、ReentrantLock 和Synchronized相比 四、ReentrantLock 公平锁和非公平锁实现 4.1 ReentrantLock 源码解读 4.1.1 ReentrantLock 类源码解读 4.1.1.1 Lock接口 4.1.1.2 Sync抽象类 4.1.1.3 NonfairSync()和FairSync() 4…

EasyCVR视频技术:城市电力抢险的“千里眼”,助力抢险可视化

随着城市化进程的加速和电力需求的不断增长,电力系统的稳定运行对于城市的正常运转至关重要。然而,自然灾害、设备故障等因素常常导致电力中断,给城市居民的生活和企业的生产带来严重影响。在这种情况下,快速、高效的电力抢险工作…

产品介绍|九芯语音芯片的特点与应用市场

随着物联网与智能家居的普及,越来越多的电子产品有了语音播报的需求。九芯语音芯片集成了语音识别和语音合成技术,能够准确地捕捉并解析人类的语言,同时以清晰、自然的语调进行回应,为各类智能设备注入了强大的语言交互能力。 特点…

OSI 七层模型与五层模型

OSI(开放系统互连)七层模型和五层模型是描述计算机网络协议的两种不同层次划分方法。两者用于帮助理解和设计网络协议,但它们在层次划分上有所不同。

使用Elasticsearch Python SDK 查询Easysearch

随着数据分析需求的不断增长,能够高效地查询和分析大数据集变得越来越重要。Elasticsearch作为一种强大的分布式搜索和分析引擎,被广泛应用于各种场景。Easyearch 支持原生 Elasticsearch 的 DSL 查询语法,确保原业务代码无需调整即可无缝迁移…

优化校园设施维护,故障类型功能全解析

在智慧校园的日常运作中,报修管理系统的故障类型功能扮演着至关重要的角色。它不仅简化了设备维修的流程,还极大地提升了校园设施的维护效率。该功能的核心在于,它允许系统管理员创建、编辑和删除一系列故障类型,涵盖从网络连接问…

vue实现动态图片(gif)

目录 1. 背景 2. 分析 3. 代码实现 1. 背景 最近在项目中发现一个有意思的小需求,鼠标移入一个盒子里,然后盒子里的图就开始动起来,就像一个gif一样,然后鼠标移出,再按照原来的变化变回去,就像变形金刚…

QT--控件篇二

一、文本框 1. QLineEdit 文本框通常使用QLineEdit和QTextEdit这两个类来实现。 QLineEdit:用于单行文本输入。QTextEdit:用于多行文本输入,可以包含丰富的文本格式。 用setText(QString txt);设置默认的显示内容,用QString tex…

【NOI】C++数据结构入门之一维数组(一)数组基础

文章目录 前言一、概念1.导入2.数组2.1 数组的创建2.2 数组的使用 二、例题讲解问题:1423 - 考试成绩的简单统计问题:1153 - 查找“支撑数”问题:1156 - 排除异形基因问题:1155 - 找找谁的身高超过全家的平均身高问题:…

计算机网络生成树协议介绍与实践

生成树协议 1.环路 二层环路:数据链路层,交换机(二层设备)通过线路连接环状。即物理成环并且没有开启防环协议。 危害:广播风暴:交换机将未知帧广播,收到后的交换机继续广播,不断…

全国地级市-产业升级、高级化、合理化数据集(1999-2022年)

数据年份:1999-2022年 数据范围:地级市以上城市 数据来源:中国城市统计NJ 数据整理:内含原始版本、线性插值版本、ARIMA填补版本 数据说明:参考干春晖(2011)《经济研究》的文章 &#xff0c…

数据结构(单链表(1))

前言 线性表中有着许多的结构,如顺序表和链表。而单链表则是链表的最基础的一种形式,下面就让我们对其做一个了解。 概念 概念:链表是⼀种物理存储结构上⾮连续、⾮顺序的存储结构,数据元素的逻辑顺序是通过链表中的指针链接次…

ENSP中VLAN的设置

VLAN的详细介绍 VLAN(Virtual Local Area Network)即虚拟局域网,是一种将一个物理的局域网在逻辑上划分成多个广播域的技术。 以下是关于 VLAN 的一些详细介绍: 一、基本概念 1. 作用: - 隔离广播域&#xff1a…

Notebook 在复现数据科学研究成果中的丝滑使用

对于数据科学和 AI 科研人员而言,研究成果的复现至关重要。成果复现既是一种研究算法的方式,也有助于科研人员找到研究的新途径。 IDP 中提供自研 notebook 交互式编程环境,它非常适合做数据分析与代码展示,主要功能包括&#xf…

java基础概念01-注释、关键字、字面量、变量

一、注释 注释内容不会参与编译和运行,仅仅是对代码的解释说明。 1-1、注释的三种类型 1、单行注释://…… // 这是单行注释 2、多行注释:/*…….*/ /* 这是一个 多行注释 */ 3、文档注释 特殊的多行注释,以/**开头&#xf…

【初阶数据结构】理解堆的特性与应用:深入探索完全二叉树的独特魅力

初阶数据结构相关知识点可以通过点击以下链接进行学习一起加油!时间与空间复杂度的深度剖析深入解析顺序表:探索底层逻辑深入解析单链表:探索底层逻辑深入解析带头双向循环链表:探索底层逻辑深入解析栈:探索底层逻辑深入解析队列:探索底层逻辑深入解析循环队列:探索…