具身智能(Embodied AI)的概念、核心要素、难点及突破性进展

在ChatGPT之后,具身智能(Embodied AI)这个大模型概念火了,那什么是具身智能呢?

什么是具身智能?

具身智能作为人工智能发展的一个重要分支,正在迅速崭露头角,成为科技界和大众关注的热门话题,同时在各个领域中展现出巨大的潜力和吸引力

具身智能通过在物理世界和数字世界的学习和进化,达到理解世界、互动交互并完成任务的目标。

具身智能是由“本体”和“智能体”耦合而成且能够在复杂环境中执行任务的智能系统

以上概念是等价的:
Embodied AI = Embodied Intelligence = 具象AI = 具身智能`
Internet AI = Disembodied AI = 非具身智能

相关概念

  • 具身(Embodiment):指具有支持感觉和运动(sensorimotor)的物理身体。

  • 具身的 (Embodied):具有身体的,可参与交互、感知的。

  • 具身智能(Embodied AI):有身体并支持物理交互的智能体,如家用服务机器人、无人车等。 —— “身体力行”

  • 非具身智能(Disembodied AI):没有物理身体,只能被动接受人类采集、制作好的数据 。—— “纸上谈兵”或者说 “运筹帷幄”

  • 具身智能机器人:满足具身智能的能力的机器人. 即具身智能机器人:首先,要能够听懂人类语言,然后,分解任务,规划子任务,移动中识别物体,与环境交互,最终完成相应任务

  • 具身任务:像人类一样通过观察、移动、说话和与世界互动从而完成的一系列任务。

  • 多模态:是指一个模型或系统能够处理多种不同类型的输入数据并融合它们生成输出。这些数据类型可能包括文本、图像、音频和视频等。

  • 主动交互:机器人或智能体与环境的实时交互,从而提高智能体的学习、交流和应对问题的能力。

Internet AI从互联网收集到的图像、视频或文本数据集中学习,这些数据集往往制作精良,其与真实世界脱节、难以泛化和迁移。1)数据到标签的映射。2)无法在真实世界进行体验学习。3)无法在真实世界做出影响。

Embodied AI通过与环境的互动,虽然以第一视角得到的数据不够稳定,但这种类似于人类的自我中心感知中学习,从而从视觉、语言和推理到一个人工具象(Artificial Embodiment),可以帮助解决更多真实问题

核心要素

一般认为,具身智能具有如下的四大核心要素

  • 本体:作为实际的执行者,是在物理或者虚拟世界进行感知和任务执行的机构。
    • 本体通常是具有物理实体的机器人,可以有多种形态。本体的能力边界会限制智能体的能力发挥,所以,具有广泛适应性的机器人本体是非常必要的。如四足机器人、复合机器人、人形机器人
    • 本体具备环境感知能力、运动能力和操作执行能力,是连接数字世界和物理世界的载体。
  • 智能体(Embodied Agents),是具身于本体之上的智能核心,负责感知、理解、决策、控制等的核心工作。
    • 智能体可以感知复杂环境,理解环境所包含的语义信息,能够和环境进行交互;可以理解具体任务,并且根据环境的变化和目标状态做出决策,进而控制本体完成任务。
    • 随着深度学习的发展,现代智能体通常由深度网络模型驱动,尤其是随着大语言模型(LLM)的发展,结合视觉等多种传感器的复杂多模态模型,已经开始成为新一代智能体的趋势。
    • 智能体也分化为多种任务形态,处理不同层次和模态的任务。智能体要能够从复杂的数据中学习决策和控制的范式,并且能够持续的自我演进,进而适应更复杂的任务和环境。
    • 智能体设计是具身智能的核心。具有通用能力的LLM和VLM等模型,赋予了通用本体强大的泛化能力,使得机器人从程序执行导向转向任务目标导向,向通用机器人迈出了坚实的步伐。
  • 数据:“数据是泛化的关键,但涉及机器人的数据稀缺且昂贵。”
    • 为了适应复杂环境和任务的泛化性,智能体规模变的越来越大,而大规模的模型对于海量数据更为渴求。现在的LLM通常需要web-scale级别的数据来驱动基础的预训练过程,而针对具身智能的场景则更为复杂多样,这造成了多变的环境和任务,以及围绕着复杂任务链的规划决策控制数据。尤其是针对行业场景的高质量数据,将是未来具身智能成功应用落地的关键支撑。
  • 学习和进化架构:智能体通过和物理世界(虚拟的或真实的)的交互,来适应新环境、学习新知识并强化出新的解决问题方法。
    • 采用虚拟仿真环境进行部分学习是合理的设计,比如英伟达的元宇宙开发平台Omniverse,就是构建了物理仿真的虚拟世界,来加速智能体的演进。
    • 真实环境的复杂度通常超过仿真环境,如何耦合仿真和真实世界,进行高效率的迁移(Sim2Real),也是架构设计的关键。

具身智能的难点剖析

  • 需要有强大的通用本体平台

    • 如何解决硬件的关键零部件技术突破,形成具有优秀运动能力和操作能力的平台级通用机器人产品,将具身本体的可靠性、成本和通用能力做到平衡,是一个巨大的挑战。
    • 考虑到通用能力,人形机器人被认为是具身智能的终极形态。这方面的研发,也将持续成为热点和核心挑战。
  • 设计强大的智能体系统

    • 作为具身智能的核心,具备复杂环境感知认知能力的智能体,将需要解决诸多挑战,包括:物理3D环境精确感知、任务编排与执行、强大的通识能力、多级语义推理能力、人机口语多轮交互能力、long-term记忆能力、个性化情感关怀能力、强大的任务泛化与自学迁移能力等。
    • 具身智能要求实时感知和决策能力,以适应复杂和变化的环境。这要求高速的数据采集、传输和处理,以及实时的决策反应,尤其是LLM所消耗的算力规模巨大,对于资源有限的机器人处理系统将形成巨大的数据量、AI计算能力和低延迟的挑战
  • 高质量的行业数据将成为巨大挑战

    • 现实场景的复杂多变,使得现阶段缺乏足够的场景数据来训练一个完全通用的大模型,进而让智能体自我进化。
    • 耦合的本体,需要实际部署到真实环境中,才能够采集数据,这也是和非具身智能的明显不同。
    • 但对于关键业务,要求成功率,则仍然需要高质量的垂域数据。同时,通过层次化的智能体设计,将不同任务限定到特定领域,则是一个解决泛化和成功率的有效尝试
  • 通过虚拟和真实的交互,持续学习和进化的能力,则是具身智能演进的重要技术途径

    • 学习新任务来适应环境的变化,则是持续改进的动力。形态适配环境合适的智能体,则可以快速的学习到解决问题能力,进而更好的适应变化。
    • 由于形态的变化空间无穷巨大,搜索所有可能的选择在有限的计算资源情况下变的几乎不可能。本体的自由度设计,也会物理上约束智能体的任务执行能力,进而限制了控制器的学习效果。
    • 在复杂环境、形态演化和任务的可学习性之间,存在着未可知的隐式关系,如何快速学习到合理的规划和决策能力,则成为具身智能的重要一环。

2023最新突破性进展

  1. PaLM-E: An Embodied Multimodal Language Model: 一个具身多模态语言模型
    论文提出了一个具身多模态语言模型,通过将真实世界的连续传感器模态直接融入语言模型中,实现了单词和感知之间的联系。实验结果表明,PaLM-E可以处理来自不同观察模态的各种具身推理任务,并在多个实现上表现出良好的效果。最大的PaLM-E-562B模型拥有562亿个参数,除了在机器人任务上进行训练外,还是一个视觉语言通才,并在OK-VQA任务上取得了最先进的性能。

  2. VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models
    采用语言模型实现机器人操作的可组合3D价值图
    论文提出了一种名为VoxPoser的方法,利用大型语言模型和视觉语言模型来合成机器人轨迹。作者发现,LLM可以通过自然语言指令推断出环境和物体的能力和限制,并通过与VLM交互来组合3D值图,将知识转化为代理的观察空间。这些组合的值图然后被用于基于模型的规划框架中,以零样本合成闭环机器人轨迹,并对动态扰动具有鲁棒性。

  3. March in Chat: Interactive Prompting for Remote Embodied Referring Expression
    远程具身指代表达的交互提示
    论文提出了一种名为March-in-Chat的模型,可以在REVERIE环境中与大型语言模型进行交互并动态规划。REVERIE任务只提供高级指令给代理,类似于人类的实际命令,因此比其他VLN任务更具挑战性。MiC模型通过ROASP实现了环境感知和动态规划,可以基于新的视觉观察调整导航计划,并且能够适应更大、更复杂的REVERIE环境。

  4. Discuss Before Moving: Visual Language Navigation via Multi-expert Discussions
    通过多专家讨论实现视觉语言导航
    论文提出了一种零样本视觉语言导航框架DiscussNav,通过多专家讨论来帮助代理进行导航。作者认为现有的VLN方法完全依赖单一模型自身的思考来进行预测,而即使是最先进的大型语言模型GPT4,在单轮自我思考中仍然难以处理多个任务。因此,作者借鉴了专家咨询会议的思想,将具有不同能力的大模型作为领域专家,让代理在每一步移动之前与这些专家积极讨论,收集关键信息。实验结果表明,该方法可以有效地促进导航,感知与指令相关的信息,纠正意外错误并筛选出不一致的运动决策

  5. Skill Transformer: A Monolithic Policy for Mobile Manipulation
    用于移动操作的单体策略
    论文提出了Skill Transformer,一种结合条件序列建模和技能模块性来解决长视野机器人任务的方法。该方法在机器人的自适应和感知观察上基于条件序列模型,并通过训练使用Transformer架构和演示轨迹来预测机器人的高级技能(如导航、选择、放置)和整体低级动作(如基座和手臂运动)。它保留了整个任务的可组合性和模块性,通过一个技能预测模块来推理低级动作并避免常见于模块化方法的传递误差。

  6. See to Touch: Learning Tactile Dexterity through Visual Incentives
    通过视觉激励学习触觉灵活性
    论文提出了一种名为Tactile Adaptation from Visual Incentives (TAVI)的新框架,通过使用视觉奖励来优化基于触觉的灵巧性策略,从而提高多指机器人的精确度、丰富性和灵活性。在六个具有挑战性的任务中,TAVI使用四指Allegro机器人手实现了73%的成功率,比使用基于触觉和视觉奖励的策略提高了108%,比不使用基于触觉观察输入的策略提高了135%。

  7. Context-Aware Planning and Environment-Aware Memory for Instruction Following Embodied Agents
    用于执行指令的具身代理的上下文感知规划和环境感知记忆
    论文提出了一种CAPEAM方法,用于改善具身代理在视觉导航和对象交互方面的表现。该方法考虑了执行动作的后果,并将语义上下文和已交互物体的状态变化纳入一系列动作中,以推断后续动作。实验证明,该方法在各种指标上实现了最先进的性能,并在未见过的环境中获得了大幅提高。

  8. Statler: State-Maintaining Language Models for Embodied Reasoning
    用于具身推理的状态维护语言模型
    论文提出了一种名为Statler的框架,用于赋予大型语言模型(LLM)对世界状态的显式表示,可以随着时间的推移进行维护。通过使用两个通用LLM实例——世界模型阅读器和世界模型写入器——与世界状态进行交互和维护,Statler提高了现有LLM在较长时间范围内推理的能力,而不受上下文长度的限制。

  9. Embodied Task Planning with Large Language Models
    基于大型语言模型的具身任务规划
    本研究提出了一种名为TAsk Planing Agent(TaPA)的基于场景约束的具身任务规划方法,用于在真实世界中生成可执行的计划。该方法通过将大型语言模型与视觉感知模型对齐,根据场景中已存在的对象生成可执行计划。另外,作者还构建了一个多模态数据集,并使用GPT-3.5生成了大量的指令和相应的计划动作。

  10. Conditionally Combining Robot Skills using Large Language Models
    使用大型语言模型有条件地组合机器人技能
    论文提出了两个贡献。首先,介绍了一个名为“Language-World”的Meta-World基准扩展,允许大型语言模型在模拟机器人环境中使用自然语言查询和脚本化技能进行操作。其次,引入了一种称为计划条件行为克隆(PCBC)的方法,可以使用端到端演示微调高级计划的行为。使用Language-World,表明PCBC能够在各种少数情况中实现强大的性能,通常只需要单个演示即可实现任务泛化。

参考

稚晖君独家撰文:具身智能即将为通用机器人补全最后一块拼图
具身智能2023最新突破性进展分享!附17篇论文和代码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/702653.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c++ http操作接口

很简单的使用libcurl来操作http与服务器来通讯,包含http与https,对外只开放 #include "request.h" #include "response.h" #include "url.h" 三个头文件,简单易用,使用的实例如下: vo…

【Linux】部署单机项目(自动化启动)

目录 一.jdk安装 二.tomcat安装 三.MySQL安装 四.部署项目 一.jdk安装 1.上传jdk安装包 jdk-8u151-linux-x64.tar.gz 进入opt目录,将安装包拖进去 2.解压安装包 防止后面单个系列解压操作,我这边就直接将所有的要用的全部给解压,如下图注…

【数据集】世界水评估方案指标:灌溉面积/灌溉用水等

世界水评估方案指标 概述(Overview)数据下载(Data Download)案例1:F. Irrigated lands案例2:G. Irrigated water use参考World Water Development Report II-Indicators for World Water Assessment Programme 概述(Overview) 在关于全球环境变化和可持续发展的辩论…

(详细使用指南)Linux下交叉编译带ffmpeg的opencv并移植到RK3588等ARM端

一 问题背景 瑞芯微RK3588等嵌入式板作为边缘端设备为算法模型的部署提供了便利,目前很多分类或好检测模型针对边缘端做了优化或量化,使得在边缘端也能达到实时稳定的识别和检测效果。 但嵌入式设备普遍的flash emmc不大,一般在32G左…

Jitsi Meet 大型视频会议调优方案

jitsi meet 大型视频会议调优方案 在举办一些大型会议的时候,比如100个人会议,为了节约宽带和节省资源,我们并不会选择传输全部的音视频资源。 举个例子,比如100个人线下会议,如果大家都说话的情况下,大家要么听不清,要么听得是声音最大的那几个人。 视频会议也可以借…

Linux开发:pam5 Ubuntu22.04中编译linux-pam

Ubuntu22.04中使用的是linux-pam GitHub - linux-pam/linux-pam: Linux PAM (Pluggable Authentication Modules for Linux) project linux-pam不仅包含了源代码还有相关的文档以及例子,是学习pam的一个很好的参考。 编译linux-pam的方法: 1.下载源代码…

Java多线程系列——JDK并发包

Java并发编程是Java开发中不可或缺的一部分,它允许开发者编写能够同时执行多个任务的应用程序,提高了程序的执行效率和响应速度。自从Java 5开始,java.util.concurrent包成为了并发编程的核心,引入了多种并发工具类,使…

Redis3种特殊数据结构详解

文章目录 前言一、地理空间(Geospatial):二、HyperLogLogs:二、位图(Bitmaps):总结 前言 当我们探索Redis时,除了常见的键值存储功能外,还存在一些特殊类型,…

突破编程_C++_面试(函数(1))

面试题1:函数定义与声明有什么区别? 函数定义与声明的区别主要体现在以下几个方面: 内存分配: 定义:函数定义会为函数分配内存空间,并且可能会为函数内部的局部变量分配内存。定义提供了函数在程序中的唯一…

Mysql运维篇(五) 部署MHA--主机环境配置

一路走来,所有遇到的人,帮助过我的、伤害过我的都是朋友,没有一个是敌人。如有侵权,请留言,我及时删除! 大佬博文 https://www.cnblogs.com/gomysql/p/3675429.html MySQL 高可用(MHA&#x…

SpringMVC 学习(五)之域对象

目录 1 域对象介绍 2 向 request 域对象共享数据 2.1 通过 ServletAPI (HttpServletRequest) 向 request 域对象共享数据 2.2 通过 ModelAndView 向 request 域对象共享数据 2.3 通过 Model 向 request 域对象共享数据 2.4 通过 map 向 request 域对象共享数据 2.5 通过…

【前端素材】推荐优质后台管理系统Jampack平台模板(附源码)

一、需求分析 后台管理系统(或称作管理后台、管理系统、后台管理平台)是一种专门用于管理网站、应用程序或系统后台运营的软件系统。它通常由一系列功能模块组成,为管理员提供了管理、监控和控制网站或应用程序的各个方面的工具和界面。以下…

macOS系统下载IDEA的操作流程

第一步 进入官网 Download IntelliJ IDEA – The Leading Java and Kotlin IDE 第二步 根据mac的芯片选择版本下载 芯片的查看位置是【设置】-【通用】-【关于本机】-第二个,我的是Apple芯片,选Apple Silicon -- 第三步 右上角下载处打开安装包&…

C++——基础复习——双色球

跟着哔站的视频复习一遍基础知识,根据老师的思路写双色球项目。相较老师的程序加入了一些功能。没有用到模板知识,欢迎交流。 1、6个红球1个蓝球,红球号码1-33,号码不重复;篮球号码1-15. 2、自选号码功能&#xff1a…

Seata 入门知识

目录 概述 工作流程 工作模式 AT模式 TCC模式 概述 Seata 是一款开源的分布式事务解决方案,致力于提供高性能和简单易用的分布式事务服务。Seata 将为用户提供了 AT、TCC、SAGA 和 XA 事务模式,为用户打造一站式的分布式解决方案。 AT模式是阿里首推…

CUDA C++ 编程指南

目录 1. Introduction1.1. The Benefits of Using GPUs1.2. CUDA: A General-Purpose Parallel Computing1.3. A Scalable Programming Model CUDA C Programming Guide 1. Introduction 1.1. The Benefits of Using GPUs 在相似的价格和功耗范围内,图形处理单…

9个最受欢迎的开源自动化测试框架盘点!

自动化测试框架可以帮助测试人员评估多个Web和移动应用程序的功能,安全性,可用性和可访问性。尽管团队可以自己构建复杂的自动化测试框架,但是当他们可以使用现有的开源工具,库和测试框架获得相同甚至更好的结果时,通常…

Github开源贡献者的狂欢——教你如何免费领取价值$200的Starknet空投

前言: 2024 又迎来了四年一度的 BTC 减半时刻,币圈仿佛一下又热闹了起来,这几天有一个新的基于 ETH 的项目诞生了:StarkNet,代号 STRK,凡是在前 5000 个开源项目贡献过至少 3 个 commit 的程序猿都会被空投…

dhtml图片白色区域透明

2011-3-15 关于透明色别人已经讲的很好了,这里记录了一个测试例子。 gif只支持索引色透明,比如规定#FFFFFF为透明,那么图片中所有白色区域都完全透明。 而png支持alpha透明,任何颜色都可以透明,而且有透明度这样一个…

Linux系统网络服务部分拓展练习

1)网关服务器:ens36:12.0.0.254/24,ens33:192.168.241.254/24;Server1:192.168.241.0/24;PC1和server2:自动获取IP;交换机无需配置。要求能够使用Xshell等远程…