【浅谈具身智能(Embodied AI)】AI新风口?

具身智能

概念:

具身智能(Embodied AI)是一种基于物理身体进行感知和行动的智能系统。它通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。具身智能拥有支持感知和运动的物理身体,可以进行主动式感知,也可以执行物理任务。更重要的是,具身智能强调“感知-行动回路”的重要性,即感受世界—对世界进行建模—进而采取行动—进行验证并调整模型的过程 。

核心要素:

具身智能的核心要素包括:
1. 本体:作为实际的执行者,是在物理或者虚拟世界进行感知和任务执行的机构。本体通常是具有物理实体的机器人,可以有多种形态,如四足机器人、复合机器人、人形机器人等。本体具备环境感知能力、运动能力和操作执行能力,是连接数字世界和物理世界的载体 。
2. 智能体(Embodied Agents):是具身于本体之上的智能核心,负责感知、理解、决策、控制等的核心工作。智能体可以感知复杂环境,理解环境所包含的语义信息,能够和环境进行交互;可以理解具体任务,并且根据环境的变化和目标状态做出决策,进而控制本体完成任务 。
3. 数据:数据是泛化的关键,但涉及机器人的数据稀缺且昂贵。为了适应复杂环境和任务的泛化性,智能体规模变得越来越大,而大规模的模型对于海量数据更为渴求 。
4. 学习和进化架构:智能体通过和物理世界(虚拟的或真实的)的交互,来适应新环境、学习新知识并强化出新的解决问题方法 。

应用与发展前景:

具身智能在工业、消费、民生服务、城市管理等方面均有较好的应用场景。例如,人形机器人的发展超出了预料,预计到2035年人形机器人出货量将达到140万台,市场达到380亿美元 。具身智能机器人如智元机器人(AgiBOT)的远征A1,能够在形态上与人类相似,实现双足行走、智能任务、人机互动等操作 。

具身智能被认为是人工智能领域的一个重要分支,正在成为广泛关注的热门话题。随着深度学习等技术的快速发展,具身智能研究进入了一个新的阶段。研究人员利用虚拟物理环境和强大的计算能力,设计和训练具备感知和行动能力的智能系统,并将这种交互能力迁移到真实世界,使智能体进行自主决策和执行物理交互任务 。

挑战与难点:

实现好的具身智能面临算法、工程技术、数据、场景和复杂软硬件等的诸多挑战:
1. 强大的通用本体平台:需要解决硬件的关键零部件技术突破,形成具有优秀运动能力和操作能力的平台级通用机器人产品,将具身本体的可靠性、成本和通用能力做到平衡 。
2. 设计强大的智能体系统:具备复杂环境感知认知能力的智能体,将需要解决诸多挑战,包括物理3D环境精确感知、任务编排与执行、强大的通识能力、多级语义推理能力、人机口语多轮交互能力、long-term记忆能力、个性化情感关怀能力、强大的任务泛化与自学迁移能力等 。
3. 高质量的行业数据:现实场景的复杂多变,使得现阶段缺乏足够的场景数据来训练一个完全通用的大模型,进而让智能体自我进化 。

突破性进展:
  1. PaLM-E

    • PaLM-E是一个结合了感知和语言能力的多模态模型。它通过整合视觉、声音等多种传感器数据,与语言模型相结合,使得模型能够理解并与真实世界进行交互。这种融合让模型能够执行一些需要感知输入的任务,比如根据视觉信息进行导航。
  2. VoxPoser

    • VoxPoser方法使用大型语言模型(LLM)和视觉语言模型(VLM)来生成机器人的轨迹。它通过将语言模型的指令转化为机器人的动作,实现了从自然语言指令到机器人操作的直接映射。
  3. March in Chat

    • March in Chat模型在REVERIE环境中工作,这是一个虚拟环境,用于训练和测试智能体。该模型通过与语言模型的交互来进行动态规划,能够理解和执行复杂的导航任务。
  4. Discuss Before Moving

    • 这个模型通过模拟专家咨询会议的方式,使用多个大型语言模型来讨论并决定最佳的导航路径。每个模型代表一个领域专家,通过集体讨论来提高决策的准确性。
  5. Skill Transformer

    • Skill Transformer结合了条件序列建模和技能模块性,用于解决需要长期规划的复杂机器人任务。它通过预测高级技能和低级动作的序列,来控制机器人完成复杂的操作任务。
  6. See to Touch

    • 这个框架使用视觉激励来训练机器人的触觉灵活性。通过观察视觉信息,机器人学习如何通过触觉反馈来改善其操作精度和灵活性。
  7. Context-Aware Planning and Environment-Aware Memory

    • 这个模型专注于改善具身代理在视觉导航和对象交互方面的表现。它通过考虑动作的后果和环境变化,来规划一系列动作,从而更好地执行任务。
  8. Statler

    • Statler框架为大型语言模型提供了对世界状态的显式表示和维护能力。这种状态维护允许模型在长时间跨度内进行推理,超越了传统语言模型的上下文限制。
  9. Embodied Task Planning with Large Language Models

    • 该研究提出了一种基于场景约束的具身任务规划方法,利用大型语言模型来生成在真实世界中可执行的计划。通过结合场景理解和任务规划,生成适应性的动作序列。
  10. Conditionally Combining Robot Skills using Large Language Models

    • 这项研究提出了使用大型语言模型有条件地组合机器人技能的方法。通过语言模型,机器人可以根据环境条件和任务需求选择和组合不同的技能来执行任务。

具身智能作为人工智能的新风口,其发展前景广阔,但也存在不少技术挑战,需要产学研各界的共同努力来推动其发展和应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/49231.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

.NET C# 配置 Options

.NET C# 配置 Options 使用 options 模式可以带来许多好处,包括清晰的配置管理、类型安全、易于测试和灵活性。但在使用过程中,也需要注意配置复杂性、性能开销和依赖框架等问题。通过合理设计和使用,可以充分发挥 options 模式的优势&#…

设计模式实战:库存管理系统的设计与实现

简介 本篇文章将介绍如何设计一个库存管理系统,系统包括商品的创建、库存操作(如入库、出库)、库存检查等功能。我们将通过这一项目,应用工厂模式、策略模式和模板方法模式来解决具体的设计问题。 问题描述 设计一个库存管理系统,用户可以创建商品,进行入库和出库操作…

Vue.js 2 项目实战(五):水果购物车

前言 Vue.js 是一个用于构建用户界面的渐进式 JavaScript 框架。它的设计目标是通过采用易于上手的结构和强大的功能,使前端开发变得更加简便和高效。以下是 Vue.js 的一些关键特性和优点: 核心特性 声明式渲染 Vue.js 使用声明式语法来描述用户界面&a…

MybatisPlus的使用与详细讲解

今天我们来讲解一下Mybatis的升级版,就是MybatisPlus. MybatisPlus是如何获取实现CRUD的数据库表信息的? 默认以类名驼峰转下划线作为表名 默认把名为id的字段作为主键 默认把变量名驼峰转下划线作为表的字段名 1.MybatisPlus中比较常见的注解 TableN…

宠物空气净化器哪款除臭效果好?质量好的养狗空气净化器排名

作为一个宠物家电小博主,炎炎夏日,家中的宠物给你带来的不仅仅是温暖的陪伴,还有那挥之不去的宠物异味。普通空气净化器虽然能够应对一般的空气净化需求,但对于养猫家庭特有的挑战,如宠物毛发、皮屑和异味等&#xff0…

mysql中的索引和分区

目录 1.编写目的 2.索引 2.1 创建方法 2.2 最佳适用 2.3 索引相关语句 3.分区 3.1 创建方法 3.2 最佳适用 Welcome to Code Blocks blog 本篇文章主要介绍了 [Mysql中的分区和索引] ❤博主广交技术好友,喜欢文章的可以关注一下❤ 1.编写目的 在MySQL中&…

ros2--接口

什么是接口 这里的接口不是编程语言中的函数接口。而是应该理解为在ros2中进行数据通信的接口;这些接口在ros2中使用时必须有统一的标准,就像陷淖USB接口一样有着统一的通信协议。所以这里的接口更好的理解是:ros2数据通信的统一接口。 我们…

JAVA中的输入输出流

FileInputStream、FileOutputStream(字节流) 字节输入流InputStream主要方法: read() :从此输入流中读取一个数据字节。 read(byte[] b) :从此输入流中将最多 b.length 个字节的数据读入一个 byte 数组中。 read(b…

单例模式懒汉模式和饿汉模式

线程安全 单例模式在单线程中,当然是安全的。但是如果在多线程中,由于并行判断,可能会导致创建多个实例。那么如何保证在多线程中单例还是只有一个实例呢? 常见的三种方式: 局部静态变量 原理和饿汉模式相似,利用static只会初始…

cURL自动读取小工具

做自动化测试的时候Postman判断数据什么的太麻烦,做个脚本代替一下 curl_parser.py import redef parse_curl(curl_command):# 匹配所有的 -H "key: value"header_pattern re.compile(r-H "([^:]): ([^"])")headers dict(header_patte…

Redis系列命令更新--Redis有序集合命令

Redis有序集合(sorted set) (1)说明: A、Redis有序集合和集合一样也是string类型元素的集合,且不允许重复的成员;不同的是每个元素都会关联一个double类型的分数;redis正式通过分数…

Web开发:元素

元素 基础结构元素文本内容元素列表元素多媒体元素表格元素表单元素语义元素示例结构分析基础结构元素头部和导航主页部分关于部分服务部分联系部分侧边栏页脚 基础结构元素 <!DOCTYPE html>&#xff1a;声明文档类型&#xff0c;告诉浏览器使用HTML5标准解析文档。它必…

MongoDB 文档存储

安装 下载&#xff1a; Download MongoDB Community Server | MongoDB 说明&#xff1a; 现在基本都安装的是4.4以后的版本。安装完成后使用 mongod 来查看是否安装成功 会输出一堆内容 而如果想要操作数据库&#xff0c;则需要安装一个工具&#xff0c;mongosh-2.2.12-x64.m…

【2024最新华为OD-C/D卷试题汇总】[支持在线评测] 堆内存申请(100分) - 三语言AC题解(Python/Java/Cpp)

🍭 大家好这里是清隆学长 ,一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-C/D卷的三语言AC题解 💻 ACM银牌🥈| 多次AK大厂笔试 | 编程一对一辅导 👏 感谢大家的订阅➕ 和 喜欢💗 🍿 最新华为OD机试D卷目录,全、新、准,题目覆盖率达 95% 以上,支持题目在线…

linux(CentOS、Ubuntu)安装python3.12.2环境

1.下载官网Python安装包 wget https://www.python.org/ftp/python/3.12.2/Python-3.12.2.tar.xz 1.1解压 tar -xf Python-3.12.2.tar.xz 解压完后切换到Python-3.12.2文件夹(这里根据自己解压的文件夹路径) cd /usr/packages/Python-3.12.2/ 1.2升级软件包管理器 CentOS系…

微信小程序canvas 使用案例(一)

一、cavans 对象获取、上线文创建 1.wxml <!-- canvas.wxml --><canvas type"2d" id"myCanvas"></canvas> 2.js /*** 生命周期函数--监听页面加载*/onLoad(options) {const query wx.createSelectorQuery()query.select(#myCanvas).f…

mysql练习3

1.修改student 表中年龄(sage)字段属性&#xff0c;数据类型由int 改变为smallint 2.为Course表中Cno 课程号字段设置索引,并查看索引 3.为SC表建立按学号(sno)和课程号(cno)组合的升序的主键索引&#xff0c;索引名为SC_INDEX 4.创建一视图 stu info,查询全体学生的姓名&#…

IDEA的APIPost接口测试插件详解

APIPOST官方网址 一、安装APIPost插件 打开IntelliJ IDEA&#xff1a; 启动您的IntelliJ IDEA开发环境。 导航到插件设置&#xff1a; 在Windows或Linux上&#xff0c;点击 File > Settings。在macOS上&#xff0c;点击 IntelliJ IDEA > Preferences。 搜索并安装APIPo…

前端:上传2进制图片

1、let formData new FormData(); 2、添加要传的字段&#xff1a;formData.append("avatarfile", data); &#xff08;key,value&#xff09; 3、上传文件 function uploadImg() {// 1定义FormDatalet formData new FormData();// 2添加字段formData.append("…

安装好anaconda,打开jupyter notebook,新建 报500错

解决办法&#xff1a; 打开anaconda prompt 输入 jupyter --version 重新进入jupyter notebook&#xff1a; 可以成功进入进行代码编辑