具身智能17篇创新性论文及代码合集,2023最新

今天来聊聊人工智能领域近期的一个热门研究方向——具身智能。

具身智能(Embodied Intelligence)指的是机器人或智能体通过感知、理解和交互来适应环境,并执行任务的能力。与传统的基于规则或符号的人工智能不同,具身智能强调将感知和行动相结合,使智能体能够更好地理解其周围的环境和与环境的互动。

具身智能被认为是通往通用人工智能的重要途径,目前有关它的研究也已经有了很多突破性进展,比如李飞飞团队的VoxPoser系统。

我这回简单整理了17篇具身智能创新性工作相关的论文,都是今年最新,只做了简单介绍,建议大家查看原文仔细研读。

论文原文及代码需要的同学看文末

1.PaLM-E: An Embodied Multimodal Language Model

一个具身多模态语言模型

简述:论文提出了一个具身多模态语言模型,通过将真实世界的连续传感器模态直接融入语言模型中,实现了单词和感知之间的联系。实验结果表明,PaLM-E可以处理来自不同观察模态的各种具身推理任务,并在多个实现上表现出良好的效果。最大的PaLM-E-562B模型拥有562亿个参数,除了在机器人任务上进行训练外,还是一个视觉语言通才,并在OK-VQA任务上取得了最先进的性能。

2.VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models

采用语言模型实现机器人操作的可组合3D价值图

简述:论文提出了一种名为VoxPoser的方法,利用大型语言模型和视觉语言模型来合成机器人轨迹。作者发现,LLM可以通过自然语言指令推断出环境和物体的能力和限制,并通过与VLM交互来组合3D值图,将知识转化为代理的观察空间。这些组合的值图然后被用于基于模型的规划框架中,以零样本合成闭环机器人轨迹,并对动态扰动具有鲁棒性。

3.March in Chat: Interactive Prompting for Remote Embodied Referring Expression

远程具身指代表达的交互提示

简述:论文提出了一种名为March-in-Chat的模型,可以在REVERIE环境中与大型语言模型进行交互并动态规划。REVERIE任务只提供高级指令给代理,类似于人类的实际命令,因此比其他VLN任务更具挑战性。MiC模型通过ROASP实现了环境感知和动态规划,可以基于新的视觉观察调整导航计划,并且能够适应更大、更复杂的REVERIE环境。

4.Discuss Before Moving: Visual Language Navigation via Multi-expert Discussions

通过多专家讨论实现视觉语言导航

简述:论文提出了一种零样本视觉语言导航框架DiscussNav,通过多专家讨论来帮助代理进行导航。作者认为现有的VLN方法完全依赖单一模型自身的思考来进行预测,而即使是最先进的大型语言模型GPT4,在单轮自我思考中仍然难以处理多个任务。因此,作者借鉴了专家咨询会议的思想,将具有不同能力的大模型作为领域专家,让代理在每一步移动之前与这些专家积极讨论,收集关键信息。实验结果表明,该方法可以有效地促进导航,感知与指令相关的信息,纠正意外错误并筛选出不一致的运动决策。

5.Skill Transformer: A Monolithic Policy for Mobile Manipulation

用于移动操作的单体策略

简述:论文提出了Skill Transformer,一种结合条件序列建模和技能模块性来解决长视野机器人任务的方法。该方法在机器人的自适应和感知观察上基于条件序列模型,并通过训练使用Transformer架构和演示轨迹来预测机器人的高级技能(如导航、选择、放置)和整体低级动作(如基座和手臂运动)。它保留了整个任务的可组合性和模块性,通过一个技能预测模块来推理低级动作并避免常见于模块化方法的传递误差。

6.See to Touch: Learning Tactile Dexterity through Visual Incentives

通过视觉激励学习触觉灵活性

简述:论文提出了一种名为Tactile Adaptation from Visual Incentives (TAVI)的新框架,通过使用视觉奖励来优化基于触觉的灵巧性策略,从而提高多指机器人的精确度、丰富性和灵活性。在六个具有挑战性的任务中,TAVI使用四指Allegro机器人手实现了73%的成功率,比使用基于触觉和视觉奖励的策略提高了108%,比不使用基于触觉观察输入的策略提高了135%。

7.Context-Aware Planning and Environment-Aware Memory for Instruction Following Embodied Agents

用于执行指令的具身代理的上下文感知规划和环境感知记忆

简述:论文提出了一种CAPEAM方法,用于改善具身代理在视觉导航和对象交互方面的表现。该方法考虑了执行动作的后果,并将语义上下文和已交互物体的状态变化纳入一系列动作中,以推断后续动作。实验证明,该方法在各种指标上实现了最先进的性能,并在未见过的环境中获得了大幅提高。

8.Synthesizing Event-Centric Knowledge Graphs of Daily Activities Using Virtual Space

使用虚拟空间合成以事件为中心的日常活动知识图谱

简述:论文提出了一种新框架VirtualHome2KG,用于在虚拟空间中生成日常生活活动的合成知识图谱。该框架基于提出的事件为中心的模式和虚拟空间模拟结果,扩展了日常生活活动的合成视频数据和与视频内容相对应的上下文语义数据。因此,可以分析上下文感知的数据,并开发各种传统上由于相关数据的不足和语义信息不足而难以开发的应用。

9.Conditionally Combining Robot Skills using Large Language Models

使用大型语言模型有条件地组合机器人技能

简述:论文提出了两个贡献。首先,介绍了一个名为“Language-World”的Meta-World基准扩展,允许大型语言模型在模拟机器人环境中使用自然语言查询和脚本化技能进行操作。其次,引入了一种称为计划条件行为克隆(PCBC)的方法,可以使用端到端演示微调高级计划的行为。使用Language-World,表明PCBC能够在各种少数情况中实现强大的性能,通常只需要单个演示即可实现任务泛化。

10.HoloBots: Augmenting Holographic Telepresence with Mobile Robots for Tangible Remote Collaboration in Mixed Reality

使用移动机器人增强全息远程呈现,实现混合现实下的可感知远程协作

简述:论文介绍了一种名为HoloBots的混合现实远程协作系统,使用同步移动机器人增强全息远程呈现。通过该系统,远程用户可以与本地用户及其环境进行物理互动,实现可感知远程协作。该系统使用了Hololens 2和Azure Kinect等技术,并通过实验证明其可以显著增强共现感和共享体验的水平。

11.Building and Testing a General Intelligence Embodied in a Humanoid Robot

构建和测试具有人形机器人的通用智能系统

简述:论文提出了一种构建和测试具有人类水平智能的机器的方法。该方法包括一个物理人形机器人系统、一种基于软件的控制系统、一个名为g+的性能指标,用于衡量人形机器人的类人智能,以及一种用于逐步提高该性能指标分数的进化算法。作者介绍了每个部分的当前状况,并报告了该系统的当前和历史g+指标测量结果。

12.Systematic Adaptation of Communication-focused ML from Real to Virtual for HRC

面向HRC的从真实到虚拟的以通信为中心的机器学习的系统化适应

简述:论文提出了一个系统化框架,将经过训练的深度学习模型从真实环境适应到虚拟环境中,以实现协作机器人的体现遥操作。为了实现这一目标,需要创建大型标记数据集,以便保持易于学习和灵活的工作环境界面,并添加更多手势。虽然手部姿势被认为是通信方式,但这些指南和建议是通用的,适用于其他模式,例如在真实领域中具有大型数据集的身体姿势和面部表情,这些必须适应到虚拟环境中。

13.ChatGPT for Robotics: Design Principles and Model Abilities

机器人的ChatGPT:设计原则和模型能力

简述:论文介绍了一种使用ChatGPT进行机器人应用的实验研究。作者提出了一种结合设计原则和高级别函数库的策略,使ChatGPT能够适应不同的机器人任务、模拟器和外形因素,重点评估了不同的提示工程技巧和对话策略对于执行各种类型的机器人任务的有效性,探索了ChatGPT使用自由形式对话、解析XML标签和合成代码的能力,以及使用特定于任务的提示函数和通过对话进行闭环推理的能力。

14.Learning Hierarchical Interactive Multi-Object Search for Mobile Manipulation

学习分层交互式多目标搜索用于移动操作

简述:论文提出了一种新的交互式多目标搜索任务,要求机器人在导航房间的同时打开门并在橱柜和抽屉中搜索目标物体。为此,作者开发了一种分层强化学习方法,可以学习组合探索、导航和操纵技能。实验证明,这种方法可以在准确的感知下有效地转移到新环境中,并表现出对未见过的策略、执行失败和不同机器人运动学的鲁棒性。这些能力为一系列涉及嵌入式AI和现实世界用例的下游任务打开了大门。

15.Robotic Manipulation Network (ROMAN) – Hybrid Hierarchical Learning for Solving Complex Sequential Tasks

机器人操作网络(ROMAN)-解决复杂顺序任务的混合分层学习

简述:论文提出了一种混合分层学习框架——机器人操作网络(ROMAN),用于解决机器人操纵中的多个复杂任务在长时间范围内的难题。通过整合行为克隆、模仿学习和强化学习,ROMAN实现了任务的多功能性和鲁棒性失败恢复。它由一个中央操纵网络组成,协调各种神经网络的集合,每个网络专门从事不同的可重新组合的子任务,以生成正确的连续动作来解决复杂的长期操纵任务。

16.Embodied Task Planning with Large Language Models

基于大型语言模型的具身任务规划

简述:本研究提出了一种名为TAsk Planing Agent(TaPA)的基于场景约束的具身任务规划方法,用于在真实世界中生成可执行的计划。该方法通过将大型语言模型与视觉感知模型对齐,根据场景中已存在的对象生成可执行计划。另外,作者还构建了一个多模态数据集,并使用GPT-3.5生成了大量的指令和相应的计划动作。

17.Statler: State-Maintaining Language Models for Embodied Reasoning

用于具身推理的状态维护语言模型

简述:论文提出了一种名为Statler的框架,用于赋予大型语言模型(LLM)对世界状态的显式表示,可以随着时间的推移进行维护。通过使用两个通用LLM实例——世界模型阅读器和世界模型写入器——与世界状态进行交互和维护,Statler提高了现有LLM在较长时间范围内推理的能力,而不受上下文长度的限制。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“具身智能”领取论文原文及源码

码字不易,欢迎大家点赞评论收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/178378.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于springboot实现私人健身与教练预约管理系统项目【项目源码+论文说明】计算机毕业设计

基于springboot实现私人健身与教练预约管理系统演示 摘要 随着信息技术和网络技术的飞速发展,人类已进入全新信息化时代,传统管理技术已无法高效,便捷地管理信息。为了迎合时代需求,优化管理效率,各种各样的管理系统应…

hello vtk 圆柱

VTK 可视化的流程及步骤 标题引入VTK库和初始化: 引入 VTK 库和 AutoInit 模块,以便使用 VTK 的渲染和交互功能 设置背景颜色和颜色对象: 使用 vtkNamedColors 设置背景颜色和演员颜色。 创建圆柱体源: 使用 vtkCylinderSou…

蓝桥杯-01简介

文章目录 蓝桥杯简介参考资源蓝桥杯官网第15届大赛章程一、概况(一)大赛背景和宗旨(二)大赛特色(三)大赛项目1.Java软件开发2.C/C程序设计3.Python程序设计4.Web应用开发5.软件测试6.网络安全7.嵌入式设计与…

可视化文件编辑与SSH传输神器WinSCP如何公网远程本地服务器

可视化文件编辑与SSH传输神器WinSCP如何公网远程本地服务器 文章目录 可视化文件编辑与SSH传输神器WinSCP如何公网远程本地服务器1. 简介2. 软件下载安装:3. SSH链接服务器4. WinSCP使用公网TCP地址链接本地服务器5. WinSCP使用固定公网TCP地址访问服务器 1. 简介 …

CH02_交给子类

Template Method模式 组成模板的方法被定义在父类中,由于这些方法是抽象方法,所以只查看父类的代码是无法知道这些方法最终会进行何种具体处理的。唯一能知道的就是父类如何调用这些方法。 类图 说明 AbstractClass(抽象类) Abs…

vue项目中通过vuex管理数据

目录 1.前言: 2.vuex的基础用法: 1.构建与挂载vue 基础模板渲染 构建仓库 2.mutations的使用 1.介绍 ​编辑 2.案列: 3.传参 4.辅助函数mapMutations: 3.module分对象的写法 介绍 建立模块: 访问数据的方…

【VROC】看Intel VROC如何给NVMe SSD做RAID

在当今对硬盘性能要求越来越高的环境中,SATA和SAS接口由于自身的限制,其性能很难突破600MiB/s的瓶颈。因此,对于需要更高底层硬件性能的行业,如数据库等,对NVMe盘的需求越来越迫切。然而,NVMe盘直通到CPU&a…

三种常见的哈希结构

1.数组 2.set 使用序引用set头文件 unordered_set需引用unordered_set 3.map unordered_map需引用unordered_map头文件

error: ‘PixelPacket’ in namespace ‘Magick’ does not name a type

最近做一个项目需要配置ImageMagick库,本项目配置环境如下: ImageMagick version 7 Operating system, version and so on ubuntu 20.04 Descriptionerror: ‘PixelPacket’ in namespace ‘Magick’ does not name a type 这是在运行程序时候出现的问题…

优维低代码实践:搜索功能

优维低代码技术专栏,是一个全新的、技术为主的专栏,由优维技术委员会成员执笔,基于优维7年低代码技术研发及运维成果,主要介绍低代码相关的技术原理及架构逻辑,目的是给广大运维人提供一个技术交流与学习的平台。 优维…

设单链表中有仅三类字符的数据元素(大写字母、数字和其它字符),要求利用原单链表中结点空间设计出三个单链表的算法,使每个单链表只包含同类字符。

使用C语言编写的算法,将原单链表根据字符类型拆分为三个单链表。其中,大写字母链表(upperList)、数字链表(digitList)和其他字符链表(otherList)分别用于存储相应类型的字符。 `Upper Case List`存储了大写字母A、C, `Digit List`存储了数字1、2、3, `Other List`存…

C语言数据结构-----栈和队列练习题(分析+代码)

前言 前面的博客写了如何实现栈和队列,下来我们来看一下队列和栈的相关习题。 链接: 栈和队列的实现 文章目录 前言1.用栈实现括号匹配2.用队列实现栈3.用栈实现队列4.设计循环队列 1.用栈实现括号匹配 此题最重要的就是数量匹配和顺序匹配。 用栈可以完美的做到…

Egg.js中Cookie和Session

Cookie HTTP请求是无状态的,但是在开发时,有些情况是需要知道请求的人是谁的。为了解决这个问题,HTTP协议设计了一个特殊的请求头:Cookie。服务端可以通过响应头(set-cookie)将少量数据响应给客户端&#…

电子学会C/C++编程等级考试2023年03月(二级)真题解析

C/C++等级考试(1~8级)全部真题・点这里 第1题:数字字符求和 请编写一个程序实现以下功能:从一个字符串中,提取出所有的数字字符即0-9,并作为数求和。 时间限制:1000 内存限制:65536输入 一行字符串,长度不超过100,字符串中不含空格。输出 字符串中所有数字字符作为数…

三维gis中用纹理限定多边形地理区域

在三维 gis 中经常需要在指定的多边形地理范围内做一些操作,比如地形的多边形裁剪、压平多边形区域内的倾斜摄影模型、在指定地理范围内绘制等间距的点等。这都涉及到限定多边形区域的问题。 所谓的限定多边形地理区域,核心问题在于判断某个片元是否处于…

1和0的故事-MISC-bugku-解题步骤

——CTF解题专栏—— 题目信息: 题目:1和0的故事 作者:Eas0a 提示:无 解题附件: 解题思路: 哦?1和0的故事?(奸笑.jpg),打开看看啊。 emmm...j…

Java电子招投标采购系统源码-适合于招标代理、政府采购、企业采购、等业务的企业

项目说明 随着公司的快速发展,企业人员和经营规模不断壮大,公司对内部招采管理的提升提出了更高的要求。在企业里建立一个公平、公开、公正的采购环境,最大限度控制采购成本至关重要。符合国家电子招投标法律法规及相关规范,以及审…

高级/进阶”算法和数据结构书籍推荐

“高级/进阶”算法和数据结构书籍推荐《高级算法和数据结构》 高级算法和数据结构 为什么要选择本书 谈及为什么需要花时间学算法,我至少可以列举出三个很好的理由。 (1)性能:选择正确的算法可以显著提升应用程序的速度。仅就搜索来说,用二…

【AICFD案例教程】PCB多变量AI预测分析

AICFD是由天洑软件自主研发的通用智能热流体仿真软件,用于高效解决能源动力、船舶海洋、电子设备和车辆运载等领域复杂的流动和传热问题。软件涵盖了从建模、仿真到结果处理完整仿真分析流程,帮助工业企业建立设计、仿真和优化相结合的一体化流程&#x…

IDEA不支持Java8了怎么办?

IDEA不支持Java8了怎么办? 01 异常发生场景 当我准备创建一个springboot项目时,发现Java8没了 02 问题的产生及其原因 查阅了官方文档之后,确认了是Spring Boot 不再支持 Java 8,不是我的问题,这一天终于还是来了 0…