Figure 01掀起了具身智能的崭新篇章

在人工智能的发展历程中,OpenAI始终扮演着创新的先锋角色。最近,他们与Figure公司的合作成果尤为引人注目,这一合作将多模态大模型技术成功应用于Figure 01机器人的开发中,为人类与机器的互动开辟了全新的时代。该机器人不仅能够与人类进行深入的对话交流,而且在最近的演示中,其展现出的互动能力令人印象深刻。

Figure公司在获得了包括OpenAI在内的多位重量级投资者的支持后,正式发布了Figure 01机器人。这一举措不仅标志着人工智能在具身智能领域的一大步,也展示了其在执行复杂任务方面的能力。Figure 01能够完成如递苹果、收拾塑料袋、归置杯盘等一系列复杂任务,这些任务的完成依赖于多模态大模型和由视觉驱动的transformer结构的policy network。

特别值得一提的是,Figure 01的policy network能够以高达200Hz的控制频率输出动作指令,这一成就在业界是极为罕见的。相比之下,谷歌的机器人大模型在控制频率上的最优结果仅为3Hz。如果Figure 01的policy network能够实现从图像输入端到端直接输出到动作,且达到200Hz的控制频率,这无疑是一项令人惊叹的技术突破。

Figure 01的核心技术在于其端到端的神经网络框架。机器人通过摄像头和麦克风捕获环境中的图像和声音,这些数据随后被输入到OpenAI的多模态模型中。该模型不仅处理对话记录,还能结合过去的图像数据和对话数据,生成语言响应和执行策略。尤其值得关注的是,Figure 01采用了端到端的视觉到action的transformer网络来执行策略,这种策略能够直接将像素信息映射为动作指令,并以极高的频率生成这些指令,从而实现精准且迅速的响应。

在这里插入图片描述

一些个人的推测:

1)理解和规划部分大概率用的是openai 内部的GPT4V或更强的模型

2)按照他公布的policy network的控制频率来看,不太像是一个RT系列的那种通用大模型,RT系列随着不断地scale up能力不断提升,而推理速度和控制频率随着模型变大牺牲了很多,其最快的控制频率也只做到3HZ,因此从这方面推测,Figure01的policy network大概率是一些被封装成API可被上层多模态大模型调用的小的端到端的策略网络,能够实现一小类任务和在一类物体之间的泛化,并由他们组建成为了一个庞大的技能库来供上层的多模态大模型调用。这块最典型的例子是谷歌出品的SayCan[1], 其构建了囊括上百个技能的技能库(但都比较简单以桌面的pick and place为主)通过大语言模型的决策和技能库的适配度选取当前步需要调用的技能。
在这里插入图片描述

目前国内团队也在搭建类似的多模态细粒度决策框架,典型的例子是RoboCodeX[2],其由多模态大模型做code层级的细粒度调度,根据任务需要和视觉观测以具体问题具体分析的方式调用各种机器人专用模型来完成工作(工具包括抓取模型anygrasp、关节体预测模型GAMMA等)。在这类框架下,不断收集高质量的机器人数据,利用模仿学习得到能够解决复杂任务的netwotk并补充进技能库之中是关键。上海人工智能实验室最近还推出了基于ROS系统支持多模态大模型和大语言模型做代码生成的机器人评测平台RoboScript[3].

Framework of RoboCodeX
在这里插入图片描述

Framework of RoboScript
在这里插入图片描述

3)Figure01应该建立了庞大的数据飞轮,包括遥操作体系下的人类辅助数据收集和仿真平台上的自动化数据收集,利用数据飞轮收集了海量的专家示范数据,并基于端到端模仿学习的框架封装成了可被上层多模态大模型调用的API的形式。真机数据收集的廉价化和仿真数据收集的自动化是实现这一路径的关键。斯坦福有两篇代表性的工作:

a) Universal Manipulation Interface[4]:

这是一个由斯坦福大学、哥伦比亚大学和丰田研究所的研究者开发的框架,用于数据收集和策略学习。
UMI使用手持夹持器,可以简单快速且低成本地收集训练机器人所需的数据。
它考虑了机器人观察环境的延迟、拿到环境数据后做推理的延迟,以及推理完成到做出动作的延迟。
UMI使用鱼眼镜头感知环境,并通过改造SLAM与GoPro内置的IMU传感器结合使用,提供立体观察。
它使用扩散策略进行动作预测,这是一种将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。
UMI的硬件成本相对较低,使得数据收集更加经济高效。
项目地址:UMI GitHub(链接:https://github.com/real-stanford/universal_manipulation_interface)

在这里插入图片描述

b) Scaling Up and Distilling Down[5]: Language-Guided Robot Skill Acquisition(利用大语言模型辅助自动化利用仿真环境收集专家数据)

为了扩展数据生成,使用大型语言模型(LLM)指导高级规划,并通过基于采样的机器人规划器生成丰富和多样的操作轨迹。
为了强化数据收集过程,语言模型还推断出每个任务的成功条件代码片段,这使得数据收集过程能够检测失败并重试,同时自动标记轨迹为成功或失败。
为了将数据提炼成实际部署的政策,扩展了单任务行为克隆方法到多任务设置中,并加入语言条件。

在这里插入图片描述

4)Figure01的机械臂和灵巧手的动作高度丝滑,这样的表现背后应该是一系列先进机器人控制技术的集成和应用。要达到这样的丝滑效果应该包括速度控制器和力矩控制技术的结合(汇总自@东林钟声大佬的分析),以及对重力和摩擦力的精确计算和补偿。在机械臂的控制系统中,速度控制器扮演着至关重要的角色。它能够确保机械臂在执行任务时,无论是加速还是减速,都能保持平滑过渡,避免因速度突变而产生的振动或冲击,这对于提高作业效率和保护机械结构都至关重要。力矩控制技术则是确保机械臂和灵巧手能够精确施加力量的关键。在灵巧手的关节内部,通常会配置力矩传感器,这些传感器能够实时监测和反馈手部施加的力量。精确地读取和响应力量变化,从而实现对灵巧手动作的精确控制。这种精确的力量控制,使得机械臂不仅能够抓取和操作各种形状和重量的物体,还能够模拟人类手部的细腻动作,如轻柔地抚摸或者稳定地握持。为了实现更高级别的精确控制,系统还需要能够计算和补偿各种外部和内部因素的影响。重力和摩擦力是影响机械臂和灵巧手动作的两个主要因素。通过先进的算法,系统可以预测和计算这些力的作用,并在控制过程中进行相应的补偿。这样,即使在复杂的操作环境中,机械臂和灵巧手也能够保持稳定和精确的性能。为了实现更高级别的精确控制,系统还需要能够计算和补偿各种外部和内部因素的影响。重力和摩擦力是影响机械臂和灵巧手动作的两个主要因素。通过先进的算法,系统可以预测和计算这些力的作用,并在控制过程中进行相应的补偿。这样,即使在复杂的操作环境中,机械臂和灵巧手也能够保持稳定和精确的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/751529.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Matlab|【免费】基于半不变量的概率潮流计算

目录 主要内容 部分代码 结果一览 下载链接 主要内容 该程序主要内容是基于半不变量法的概率潮流,包含蒙特卡洛模拟法、半不变量法+Gram-Charlier级数展开以及半不变量法Cornish-Fisher级数展开三种方法以及效果对比,模型考虑了…

Python 查找并高亮PDF中的指定文本

在处理大量PDF文档时,有时我们需要快速找到特定的文本信息。本文将提供以下三个Python示例来帮助你在PDF文件中快速查找并高亮指定的文本。 查找并高亮PDF中所有的指定文本查找并高亮PDF某个区域内的指定文本使用正则表达式搜索指定文本并高亮 本文将用到国产第三方…

cesium.js加载模型后,重新设置旋转角度属性值

// 加载模型var position Cesium.Cartesian3.fromDegrees(longitude, latitude, height);// 计算矩阵var rollAngleDegrees 15; // 设置翻滚角度var rollAngleRadians Cesium.Math.toRadians(rollAngleDegrees); // 将角度转换为弧度var orientation Cesium.Transforms.eas…

安装Pytorch——CPU版本

安装Pytorch——CPU版本 1. 打开pytorch官网2. 选择pip安装pytorch-cpu3.复制安装命令4. 在cmd命令窗口,进入你的虚拟环境4.1 创建虚拟环境4.2 进行安装 5. 安装成功6. 进行测试——如下面步骤,如图6.1 输入 python6.2 输入 import torch6.2 输入 print …

鸿蒙Harmony应用开发—ArkTS声明式开发(基础手势:Web)中篇

onBeforeUnload onBeforeUnload(callback: (event?: { url: string; message: string; result: JsResult }) > boolean) 刷新或关闭场景下,在即将离开当前页面时触发此回调。刷新或关闭当前页面应先通过点击等方式获取焦点,才会触发此回调。 参数…

微信小程序-微信支付

微信支付介绍 梳理一下流程: 1、用户点击下单,小程序向商户系统(我们的服务器)发起请求,服务器生成一个唯一订单号给小程序。 2、小程序向服务器发起微信支付请求,服务器调用微信下单接口,微信…

【教学类-34-10】20240313 春天拼图(Midjounery生成线描图,4*4格拼图块)(AI对话大师)

作品展示: 背景需求: 利用华文彩云空心字(粗胖字体。凑满9个拼图)制作了3*3的拼图块 【教学类-34-09】20240310华文彩云学号拼图(3*3格子浅灰底图 深灰拼图块)(AI对话大师)-CSDN博…

Android14之报错:error:add its name to the whitelist(一百九十四)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

juc(3)

进程 程序由指令和数据组成,到哪有些指令需要执行,有些要读写,句必须将指令加载到cpu,数据加载到内存,再指令运行过程中还要用到磁盘,网络等设备.进程就是用来加载指令.管理内存,管理io的 当一个程序被运行,从磁盘加载这个程序的代码到内存,这时就开启了一个进程 进程可以视…

Elasticsearch 索引库操作 文档操作

索引库就类似数据库表,mapping映射就类似表的结构。要向es中存储数据,必须先创建“库”和“表”。 mapping映射属性 mapping是对索引库中文档的约束,常见的mapping属性包括: type: 字段数据类型,常见的简…

MySQL语法分类 DQL(2)条件查询

为了更好的学习这里给出基本表数据用于查询操作 create table student (id int, name varchar(20), age int, sex varchar(5),address varchar(100),math int,english int );insert into student (id,name,age,sex,address,math,english) values (1,马云,55,男,杭州,66,78),…

python绘制双列堆积柱形图

python绘制单列堆积柱形图 : python绘制单列堆积柱形图-CSDN博客 一、代码 import numpy as np import matplotlib.pyplot as pltN 10 menMeans np.array([[20, 35], [15, 25], [15, 25], [15, 25], [15, 25], [15, 25], [15, 25], [15, 25], [15, 25], [15, 25]…

HAProxy高性能负载均衡器

一、HAProxy基础知识 (一)HAProxy概述 HAProxy是一款基于事件驱动、单进程模型设计的四层与七层负载均衡器,它能够在TCP/UDP层面以及HTTP(S)等应用层协议上实现高效的流量分发。HAProxy不仅适用于Web服务器负载均衡,还能应用于数据…

【matlab】如何批量修改图片命名

【matlab】如何批量修改图片命名 (●’◡’●)先赞后看养成习惯😊 假如我的图片如下,分别是1、2、3、4、5的命名 需求一:假如现在我需要在其后面统一加上_behind字符串,并且保留原命名,同时替换掉原先的图片,也就是不copy新的一份,直接在原文件夹中处理,我们可以进行…

基于springboot+vue的大学生兼职系统的设计与实现(源码+论文)

作者主页:Java程序员老张 主要内容:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app等设计与开发。 收藏点赞不迷路 关注作者有好处 文末获取源码 技术选型 【后端】:Java 【框架】:…

Java零基础入门-LinkedHashMap集合

一、本期教学目标 学习LinkedHashMap集合的概念及特点。学习LinkedHashMap存储结构。学习LinkedHashMap集合常用方法及示例代码演示。 二、正文 1、概述 我们学习了map接口之HashMap集合,今天我们要来学习map接口的另一个实现类-LinkedHashMap,不知道…

算法思想总结:滑动窗口算法

创作不易&#xff0c;感谢三连 一.长度最小的数组 . - 力扣&#xff08;LeetCode&#xff09;长度最小的数组 class Solution { public:int minSubArrayLen(int target, vector<int>& nums) {int lenINT_MAX,nnums.size(),sum0;//len必须要给一个很大的数&#xf…

go rabbitmq 操作

go rabbitmq 操作 go 依赖包github.com/streadway/amqp docker快速部署 docker pull rabbitmq:management docker run -d rabbitmq:management # 先跑一个看看监听了哪些端口 docker run -d --name rabbitmq -p 5672:5672 -p 15672:15672 rabbitmq #5672 go 程序连接&#x…

Java-并发编程--ThreadLocal、InheritableThreadLocal

1.ThreadLocal 作用 作用&#xff1a;为变量在线程中都创建副本&#xff0c;线程可访问自己内部的副本变量。该类提供了线程局部 (thread-local) 变量&#xff0c;访问这个变量&#xff08;通过其 get 或 set 方法&#xff09;的每个线程都有自己的局部变量&#xff0c;它独立…

CleanMyMac X2024免费绿色版安装包下载

在当今这个数字化时代&#xff0c;我们的生活和工作中离不开电脑&#xff0c;尤其是对于Mac用户而言&#xff0c;更是需要一个轻巧、快捷的解决方案来保持电脑的高效运转。CleanMyMac X正是为此而生&#xff0c;它将帮助您清理Mac中的垃圾文件、优化系统性能&#xff0c;让您的…