人形机器人进展:IEEE Robotics出版双臂通用协同机械手操作架构

文章目录

  • 1. Main
  • 2. My Thoughts
  • Reference
  • 彩蛋
    • a. OpenAI 投资: 人形机器人公司 Figure AI
    • b. 人工智能软件工程师 Devin 上线

1. Main

在这里插入图片描述

图1 人居环境下的人形双臂机器人系统

通用人形机器人 作为近年来机器人与AI交叉领域的研究热点和技术竞争高地,因其具备在 非结构化人居环境 中承担各种琐碎家务的潜力而得到广泛关注。 人形双臂系统 直接承载着人形机器人操作任务的执行能力,通用且灵巧的操作不仅依赖先进的感知与推理决策,而且对复杂的协同规划控制设计提出了极高要求。

现有研究工作大多专注在解决某一特定层级的问题 ,例如环境-物体的感知、推理与策略生成、机器人系统的规划或操作控制, 并且方案通常与特定的被操作物体或任务强相关,难以迁移和泛化。

任意抓取和操作具有各种几何和物理特性的任意物体是人形双臂机器人系统通用化的技术体现,构建一个通用的感知-规划-控制架构有望能利用双臂系统硬件本体能力并充分发挥其灵巧性和多功能性的特点,弥合AI技术与机器人技术间的鸿沟。近日, 机器人领域顶级期刊IEEE Transactions on Robotics 上在线出版了长文 Enabling Versatility and Dexterity of the Dual-Arm Manipulators: A General Framework toward Universal Cooperative Manipulation。这项研究工作设计并提出了业界首个双臂通用协同灵巧操作架构, 该架构在感知层、双手抓取、协同操作规划和底层控制等方面提供了丰富的接口,具有很高的通用性、可扩展性和兼容性

基于该框架研究人员实现了包括协同旋拧、人机物理协同操作、协同倒水、基于物体可供性和意图识别的动态交互、干扰抑制和大体积物体的自主交接等各种显著差异化的任务。

在这里插入图片描述

图2 干扰抑制

该项研究一作兼通讯作者为任义博士,共同作者包括张正友教授和Martin Buss教授两位IEEE Fellow,人形机器人总师倪风雷教授郑宇博士以及杨扬教授两位IEEE Senior Member等多位机器人领域专家。

在这里插入图片描述

图3 协同抓取与操作的双臂系统

在这里插入图片描述

图4 双臂协同操作多优先级优化框架

Long-Horizon重排实验

在long-horizon重排实验中,双臂机器人系统连续抓取和操作人居环境中常见的桌面书架,储物篮和显示器支架这3个未建模物体,实验结果表明双臂机器人在所设计的通用架构下能协同抓取大尺寸物体并能在执行复杂协同操作任务过程中全自主高精度避自碰。

在这里插入图片描述

近期引发业界热议的 Tesla Optimus 机器人以及 Mobile ALOHA 在双臂灵巧操作方面的最新成果均采用基于模仿学习的人-机技能迁移路线,以期望达成双臂灵巧操作技能的泛化。自上而下研究具身智能并自下而上研究机器人操作规划与控制,有助于弥合AI与Robotics之间的技术鸿沟,提升基于AI生成的操作策略在物理世界中执行的稳定性和可靠性,加速双臂系统全自主通用化的到来。


更多内容和视频资料可阅读论文原文。
IEEE Transactions on Robotics:Enabling Versatility and Dexterity of the Dual-Arm Manipulators: A General Framework toward Universal Cooperative Manipulation

https://ieeexplore.ieee.org/document/10449470

2. My Thoughts

我看到的是人工智能大模型方法 对 传统机器人自下而上的控制方法的降维打击,或者更准确的说 结合。智能技术 对现有信息电子世界的影响,就像上世纪 数字/模拟电子技术 对精密机械生产技术的颠覆影响,比如IBM数字计算器的诞生对机械式打字机的替换,直接让机械技术淡出历史舞台。智能技术 展现出让现有一切信息技术 被颠覆式影响的可能。 ​​​

世界各地 商业化公司/资本 重金介入机器人领域的研究后,通用人形机器人的进展得到了极快提高。过往机器人研究团队30年、5年的进展成果,近期 初始团队/公司 在十几天、一年、两年的时间里就推出类似成果,2023年大模型的兴起 再次点燃了人们对于机器人操作能力的想象。

不过,传统通过编程和计算机仿真实现的机器人操控,新创公司有可能是通过人机协控系统模仿实现,但在宣传时更强调了大模型的作用,毕竟很多公司设立的目的是为了逐利,与学术界不同,公司也没有公开的、或经过了同行评审的 技术报告/权威期刊会议刊登的论文 公布出来。让子弹飞一会儿。

尽管如此,无可否认,通用人形机器人正在进入产业爆发的前夕。

Reference

https://mp.weixin.qq.com/s/GVS-39N6oSgwfDmeDUa0tA

彩蛋

a. OpenAI 投资: 人形机器人公司 Figure AI

北京时间2024年 3 月 13 日深夜,一段人形机器人的视频开始在 X 上热传。

擎天柱最大劲敌来了,Figure one调用OpenAI API实现惊人效果,已获超额融资

在视频中,Figure 的人形机器人,可以完全与人类流畅对话,理解人类的意图,同时还能理解人的自然语言指令进行抓取和放置,并解释自己为什么这么做。

在过去一年的具身智能进展中,或许你曾经看过类似的机器人自主决策、拿取物品的展示,但在这段视频中,Figure 人形机器人的对话流畅度、展现出的智能感,接近人类操作速度的动作流畅性,绝对都是第一流的。

Figure 还特意强调,整段视频没有任何加速,也没有任何剪辑,是一镜到底拍摄的。同时,机器人是在完全自主的情况下进行的行为,没有任何远程操纵

在这里插入图片描述
Figure 01 引入 AI 学会做咖啡 | 图片来源:Figure

比起机器人的智能表现,更可怖的是——从 OpenAI 宣布与 Figure 共同合作推进人形机器人领域的前沿,到这个视频的发布,只有短短的十三天。而 Figure 本身,成立于 2022 年。

图片来源:Corey Lynch 的 X
图片来源:Corey Lynch 的 X


2024 年 3 月初,OpenAI 和其他投资人一起,参与了 Figure 的 B 轮融资,使其成立两年,就达到了 26 亿美金估值

Figure 的创始人 Brett Adcock,是个「擅长组局」的连续创业者,整个职业生涯中创立过至少 7 家公司,其中一家以 27 亿美元的估值上市,一家被 1.1 亿美元的价格收购。创建公司后,他招募到了研究科学家 Jerry Pratt 担任首席技术官,前波士顿动力/苹果工程师 Michael Rose 担任机器人控制主管。此次进行分享的 AI 团队负责人 Corey Lynch,则原本是 Google Deepmind 的 AI 研究员。

Figure 宣布自己在电机、固件、热量、电子产品、中间件操作系统、电池系统、执行器传感器、机械与结构方面,都招募了硬核的设计人才。公司的确进展很快。在与 OpenAI 合作之前,已经做出了不少成绩。

2024 年 1 月,Figure 01(Figure 的第一款人形机器人) 学会了做咖啡,公司称,这背后引入了端到端神经网络,机器人学会自己纠正错误,训练时长为 10 小时。2024年 2 月,公司对外展示 Figure 01 的最新进展,在视频里,这个机器人已经学会搬箱子,并运送到传送带上,但速度只有人类的 16.7%。

商业化上,也已经迈出了第一步:Figure 宣布与宝马制造公司签署商业协议,将 AI 和机器人技术整合到汽车生产中,部署在宝马位于南卡罗来纳州斯巴达堡的制造工厂。


北京时间 3 月 13 日,来自谷歌研究团队、加州大学伯克利分校、斯坦福大学教授等一群研究者新成立的一家机器人 AI 公司 Physical Intelligence,被彭博社爆料也拿到了 OpenAI 的融资。毫无意外,该公司也是研究未来能够成为通用机器人系统的人工智能。

https://mp.weixin.qq.com/s/YdWRNPkNdt1iYcfD4S26pw

b. 人工智能软件工程师 Devin 上线

近日,首个人工智能软件工程师 Devin 发布。在 SWE-bench 基准测试中,它无需人类帮助,可解决 13.86% 的问题。相比之下,GPT-4 只能处理 1.74% 的问题,且都需要人类提示告知处理哪些文件。Devin 被介绍为世界首个完全自主的 AI 软件工程师。据介绍,它已经成功通过一家 AI 公司面试,并且在 Upwork 上完成了实际工作。

Devin 背后公司名为 Cognition AI,总部设在纽约和旧金山,定位是一家专注于推理的应用 AI 实验室。目前该团队规模仅有 10 人,但共揽获了 10 枚 IOI 金牌。

目前,Devin 尚未对外开放,但已经有不少开发人员和产品人员拿到了测试资格,并再次引发了 AI 能否替代程序员的讨论。

https://mp.weixin.qq.com/s/TUxFqotS2pzPvTCpSt0hTw

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/749577.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度强化学习(六)(改进价值学习)

深度强化学习(六)(改进价值学习) 一.经验回放 把智能体与环境交互的记录(即经验)储存到 一个数组里,事后反复利用这些经验训练智能体。这个数组被称为经验回放数组(replay buffer)。 具体来说, 把智能体的轨迹划分成 ( s t , a t , r t ,…

软件工程(Software Engineering)

一、软件工程概述 1.软件生存周期 软件: 包含程序、数据及相关文档 软件工程: 涉及到软件开发、维护、管理等多方面的原理、工具与环境。最终的目的是开发高质量的软件。 目的: 提高软件生产率、提高软件质量、降低软件成本。 文档的作用&…

一瓶5.86万,听花酒什么来头?

听花酒,到底什么来头? 宣称有提升免疫力、改善睡眠、保障男性功能、调节生理紊乱、抗衰老等功效的听花酒,被315晚会曝光了。 相关话题词随即冲上了热搜。之后,售价最高达58600元的听花酒被京东、拼多多、淘宝等电商平台火速下架…

Stable Diffusion 阿里云搭建FC实现文生图模型

AI的创造力真的很奇妙。 提示词:杰作,最佳品质,非常详细,七龙珠,孙悟空,西游记,仙境,动态角度,火焰山,小岛,站立,携带魔兽&#xff0…

主干网络篇 | YOLOv8更换主干网络之ShuffleNetV2(包括完整代码+添加步骤+网络结构图)

前言:Hello大家好,我是小哥谈。ShuffleNetV2是一种轻量级的神经网络架构,用于图像分类和目标检测任务。它是ShuffleNet的改进版本,旨在提高模型的性能和效率。ShuffleNetV2相比于之前的版本,在保持模型轻量化的同时&am…

预备知识:深入理解接口测试!

实验简介 随着移动互联网甚至物联网的触角深入到人们生活的每个场景,每个角落,伴随而来的便是企业对其软件系统接口定义和研发,以便于进行数据传输和交换。由此导致目前企业急需大量专职接口测试工程师,因为接口测试天然具备自动…

c++算法学习笔记 (8) 树与图部分

1.树与图的存储 &#xff08;1&#xff09;邻接矩阵 &#xff08;2&#xff09;邻接表 // 链式前向星模板&#xff08;数组模拟&#xff09; #include <iostream> #include <cstring> #include <algorithm> using namespace std; const int N 100010, M …

【RS422】基于未来科技FT4232HL芯片的多波特率串口通信收发实现

功能简介 串行通信接口常常用于在计算机和低速外部设备之间传输数据。串口通信存在多种标准&#xff0c;以RS422为例&#xff0c;它将数据分成多个位&#xff0c;采用异步通信方式进行传输。   本文基于Xilinx VCU128 FPGA开发板&#xff0c;对RS422串口通信进行学习。   根…

家具工厂5G智能制造数字孪生可视化平台,推进家具行业数字化转型

家具制造5G智能制造工厂数字孪生可视化平台&#xff0c;推进家具行业数字化转型。随着科技的飞速发展&#xff0c;家具制造业正迎来一场前所未有的数字化转型。在这场家具制造业转型中&#xff0c;5G智能制造工厂数字孪生可视化平台发挥着至关重要的作用。 5G智能制造工厂数字孪…

MySQL语法分类 DQL(3)排序查询

为了更好的学习这里给出基本表数据用于查询操作 create table student (id int, name varchar(20), age int, sex varchar(5),address varchar(100),math int,english int );insert into student (id,name,age,sex,address,math,english) values (1,马云,55,男,杭州,66,78),…

华为数通方向HCIP-DataCom H12-821题库(多选题:161-180)

第161题 以下关于IPv6优势的描述,正确的是哪些项? A、底层自身携带安全特性 B、加入了对自动配置地址的支持,能够无状态自动配置地址 C、路由表相比IPv4会更大,寻址更加精确 D、头部格式灵活,具有多个扩展头 【参考答案】ABD 【答案解析】 第162题 在OSPF视图下使用Filt…

降维算法之t-SNE (t-Distributed Stochastic Neighbor Embedding)

注意&#xff1a;本文引用自专业人工智能社区Venus AI 更多AI知识请参考原站 &#xff08;[www.aideeplearning.cn]&#xff09; t-SNE是一种用于探索高维数据结构的非线性降维技术。它特别适用于高维数据的可视化&#xff0c;因为它能够在低维空间中保留原始高维数据的局部结…

[WUSTCTF2020]朴实无华

查看robots.txt 找到/fAke_flagggg.php 显然这是个假的flag&#xff0c;但是我们在header处发现了fl4g.php 近来发现中文全部变成了乱码 插件转成utf8后正常显示 <?php header(Content-type:text/html;charsetutf-8); error_reporting(0); highlight_file(__file__);//leve…

Linux 系统调用函数fork、vfork、clone详解

文章目录 1 fork1.1 基本介绍1.2 fork实例1.2.1多个fork返回值1.2.2 C语言 fork与输出1.2.3 fork &#x1f4a3; 2 vfork2.1 基本介绍2.2 验证vfork共享内存 3 clone3.1 基本介绍3.2 clone使用 1 fork 1.1 基本介绍 #include <sys/types.h> #include <unistd.h>p…

PS学习-抠图-蒙版-冰块酒杯等透明物体

选中图&#xff0c;ctrlA 全选 ctrlC复制 创建一个蒙版图层 选中蒙版Alt 点击进入 ctrlv 复制 ctrli 反转 原图层 ctrldelete填充为白色 添加一个背景&#xff0c;这个方法通用 首选创建一个 拖到最底部 给它填充颜色 这个可能是我图片的原因。视频是这样做的

五子棋小游戏(sut实验报告)

实验目的 实现人与人或人与电脑进行五子棋对弈 实验内容 启动游戏&#xff0c;显示游戏参数设置界面&#xff0c;用户输入参数后进入游戏界面&#xff0c;显示棋盘及双方博弈过程&#xff0c;游戏过程中可选择退出游戏。判定一方获胜后结束本局游戏&#xff0c;可选择继续下…

Fiddler抓不到包

fiddler该设置的设置好之后&#xff0c;为啥就是抓不到包 以下都是以谷歌浏览器为例子 方法一&#xff1a; 将fidder证书导入到浏览器&#xff0c;设置搜索证书-->安全-->管理证书 这里可以看到将证书导入之后样子&#xff0c;名字为&#xff1a;DO_NOT_TRUST_Fiddler…

Linux操作系统裸机开发-环境搭建

一、配置SSH服务 1、下载安装ssh服务输入以下命令 sudo apt-get install nfs-kernel-server portmap2、建立一个供SSH服务使用的文件夹如以下命令 mkdir linux 3、完成前两步之后需要将其文件路径放到/etc/exports文件里输入以下命令&#xff1a; sudo vi /etc/esports 4.打…

线性回归 quickstart

构建一元一次方程 100个&#xff08;X, y &#xff09;&#xff0c;大概是’y3x4’ import numpy as npnp.random.seed(42) # to make this code example reproducible m 100 # number of instances X 2 * np.random.rand(m, 1) # column vector y 4 3 * X np.random…

最详细数据仓库项目实现:从0到1的电商数仓建设(数仓部分)

1、数仓 数据仓库是一个为数据分析而设计的企业级数据管理系统&#xff0c;它是一个系统&#xff0c;不是一个框架。可以独立运行的&#xff0c;不需要你参与&#xff0c;只要运行起来就可以自己运行。 数据仓库不是为了存储&#xff08;但是能存&#xff09;&#xff0c;而是…